顾轶灵
- 作品数:7 被引量:9H指数:2
- 供职机构:复旦大学更多>>
- 发文基金:国家科技支撑计划国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于多维语义的互联网药品信息提取方法被引量:1
- 2011年
- 提出了基于多维语义的互联网药品信息提取方法,构建语义词典通过从多个维度对互联网药品知识进行描述,克服了不同来源网页之间的异构性并找出了其隐藏的共性。同时,采用了基于结构语义熵的方法对目标网页信息聚集区域进行定位,从中提取感兴趣的药品信息。最后再通过语义词典对提取的信息进行验证并自动生成XPath提取规则进行补充。该方法能够自动有效地从互联网的多个信息来源获取药品信息,实验证明其具有较高的准确性与召回率,可以为政府相关部门加强互联网药品市场监管提供足够的信息依据。
- 顾轶灵
- 关键词:WEB信息提取XPATH
- 一种基于网页结构语义的互联网信息对象定位方法
- 本发明属于互联网技术领域,具体为一种基于网页结构语义的互联网信息对象定位方法。本发明方法首先将检索到的相关网页的HTML代码转换为DOM树结构;然后根据互联网信息对象语义词典为每个文本节点进行语义匹配,分配不同的语义角色...
- 李银胜廖逸吴晓彦顾轶灵沈元一
- 文献传递
- 基于语义的互联网药品信息抽取算法被引量:7
- 2011年
- 针对现有互联网信息抽取技术存在准确率不高、覆盖率低、人工干预多等诸多缺陷,提出了一种新的互联网药品信息抽取算法,通过引入语义技术构建三维语义词典,屏蔽不同药品信息网页在内容和结构上的异构性,同时利用所需抽取的目标药品属性信息具有一定聚集度的特征,基于信息熵的理论设计出对目标信息智能定位和抽取的方法。实验证明该算法既能降低人工干预,又具备较高的准确率和召回率。应用该算法能实时自动全面准确地获取互联网药品信息,为政府药监部门提供丰富的监管依据,对规范医药电子商务市场,保证人们的用药安全具有重要的现实意义。
- 沈元一郑骁庆顾轶灵
- 关键词:WEB信息抽取语义词典DOMXPATH医药电子商务
- 基于多维语义的互联网药品信息抽取的研究与应用
- 近年来互联网药品市场随着电子商务的发展日益扩大,但随之而来的隐患也在不断加剧。面对互联网上充斥的大量不规范甚至是虚假的药品信息,监管部门急需一种先进的互联网药品信息监测手段来加强对这个市场的规范管理。为此,复旦大学和清华...
- 顾轶灵
- 关键词:WEB信息抽取XPATH
- 文献传递
- 一种违规在线产品信息的智能判断方法与系统
- 本发明涉及搜索引擎和在线产品信息的智能判断方法和计算机系统实现方法,基于元搜索技术得到在线产品信息页面,利用基于语义分析和网页结构分析技术抽取产品详细属性信息,利用预定义的在线产品信息发布规范,通过智能比对判断产品信息的...
- 李银胜郑骁庆吴晓彦沈元一顾轶灵王海栋
- 文献传递
- 一种基于网页结构语义的互联网信息对象定位方法
- 本发明属于互联网技术领域,具体为一种基于网页结构语义的互联网信息对象定位方法。本发明方法首先将检索到的相关网页的HTML代码转换为DOM树结构;然后根据互联网信息对象语义词典为每个文本节点进行语义匹配,分配不同的语义角色...
- 李银胜廖逸吴晓彦顾轶灵沈元一
- 基于结构语义熵的网上商品信息提取系统被引量:2
- 2010年
- 目前网上销售已成为一种重要的商品销售途径,其中商品网页信息提取是商品发布信息监测、商品比价等应用的技术基础。传统的网页信息提取系统在提取这些商品信息时存在人工干预过多和提取数据的针对性不强的问题。针对商品销售网站数据的具体表现形式,提出了一种基于结构语义熵的商品信息提取算法。该算法结合了商品的语义特征和网页的结构表现形式,可以实现全自动的网页商品提取。并通过实验证明了算法的有效性,和其在网上商品销售领域的普适性。
- 吴晓彦郑骁庆顾轶灵沈元一
- 关键词:网页信息提取