李嘉
- 作品数:3 被引量:3H指数:1
- 供职机构:北京林业大学信息学院更多>>
- 发文基金:中央高校基本科研业务费专项资金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于语义的林产品贸易Web信息抽取研究
- 随着电子商务的迅猛发展以及互联网信息技术的应用普及,信息推送服务在电子商务领域已经得到了广泛的应用。Web信息抽取技术在信息推送过程中实现了对Web信息源的提取和结构化存储,抽取结果直接影响了推送给用户的Web信息质量。...
- 李嘉
- 关键词:WEB信息抽取
- 基于语义的林产品贸易文本信息结构化研究被引量:2
- 2011年
- 根据林产品贸易文本信息推送中信息结构化存储的需要,结合语义识别的基本原理和基于规则的信息抽取方法,提出一种基于规则的林产品贸易文本信息抽取方法,利用林产品贸易文本信息的特征,定义林产品贸易文本信息的文本层次识别规则,采用创建数据库和数据表匹配识别规则,给出识别规则匹配的正则表达式和文本内容截取识别规则,以抽取需要的特定事实信息,并以一种结构化的形式存储于数据库中。通过对实际林产品贸易网站的文本信息结构化抽取,证明该研究在林产品贸易信息推送中具有较好的应用价值。
- 陈钊李嘉
- 关键词:语义林产品信息抽取
- 基于语义的林产品贸易Web信息抽取算法被引量:1
- 2014年
- 针对现有Web信息抽取技术存在的准确率不高,自动化程度较低以及通用性较弱等诸多不足,结合林产品贸易Web信息推送中对信息源进行结构化存储的需要,提出一种新的基于语义的林产品贸易Web信息抽取算法;充分分析并利用林产品贸易Web信息的特征,结合语义识别的基本原理,构建林产品贸易语义词典,同时利用所需抽取的目标信息在网页中的布局特征,结合信息熵理论提出了基于语义信息熵的目标信息自动定位抽取方法,以抽取需要的目标信息,并以一种结构化的形式存储于数据库中。通过实验对实际林产品贸易Web信息网页的抽取,证明了该算法能够降低人工干预,在林产品贸易信息推送中对信息源的处理具有较好的应用价值。
- 李嘉徐前王梓陈钊
- 关键词:WEB信息抽取