甘肃省科技基础条件平台建设计划项目(2GS067-A35-004-01)
- 作品数:2 被引量:9H指数:2
- 相关作者:王权施韶亭更多>>
- 相关机构:甘肃省科学技术情报研究所更多>>
- 发文基金:甘肃省应用技术研究与开发专项计划项目甘肃省科技基础条件平台建设计划项目甘肃省中青年科技研究基金更多>>
- 相关领域:自动化与计算机技术更多>>
- Web信息抽取技术在统一检索系统中的应用研究被引量:7
- 2010年
- 结合统一检索系统的信息抽取特点,应用基于HTML结构的信息抽取方法,介绍人工找到切割关键信息块的标记和位置的方法,最后提出基于子树广度的Web信息抽取方法,并给出了抽取规则的实现方案及实例。实验证明,该方法在基于Web过程模拟的统一检索系统中能保证很高的数据抽取回召率和查准率,并且成功应用于四家省级科技文献共享平台。
- 王权施韶亭
- 关键词:WEB信息抽取
- 基于Web过程模拟的动态Web信息获取被引量:2
- 2008年
- 介绍了分析相关Web页面的方法和经验,实现了自动提交HTML表单获得所需页面。采用性能优异的Web信息获取组件CURL,对大量科技文献网站的网页进行信息获取,实验表明CURL具有优异的处理速度,并成功应用到甘肃省科技文献共享平台的统一检索系统中。
- 王权
- 关键词:CURL