您的位置: 专家智库 > >

于静

作品数:1 被引量:5H指数:1
供职机构:南京邮电大学计算机学院更多>>
发文基金:国家重点实验室开放基金江苏省自然科学基金国家自然科学基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 1篇中文期刊文章

领域

  • 1篇自动化与计算...

主题

  • 1篇信息抽取
  • 1篇正则
  • 1篇正则表达式
  • 1篇结点
  • 1篇WEB信息
  • 1篇WEB信息抽...
  • 1篇HTMLPA...
  • 1篇抽取

机构

  • 1篇南京邮电大学

作者

  • 1篇成卫青
  • 1篇杨晶
  • 1篇杨龙
  • 1篇于静

传媒

  • 1篇计算机技术与...

年份

  • 1篇2013
1 条 记 录,以下是 1-1
排序方式:
基于页面分类的Web信息抽取方法研究被引量:5
2013年
通过对现有Web信息抽取方法和当前Web网页特点的分析,发现现有抽取技术存在抽取页面类型固定和抽取结果不准确的问题,为了弥补以上两个不足,文中提出了一种基于页面分类的Web信息抽取方法,此方法能够完成对互联网上主流信息的提取。通过对页面进行分类和对页面主体的提取,分别克服传统方法抽取页面类型固定和抽取结果不够准确的问题。文中设计了一个完整的Web信息抽取模型,并给出了各功能模块的实现方法。该模型包含页面主体提取、页面分类和信息抽取等模块,并利用正则表达式自动生成抽取规则,提高了抽取方法的通用性和准确性。最后用实验证实了文中方法的有效性与正确性。
成卫青于静杨晶杨龙
关键词:WEB信息抽取正则表达式HTMLPARSER
共1页<1>
聚类工具0