汪建伟
- 作品数:4 被引量:16H指数:1
- 供职机构:北京大学信息科学技术学院更多>>
- 相关领域:自动化与计算机技术更多>>
- 一种基于分类算法的网页信息提取方法被引量:16
- 2008年
- 在目前的Web信息提取技术中,很多都是基于HTML结构的,由于HTML结构的经常变化,使提取模板需要经常更新,而提取模板的更新需要很多领域知识。本文提出一种基于分类算法的Web信息提取方法,通过将网页文本按照其显示属性的不同进行分组,以显示属性值为基础对Web页面文本进行分类,获取所关注文本,从而完成对Web页面的信息提取。这种提取方法操作简单,易于实现,对网页结构的依赖性小。
- 汪建伟杨冬青高军王腾蛟
- 关键词:信息提取WRAPPER
- Web信息集成系统COMMIX中基于显示属性的网页信息提取子系统的设计与实现
- 随着Internet的快速发展和网络信息量的增长,Web信息已经成为当前人们生活必不可少的信息源。为了在Web这个大的信息库中查找、获取我们感兴趣的信息,我们通常的方式使用搜索引擎来查找相关信息。如Google,百度等。...
- 汪建伟
- 关键词:WEB信息集成网页信息提取DOMWRAPPER
- 一种基于显示属性的网页信息提取方法
- 在目前的Web信息提取技术中,很多都是基于HTML结构的,由于HTML结构的经常变化,使提取模板需要经常更新,而提取模板的更新需要很多领域知识。本文提出一种基于显示属性的Web信息提取方法,通过将网页文本按照其显示属性的...
- 汪建伟高军王腾蛟杨冬青
- 关键词:网页信息WEB信息提取文本分类
- 文献传递
- 一种基于显示属性的网页信息提取方法
- 在目前的 Web 信息提取技术中,很多都是基于 HTML 结构的,由于 HTML 结构的经常变化, 使提取模板需要经常更新,而提取模板的更新需要很多领域知识。本文提出一种基于显示属性的 Web 信息提取方法,通过将网页文...
- 汪建伟高军王腾蛟杨冬青
- 关键词:网页信息提取DOM包装器
- 文献传递