您的位置: 专家智库 > >

汪建伟

作品数:4 被引量:16H指数:1
供职机构:北京大学信息科学技术学院更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 2篇会议论文
  • 1篇期刊文章
  • 1篇学位论文

领域

  • 4篇自动化与计算...

主题

  • 4篇信息提取
  • 4篇网页
  • 4篇网页信息
  • 2篇网页信息提取
  • 2篇WEB信息
  • 2篇DOM
  • 2篇WRAPPE...
  • 1篇信息集成
  • 1篇信息集成系统
  • 1篇文本分类
  • 1篇包装器
  • 1篇WEB信息集...
  • 1篇WEB信息集...
  • 1篇WEB信息提...

机构

  • 4篇北京大学
  • 1篇中国人民解放...

作者

  • 4篇汪建伟
  • 3篇王腾蛟
  • 3篇高军
  • 2篇杨冬青

传媒

  • 1篇计算机科学
  • 1篇2007年全...
  • 1篇全国网络与信...

年份

  • 1篇2008
  • 3篇2007
4 条 记 录,以下是 1-4
排序方式:
一种基于分类算法的网页信息提取方法被引量:16
2008年
在目前的Web信息提取技术中,很多都是基于HTML结构的,由于HTML结构的经常变化,使提取模板需要经常更新,而提取模板的更新需要很多领域知识。本文提出一种基于分类算法的Web信息提取方法,通过将网页文本按照其显示属性的不同进行分组,以显示属性值为基础对Web页面文本进行分类,获取所关注文本,从而完成对Web页面的信息提取。这种提取方法操作简单,易于实现,对网页结构的依赖性小。
汪建伟杨冬青高军王腾蛟
关键词:信息提取WRAPPER
Web信息集成系统COMMIX中基于显示属性的网页信息提取子系统的设计与实现
随着Internet的快速发展和网络信息量的增长,Web信息已经成为当前人们生活必不可少的信息源。为了在Web这个大的信息库中查找、获取我们感兴趣的信息,我们通常的方式使用搜索引擎来查找相关信息。如Google,百度等。...
汪建伟
关键词:WEB信息集成网页信息提取DOMWRAPPER
一种基于显示属性的网页信息提取方法
在目前的Web信息提取技术中,很多都是基于HTML结构的,由于HTML结构的经常变化,使提取模板需要经常更新,而提取模板的更新需要很多领域知识。本文提出一种基于显示属性的Web信息提取方法,通过将网页文本按照其显示属性的...
汪建伟高军王腾蛟杨冬青
关键词:网页信息WEB信息提取文本分类
文献传递
一种基于显示属性的网页信息提取方法
在目前的 Web 信息提取技术中,很多都是基于 HTML 结构的,由于 HTML 结构的经常变化, 使提取模板需要经常更新,而提取模板的更新需要很多领域知识。本文提出一种基于显示属性的 Web 信息提取方法,通过将网页文...
汪建伟高军王腾蛟杨冬青
关键词:网页信息提取DOM包装器
文献传递
共1页<1>
聚类工具0