您的位置: 专家智库 > >

许文

作品数:2 被引量:17H指数:1
供职机构:北京信息科技大学中文信息处理研究中心更多>>
发文基金:国家自然科学基金北京市教育委员会科技发展计划北京市教委资助项目更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 1篇期刊文章
  • 1篇会议论文

领域

  • 2篇自动化与计算...

主题

  • 2篇信息提取
  • 2篇信息提取方法
  • 2篇网页
  • 2篇网页主题
  • 2篇HTML
  • 1篇网页模板
  • 1篇相关度
  • 1篇服务质量
  • 1篇DOM

机构

  • 2篇北京信息科技...

作者

  • 2篇都云程
  • 2篇施水才
  • 2篇李渝勤
  • 2篇许文

传媒

  • 1篇现代图书情报...
  • 1篇第二十届全国...

年份

  • 1篇2007
  • 1篇2006
2 条 记 录,以下是 1-2
排序方式:
一种通用HTML网页主题信息提取方法
Web页面所表达的“主题”信息通常隐藏在大量无关结构和文字中,准确完整地提取网页主题信息是影响Web应用服务质量的关键技术之一。目前的提取方法多依赖于网页模板信息,而Web上的网页模板不计其数,因此这些方法缺乏通用性。且...
许文都云程李渝勤施水才
关键词:服务质量
文献传递
一种通用HTML网页主题信息提取方法被引量:17
2007年
采用DOM规范,把HTML网页表示成树结构,对不同模板的HTML页面“主题”信息提取进行研究和分析,提出一种新的结点主题相关性判定方法,依据此方法判定出要抽取的主题内容,并删除无关内容,结果输出只含主题信息的HTML文档。
许文都云程李渝勤施水才
关键词:DOM信息提取相关度
共1页<1>
聚类工具0