您的位置: 专家智库 > >

潘心宇

作品数:1 被引量:4H指数:1
供职机构:福州大学数学与计算机科学学院更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 1篇中文期刊文章

领域

  • 1篇自动化与计算...

主题

  • 1篇信息抽取
  • 1篇正文抽取
  • 1篇去噪
  • 1篇网页
  • 1篇网页去噪
  • 1篇基于网页
  • 1篇DOM树
  • 1篇HTML标签
  • 1篇标签
  • 1篇抽取

机构

  • 1篇福州大学

作者

  • 1篇王美清
  • 1篇刘蓉
  • 1篇潘心宇

传媒

  • 1篇微型机与应用

年份

  • 1篇2016
1 条 记 录,以下是 1-1
排序方式:
基于网页DOM树节点路径相似度的正文抽取被引量:4
2016年
由于人工抽取网页信息效率低、成本高,因此根据对大量网页结构的观察,提出基于网页文档对象模型DOM树节点路径相似度的正文抽取方法。依据同网站下的网页结构相同的特点去除网页噪声得到网页的主题内容,然后结合正文节点在DOM树中的路径的相似度抽取正文。通过对不同类型的中文新闻网站上的1 000个网页进行实验,结果表明该方法对于97.6%的网页都能够去除大部分噪声并保持正文内容的完整性,正文抽取结果有93.30%的准确率和95.59%的召回率。所提算法对不同类型的网页都有较好的适应性。
潘心宇陈长福刘蓉王美清
关键词:DOM树信息抽取HTML标签网页去噪正文抽取
共1页<1>
聚类工具0