2024年12月12日
星期四
|
欢迎来到维普•公共文化服务平台
登录
|
进入后台
[
APP下载]
[
APP下载]
扫一扫,既下载
全民阅读
职业技能
专家智库
参考咨询
您的位置:
专家智库
>
>
潘心宇
作品数:
1
被引量:4
H指数:1
供职机构:
福州大学数学与计算机科学学院
更多>>
相关领域:
自动化与计算机技术
更多>>
合作作者
刘蓉
福州大学数学与计算机科学学院
王美清
福州大学数学与计算机科学学院
作品列表
供职机构
相关作者
所获基金
研究领域
题名
作者
机构
关键词
文摘
任意字段
作者
题名
机构
关键词
文摘
任意字段
在结果中检索
文献类型
1篇
中文期刊文章
领域
1篇
自动化与计算...
主题
1篇
信息抽取
1篇
正文抽取
1篇
去噪
1篇
网页
1篇
网页去噪
1篇
基于网页
1篇
DOM树
1篇
HTML标签
1篇
标签
1篇
抽取
机构
1篇
福州大学
作者
1篇
王美清
1篇
刘蓉
1篇
潘心宇
传媒
1篇
微型机与应用
年份
1篇
2016
共
1
条 记 录,以下是 1-1
全选
清除
导出
排序方式:
相关度排序
被引量排序
时效排序
基于网页DOM树节点路径相似度的正文抽取
被引量:4
2016年
由于人工抽取网页信息效率低、成本高,因此根据对大量网页结构的观察,提出基于网页文档对象模型DOM树节点路径相似度的正文抽取方法。依据同网站下的网页结构相同的特点去除网页噪声得到网页的主题内容,然后结合正文节点在DOM树中的路径的相似度抽取正文。通过对不同类型的中文新闻网站上的1 000个网页进行实验,结果表明该方法对于97.6%的网页都能够去除大部分噪声并保持正文内容的完整性,正文抽取结果有93.30%的准确率和95.59%的召回率。所提算法对不同类型的网页都有较好的适应性。
潘心宇
陈长福
刘蓉
王美清
关键词:
DOM树
信息抽取
HTML标签
网页去噪
正文抽取
全选
清除
导出
共1页
<
1
>
聚类工具
0
执行
隐藏
清空
用户登录
用户反馈
标题:
*标题长度不超过50
邮箱:
*
反馈意见:
反馈意见字数长度不超过255
验证码:
看不清楚?点击换一张