您的位置: 专家智库 > >

刘鹏程

作品数:7 被引量:31H指数:3
供职机构:合肥工业大学更多>>
发文基金:长江学者和创新团队发展计划国家自然科学基金国家留学基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 3篇期刊文章
  • 3篇专利
  • 1篇学位论文

领域

  • 4篇自动化与计算...

主题

  • 4篇抽取
  • 3篇文本块
  • 3篇标签
  • 2篇新闻
  • 2篇新闻动态
  • 2篇新闻网
  • 2篇新闻网页
  • 2篇信息处理
  • 2篇引擎
  • 2篇搜索
  • 2篇搜索引擎
  • 2篇索引
  • 2篇内容抽取
  • 2篇网络
  • 2篇网络信息
  • 2篇网络信息处理
  • 2篇网页
  • 2篇共享方式
  • 2篇WEB新闻
  • 2篇垂直搜索

机构

  • 7篇合肥工业大学

作者

  • 7篇刘鹏程
  • 5篇吴共庆
  • 5篇胡骏
  • 4篇胡学钢
  • 3篇吴信东
  • 2篇李磊
  • 2篇胡东辉
  • 2篇王钊
  • 1篇李莉
  • 1篇张文成

传媒

  • 1篇计算机应用研...
  • 1篇软件学报
  • 1篇中国科学:信...

年份

  • 2篇2018
  • 2篇2017
  • 2篇2016
  • 1篇2015
7 条 记 录,以下是 1-7
排序方式:
基于标签路径特征融合的在线Web新闻内容抽取被引量:23
2016年
精准地抽取新闻网页的内容,是提高Web新闻分析等应用系统工作质量的关键技术之一.由于缺少Web新闻出版的标准,存在大量不同的出版格式,并且Web本身是一种具有高度异构性的大数据载体,导致Web新闻内容抽取成为一个开放性问题.经大量实例分析发现,新闻网页内容与其上的标签路径存在潜在的关联性.因此,设计了标签路径特征系,以从不同视角区分网页内容和噪音.在特征相似性分析的基础上,提出了一种基于组合特征选择的特征融合策略,并设计了基于融合特征的Web新闻内容抽取方法 CEPF.CEPF是一种快速的通用、无需训练的在线Web新闻内容抽取算法,可抽取多种来源、多种风格、多种语言的Web新闻网页.在Clean Eval等测试数据集上的实验结果表明,CEPF方法优于CETR等抽取方法.
吴共庆胡骏李莉徐喆昊刘鹏程胡学钢吴信东
关键词:内容抽取WEB新闻
一种面向领域主题的Web新闻动态聚合方法
本发明适用于网络信息处理领域,提供了一种面向领域主题的Web新闻动态聚合方法,所述方法包括下述步骤:面向用户预定义的领域站点列表,根据用户提供的主题,利用垂直搜索引擎和元搜索引擎获取搜索记录列表;对搜索记录列表进行去重和...
吴共庆胡骏刘鹏程王钊胡东辉李磊胡学钢吴信东
文献传递
基于文本块密度和标签路径覆盖率的网页正文抽取被引量:5
2018年
大多数网页除了正文信息外,还包括导航、广告和免责声明等噪声信息。为了提高网页正文抽取的准确性,提出了一种基于文本块密度和标签路径覆盖率的抽取方法(CETD-TPC)。结合网页文本块密度特征和标签路径特征的优点,设计了融合两种特征的新特征,利用新特征抽取网页中的最佳文本块,最后,抽取该文本块中的正文内容。该方法有效地解决了网页正文中噪声块信息过滤和短文本难以抽取的问题,且无须训练和人工处理。在Clean Eval数据集和从知名网站上随机选取的新闻网页数据集上的实验结果表明,CETD-TPC方法在不同数据源上均具有很好的适用性,抽取性能优于CETR、CETD和CEPR算法。
刘鹏程胡骏吴共庆
关键词:正文抽取
基于块密度加权标签路径特征的Web新闻在线抽取被引量:3
2017年
Web新闻内容抽取是众多"大数据"和"大知识"应用的基础,也是一个开放性问题.标签路径特征和文本块密度特征是目前解决该问题的两类优良特征.标签路径特征能较好地区分全网页的内容与噪声,但难以识别内容块中的噪声和噪声块中的内容;文本块密度特征能较好地识别高密度的内容块,但鲁棒性不足.因此,本文提出了一种可有效结合标签路径特征和文本块密度特征的Web信息抽取模型CEDP,结合两种特征的优点,设计了一种基于文本块密度加权的标签路径特征,并设计了基于该特征的Web新闻抽取算法CEDP-NLTD.CEDP-NLTD是一种快速的、通用的、无需训练的在线Web新闻内容抽取算法,适用于Web大数据环境下的多种来源、多种风格、多种语言的异构Web新闻网页抽取任务.在Clean Eval等测试数据集上的实验结果表明,CEDP-NLTD方法优于CETR,CETD,CEPR,CEPF等在线抽取方法,且优于基于CEDP模型直接使用CETD方法设计的3种块密度特征所形成的算法CEDP-TD,CEDP-CTD,CEDP-DSum.
吴共庆刘鹏程胡骏胡学钢
关键词:内容抽取WEB新闻
一种高水溶性银杏叶提取物的制备方法
本发明公开了一种高水溶性银杏叶提取物的制备方法,是以标准银杏叶提取物为原料,采用复合酶解加超微粉碎的处理方法,得到高水溶性银杏叶提取物。因采用复合酶技术加超微粉碎技术,无有害溶剂残留,且加工条件温和,对产品无破坏;产品中...
张文成刘鹏程
文献传递
结合块密度和标签路径特征的网页正文抽取方法研究
随着互联网的飞速发展,Web逐渐成为很多应用的重要信息来源。大多数网页除了正文信息外,还包括导航、广告、推荐链接、版权申明等与网页主题内容无关的噪声信息。这些噪声信息降低了搜索引擎、Web新闻聚合、Web信息检索等应用系...
刘鹏程
关键词:信息抽取
文献传递
一种面向领域主题的Web新闻动态聚合方法
本发明适用于网络信息处理领域,提供了一种面向领域主题的Web新闻动态聚合方法,所述方法包括下述步骤:面向用户预定义的领域站点列表,根据用户提供的主题,利用垂直搜索引擎和元搜索引擎获取搜索记录列表;对搜索记录列表进行去重和...
吴共庆胡骏刘鹏程王钊胡东辉李磊胡学钢吴信东
文献传递
共1页<1>
聚类工具0