您的位置: 专家智库 > >

国家教育部博士点基金(20090162120087)

作品数:1 被引量:3H指数:1
相关作者:高琰更多>>
相关机构:中南大学更多>>
发文基金:国家教育部博士点基金湖南省科技计划项目更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 1篇中文期刊文章

领域

  • 1篇自动化与计算...

主题

  • 1篇脉冲
  • 1篇PDF
  • 1篇TDT
  • 1篇TF

机构

  • 1篇中南大学

作者

  • 1篇高琰

传媒

  • 1篇计算机应用研...

年份

  • 1篇2013
1 条 记 录,以下是 1-1
排序方式:
基于TF* PDF的热点关键短语提取被引量:3
2013年
传统的TF* PDF方法提取的关键短语可精确地描述话题并进行新闻报道的追踪,但存在误将噪声数据识别为关键短语的情况。提出了一种基于位置权重TF* PDF的两段式关键短语提取方法滤除噪声数据。该方法将传统的TF* PDF算法与位置权重相结合,计算词汇与短语的权重,获取候选关键短语列表,关键短语的脉冲值则用于过滤列表中的噪声。通过关键短语识别进程根据位置信息、频率信息等将热点词汇组合成短语。TF* PDF位置权重算法同时也用于为短语分配权重,排名前K的短语被认为是热点关键短语。以真实网络数据为基础的实验结果表明,该提取方法与传统的TF* PDF提取方法相比,可更好地去除关键词短语中的绝对噪声,较好地改善了热点话题检测的准确度。
马佩勋高琰
关键词:TDT
共1页<1>
聚类工具0