邹鸿程
- 作品数:3 被引量:27H指数:2
- 供职机构:解放军信息工程大学信息工程学院更多>>
- 发文基金:国家重点实验室开放基金国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术更多>>
- MB-SinglePass:基于组合相似度的微博话题检测被引量:24
- 2012年
- 话题检测技术在传统媒体的研究中取得了较好的效果。探讨了针对微博类的新型媒体短文本对象话题检测技术的优化及性能评价。基于微博中联系人存在的关注和粉丝等结构化信息、帖子之间转发评论等内在关联关系,提出了针对微博的MB-SinglePass话题检测算法。该算法除了考虑微博上述特点之外,还针对短文本特征稀疏的问题,利用同义词典,引入了微博特征扩展技术,丰富了特征信息。同时,针对单一使用余弦相似度、雅各比相似度和语义相似度的不足,采用了组合相似度策略。相较传统算法,MB-SinglePass算法在新浪微博实测数据集上取得了更好的性能。另外,针对相似度策略的对照实验说明采用组合相似度的效果优于单一相似度。
- 周刚邹鸿程熊小兵黄永忠
- 关键词:文本相似度
- 微博话题检测与追踪技术研究
- 随着互联网的迅速发展,微博作为一种新型的网络媒体形式,越来越多地被人们所接受。微博话题检测与追踪技术主要研究如何对海量微博信息进行合理分类,及时发现重要信息并加以跟踪,已经成为当前研究热点之一。为此,本文主要研究了微博发...
- 邹鸿程
- 关键词:非齐次泊松过程数据净化
- 中文微博数据净化算法比较研究
- 2012年
- 针对微博语言口语化和不规范导致微博数据质量低下的问题,利用质心、度-中心值和特征向量-中心值3种算法对微博话题数据进行净化,从而提高数据质量。通过比较净化前后话题帖子的规范性、相关性和有益性等属性指标分析算法性能。实验结果表明,经过3种净化算法处理,话题帖子的整体质量尤其是规范性指标均有所提高,质心算法对于有益性指标有较好的净化效果,度-中心值和特征向量-中心值算法有助于得到强相似度的话题帖子。
- 邹鸿程周刚杨亚强李旭东
- 关键词:质量指标数据净化