您的位置: 专家智库 > >

李诚

作品数:1 被引量:6H指数:1
供职机构:山东省计算机网络重点实验室更多>>
发文基金:山东省科技发展计划项目国家自然科学基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 1篇中文期刊文章

领域

  • 1篇自动化与计算...

主题

  • 1篇信息损失
  • 1篇文本聚类
  • 1篇聚类
  • 1篇K-MEAN...
  • 1篇MAPRED...

机构

  • 1篇北京交通大学
  • 1篇山东省计算机...
  • 1篇山东省计算中...

作者

  • 1篇李钊
  • 1篇王春梅
  • 1篇李晓
  • 1篇杨春
  • 1篇李诚

传媒

  • 1篇计算机科学

年份

  • 1篇2016
1 条 记 录,以下是 1-1
排序方式:
一种基于MapReduce的文本聚类方法研究被引量:6
2016年
在文本聚类中,相似性度量是影响聚类效果的重要因素。常用的相似性度量测度,如欧氏距离、相关系数等,只能描述文本间的低阶相关性,而文本间的关系非常复杂,基于低阶相关测度的聚类效果不太理想。一些基于复杂测度的文本聚类方法已被提出,但随着数据规模的扩展,文本聚类的计算量不断增加,传统的聚类方法已不适用于大规模文本聚类。针对上述问题,提出一种基于MapReduce的分布式聚类方法,该方法对传统K-means算法进行了改进,采用了基于信息损失量的相似性度量。为进一步提高聚类的效率,将该方法与基于MapReduce的主成分分析方法相结合,以降低文本特征向量的维数。实例分析表明,提出的大规模文本聚类方法的聚类性能比已有的聚类方法更好。
李钊李晓王春梅李诚杨春
关键词:文本聚类MAPREDUCEK-MEANS信息损失
共1页<1>
聚类工具0