张亚楠
- 作品数:2 被引量:6H指数:1
- 供职机构:内蒙古科技大学信息工程学院更多>>
- 发文基金:内蒙古自治区自然科学基金国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于MapReduce的并行遮盖文本聚类算法
- 2013年
- 通过研究Hadoop平台和MapReduce编程框架,提出了一个基于MapReduce的并行遮盖文本聚类算法.遮盖算法提出了两个距离阈值T1,T2用来构建重叠子集,避免了传统聚类算法对噪声敏感的缺点.同时采用适当的快速近似距离度量,大大加快了聚类速度.实验表明该算法在MapReduce框架下有良好的集群加速性能,适合处理大规模的数据集.
- 张亚楠谭跃生
- 关键词:文本聚类HADOOPMAPREDUCE
- Hadoop云平台下的聚类算法研究被引量:6
- 2014年
- 为了解决在面对海量数据时机器学习算法很难在有效时间内完成规定的任务,并且很难有效地处理高维度、海量数据等问题,提出了基于Hadoop分布式平台的谱聚类算法并行化研究。利用MapReduce编程模式,将传统的谱聚类算法进行重新编写;在该平台上用Canopy算法对数据进行预处理,以达到更好的聚类效果。实验结果表明了设计的分布式聚类算法在加速比等方面有良好的性能,并且在数据伸缩率方面效果明显,改进后的算法适合处理海量数据。
- 谭跃生杨宝光王静宇张亚楠
- 关键词:海量数据聚类算法谱聚类