杜晨阳
- 作品数:2 被引量:57H指数:2
- 供职机构:浙江大学计算机科学与技术学院更多>>
- 发文基金:中央高校基本科研业务费专项资金中国博士后科学基金国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于MapReduce的分布式近邻传播聚类算法被引量:54
- 2012年
- 随着信息技术迅速发展,数据规模急剧增长,大规模数据处理非常具有挑战性.许多并行算法已被提出,如基于MapReduce的分布式K平均聚类算法、分布式谱聚类算法等.近邻传播(affinity propagation,AP)聚类能克服K平均聚类算法的局限性,但是处理海量数据性能不高.为有效实现海量数据聚类,提出基于MapReduce的分布式近邻传播聚类算法——DisAP.该算法先将数据点随机划分为规模相近的子集,并行地用AP聚类算法稀疏化各子集,然后融合各子集稀疏化后的数据再次进行AP聚类,由此产生的聚类代表作为所有数据点的聚类中心.在人工合成数据、人脸图像数据、IRIS数据以及大规模数据集上的实验表明:DisAP算法对数据规模有很好的适应性,在保持AP聚类效果的同时可有效缩减聚类时间.
- 鲁伟明杜晨阳魏宝刚沈春辉叶振超
- 关键词:近邻传播聚类分布式计算MAPREDUCE数据划分聚类融合
- 分布式聚类算法研究与应用
- 随着信息技术的进步,数字图书馆的社会价值日益凸显,数字图书馆的建设受到了众多国家机构的高度重视。如何在现有资源的基础之上挖掘数字图书中的信息,改进基于内容的数字图书检索是数字图书馆研究的一个重要方面。
本文主要研究...
- 杜晨阳
- 关键词:数字图书馆分布式聚类算法图像检索特征抽取关键词提取
- 文献传递