您的位置: 专家智库 > >

罗军

作品数:1 被引量:0H指数:0
供职机构:中国科学院深圳先进技术研究院更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 1篇中文期刊文章

领域

  • 1篇自动化与计算...

主题

  • 1篇英文
  • 1篇云计算
  • 1篇生成树
  • 1篇最小生成树
  • 1篇MAPRED...
  • 1篇大规模数据

机构

  • 1篇中国科学院
  • 1篇中国科学院大...

作者

  • 1篇罗军
  • 1篇黄鑫

传媒

  • 1篇集成技术

年份

  • 1篇2013
1 条 记 录,以下是 1-1
排序方式:
基于最小生成树的大规模数据分类模型及其MapReduce实现(英文)
2013年
数据的快速增长,为我们提供了更多的信息,然而,也对传统信息获取技术提出了挑战。这篇论文提出了MCMM算法,它是基于MapReduce的大规模数据分类模型的最小生成树(MST)的算法。它可以看做是介于传统的KNN方法和基于聚类分类方法之间的模型,旨在克服这两种方法的不足并能处理大规模的数据。在这一模型中,训练集作为有权重的无向完全图来处理。顶点是对象,两点之间边的权重是对象间的距离。这一距离,不同于欧几里得距离,它是一个特定的距离度量。这样,可以找到图中最小生成树集,其中,图中每棵树代表一个类。为了降低时间复杂度,提取了每棵树中最具代表性的点来代表该树。这些压缩了的点集,可以通过计算无标签对象和它们之间的距离,来进行分类。MCMM模型基于MapReduce实现并且部署在Hadoop平台。该模型可扩展处理大规模的数据,是因为Hadoop支持数据密集分布应用,并且这些应用可以和数以千计的节点和数据一起运作。另外,MapReduce和Hadoop能在由商品机组成的集群上很好的运行。MCMM模型使用云平台并且通过使用MapReduce和Hadoop进行云计算是有益处的。实验采用的数据集包括从UCI数据库得到的真实数据和一些模拟数据,实验使用了4000个集群。实验表明,MCMM模型在精确度和扩展性上优于KNN和其他一些经常使用的基础分类方法。
黄鑫罗军
关键词:最小生成树MAPREDUCE云计算
共1页<1>
聚类工具0