申建
- 作品数:1 被引量:2H指数:1
- 供职机构:空军工程大学信息与导航学院更多>>
- 发文基金:陕西省科学技术研究发展计划项目更多>>
- 相关领域:电子电信更多>>
- 并行MapReduce模型下的一种改进型KNN分类算法被引量:2
- 2017年
- 大数据时代带来数据处理模式的变革,依托Hadoop分布式编程框架处理大数据问题是当前该领域的研究热点之一。为解决海量数据挖掘中的分类问题,提出基于一种双度量中心索引KNN分类算法。该算法在针对存在类别域的交叉或重叠较多的大数据,先对训练集进行中心点的确定,通过计算分类集与训练集中心点的欧式距离,确定最相似的3个类别,然后以余弦距离为度量,通过索引选择找出K个近邻点,经过MapReduce编程框架对KNN并行计算加以实现。最后在UCI数据库进行比较验证,结果表明提出的并行化改进算法在准确率略有提高的基础上,运算效率得到了极大提高。
- 韦泽鲲夏靖波付凯申建陈珍
- 关键词:HADOOPMAPREDUCE