马燕龙
- 作品数:2 被引量:0H指数:0
- 供职机构:贵州大学更多>>
- 发文基金:博士科研启动基金贵州省科学技术基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 类博弈个性化推荐算法的设计与研究
- 在早期的互联网时代,分类索引可以有效地帮助用户找到需要的信息。随着互联网数据的不断增加,分类索引难以囊括所有数据,搜索引擎的出现解决了这一瓶颈。在互联网数据爆发的今天,各个领域的数据逐步过载,受限于关键词的搜索引擎也难以...
- 马燕龙
- 关键词:数据检索系统设计
- 基于Dpark的数据分析方法的性能研究
- 2016年
- 随着大数据时代的来临,以Hadoop和Spark为首的开源分布式计算框架主导着相关行业的事实标准。然而,无论是使用Java编写的Hadoop,还是使用Scala编写的Spark,使用及对其进行二次开发的难度都比较大,而使用Python编写的分布式计算框架Dpark,具有继承自Spark的内存计算和惰性求值机制,结合Python的简洁语法,同时又配合分布式文件系统MooseFS、分布式数据库Beansdb和分布式资源调度框架Mesos,可以极大提高数据分析的工作效率。文章主要对比了传统Python程序和基于Dpark的Python程序在完成数据预处理工作上的运行效率,得出后者的性能和可扩展性至少优于前者数十倍的结论。
- 马燕龙吴云
- 关键词:集群部署数据预处理