陈吉荣
- 作品数:4 被引量:146H指数:3
- 供职机构:东华大学计算机科学与技术学院更多>>
- 发文基金:国家科技重大专项浙江省教育厅科研计划国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于Hadoop生态系统的大数据解决方案综述被引量:119
- 2013年
- 一个大数据解决方案需要面对三个关键问题:大数据的存储、大数据的分析和大数据的管理。首先综述了大数据和Hadoop生态系统的定义;然后从商业产品和Hadoop生态系统两个方面来探讨如何面对大数据,重点分析了Hadoop生态系统是如何解决的:分别用HDFS、HBase和OpenTSDB解决存储问题,用Hadoop MapReduce(Hive)和HadoopDB解决分析问题,用Sqoop和Ganglia等解决管理问题。对于每个成员,分别分析了其系统架构、实现原理和特点;对于重点成员,分别分析了其存在的一些问题或缺点,并在总结当前学术和应用的进展基础上,结合我们自身的研究进展,提出了解决方法、解决思路和观点。可以预见,Hadoop生态系统将是中小企业在面对大数据问题时的首选解决方案。
- 陈吉荣乐嘉锦
- 关键词:大数据MAPREDUCEHDFS
- 大数据管理技术研究综述被引量:14
- 2014年
- 大数据具有规模大、深度大、宽度大、处理时间短、硬件系统普通化、软件系统开源化等特点。传统关系型数据库在对大数据进行操作时,系统性能严重下降。因此,大数据管理技术研究成为当前研究热点。分别从并行数据库,面向大数据处理的MapReduce模型,NoSQL与数据库技术的对比以及MapReduce与数据库技术相结合四个方面,对国内外的研究发展状况进行分析和评述,最后展望了未来大数据研究发展方向。
- 张滨陈吉荣乐嘉锦
- 关键词:大数据数据库MAPREDUCE并行数据库系统
- SingleMapReduce:单一输出HDFS文件的MapReduce编程模型被引量:2
- 2014年
- 经典MapReduce编程模型的输出结果不是单一的Hadoop分布式文件系统(HDFS)文件,为此,文中提出了单一输出文件的MapReduce编程模型:SingleMapReduce.该模型通过拦截Job Successful状态,将输出目录下的所有文件"整合"为单一文件.文中给出了HDFS的4个重要特征,提出了HDFS的"块典型分布"和"块非典型分布"的概念,设计了一种通过整合元数据来达到整合文件的算法.理论分析和实验结果表明:该模型的MapReduce计算的输出结果为单一文件;该模型可以再次以文件的形式对MapReduce计算的输出结果进行分片,并可用并行方式导入大表或大文件到HDFS中;该模型间接支持了名称节点的扩展性.
- 陈吉荣乐嘉锦
- 关键词:分布式计算系统元数据MAPREDUCEHADOOP分布式文件系统
- 基于MapReduce的Hadoop大表导入编程模型被引量:13
- 2013年
- 针对Sqoop在导入大表时表现出的不稳定和效率较低两个主要问题,设计并实现了一种新的基于MapReduce的大表导入编程模型。该模型对于大表的切分算法是:将大表总的记录数对mapper数求步长,获得对应每个split的SQL查询语句的起始行和区间长度(等于步长),从而保证每个mapper的导入工作量完全相同。该模型的map方式是:进入map函数的键值对中的键是一个split所对应的SQL语句,将查询放在map函数中完成,从而使得模型中的每个mapper只调用一次map函数。对比实验表明:两个记录数相同的大表,无论其记录区间如何分布,其导入时间基本相同,或者对同一表分别用不同的分割字段,导入时间也完全相同;而对于同一个大表,模型的导入效率比Sqoop有显著提高。
- 陈吉荣乐嘉锦
- 关键词:编程模型HADOOPMAPREDUCEHADOOP分布式文件系统