王庆华
- 作品数:1 被引量:1H指数:1
- 发文基金:国家科技支撑计划国家高技术研究发展计划广东省自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于改进HDFS的冠字号小文件分布式存储研究被引量:1
- 2014年
- 针对冠字号小图片存储到HDFS系统中带来的访问瓶颈问题,改进了原有的HDFS系统,新提出的分布式系统机制是充分基于文件相关性(File Correlation)进行合并处理的HDFS(FCHDFS)。由于HDFS中所有的文件都是由单一的主节点服务器托管-NameNode,每个存储到HDFS的文件在NameNode主存储器中都需要存储它的元数据,这必然导致小文件数量越大HDFS性能就越差。存储和管理大量的小文件,对NameNode是一个沉重的负担。可以存储在HDFS的文件数量是受到NameNode的内存大小约束。为了提高存储和访问HDFS上的冠字号小文件的效率,该文提出了一个基于文件关联性的小文件高效处理机制。在这种方法中,按照客户和时间区分,一组相关的文件相结合为一个大文件,从而减少文件数目。而新建的索引机制能从相应的联合文件中访问单个文件。实验结果表明,FCHDFS大大减少主节点内存中元数据数量,也提高了存储和访问大量小文件的效率。
- 徐俊徐俊王庆华
- 关键词:HADOOPHDFS