首页 | 本学科首页   官方微博 | 高级检索  
     

基于改进HDFS的冠字号小文件分布式存储研究
作者姓名:徐 俊  王庆华  赵云龙
作者单位:广州无线电集团广州广电运通金融电子股份有限公司ATM研究院;华南师范大学计算机学院;
基金项目:国家863计划重大项目智能云服务与管理平台核心软件及系统(2013AA01A212);国家科技支撑计划课题电子信息产业集群质量保障服务平台应用示范(2012BAH27F05);广东省自然基金团队研究项目云计算核心技术及云服务应用研究(S2012030006242)资助
摘    要:针对冠字号小图片存储到HDFS系统中带来的访问瓶颈问题,改进了原有的HDFS系统,新提出的分布式系统机制是充分基于文件相关性(File Correlation)进行合并处理的HDFS(FCHDFS)。由于HDFS中所有的文件都是由单一的主节点服务器托管-NameNode,每个存储到HDFS的文件在NameNode主存储器中都需要存储它的元数据,这必然导致小文件数量越大HDFS性能就越差。存储和管理大量的小文件,对NameNode是一个沉重的负担。可以存储在HDFS的文件数量是受到NameNode的内存大小约束。为了提高存储和访问HDFS上的冠字号小文件的效率,该文提出了一个基于文件关联性的小文件高效处理机制。在这种方法中,按照客户和时间区分,一组相关的文件相结合为一个大文件,从而减少文件数目。而新建的索引机制能从相应的联合文件中访问单个文件。实验结果表明,FCHDFS大大减少主节点内存中元数据数量,也提高了存储和访问大量小文件的效率。

关 键 词:Hadoop  小文件  HDFS  文件合并
本文献已被 CNKI 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号