基于HDFS的小文件存储与读取优化策略 |
| |
作者姓名: | 张海 马建红 |
| |
作者单位: | 河北工业大学 计算机科学与软件学院, 天津 300401;河北工业大学 计算机科学与软件学院, 天津 300401 |
| |
摘 要: | 本文对HDFS分布式文件系统进行了深入的研究,在HDFS中以流式的方式访问大文件时效率很高但是对海量小文件的存取效率比较低. 本文针对这个问题提出了一个基于关系数据库的小文件合并策略,首先为每个用户建立一个用户文件,其次当用户上传小文件时把文件的元数据信息存入到关系数据库中并将文件追加写入到用户文件中,最后用户读取小文件时通过元数据信息直接以流式方式进行读取. 此外当用户读取小于一个文件块大小的文件时还采取了数据节点负载均衡策略,直接由存储数据的DataNode传送给客户端从而减轻主服务器压力提高文件传送效率. 实验结果表明通过此方案很好地解决了HDFS对大量小文件存取支持不足的缺点,提高了HDFS文件系统对海量小文件的读写性能,此方案适用于具有海量小文件的云存储系统,可以降低NameNode内存消耗提高文件读写效率.
|
关 键 词: | HDFS 小文件优化 文件合并 负载均衡 云存储 |
收稿时间: | 2013-10-04 |
修稿时间: | 2013-10-29 |
本文献已被 CNKI 等数据库收录! |
| 点击此处可从《计算机系统应用》浏览原始摘要信息 |
|
点击此处可从《计算机系统应用》下载全文 |
|