首页 | 本学科首页   官方微博 | 高级检索  
     

支持Hadoop大数据访问的pNFS框架研究与实现*
引用本文:何文婷,刘健,袁庆升,张军伟,董欢庆,刘振军.支持Hadoop大数据访问的pNFS框架研究与实现*[J].计算机应用研究,2016,33(11).
作者姓名:何文婷  刘健  袁庆升  张军伟  董欢庆  刘振军
作者单位:中国科学院计算技术研究所,中国科学院计算技术研究所,中国科学院信息工程研究所,国家计算机网络应急技术处理协调中心,中国科学院计算技术研究所,中国科学院计算技术研究所,中国科学院计算技术研究所
基金项目:国家“863”计划资助项目(2013AA013205);中国科学院重点部署(KGZD-EW-103-5(7));国家自然科学青年基金项目(61202057)
摘    要:随着大数据时代到来,分布式文件系统支持Hadoop大数据访问已成为一种趋势。本文以研究支持Hadoop大数据访问的pNFS框架为目的,采用在Hadoop与pNFS之间添加pNFS shim layer模块的方法,实现了pNFS支持Hadoop大数据访问的HDFS APIs;通过在pNFS shim layer中添加写缓存和节点级数据布局感知机制优化了系统性能。采用Hadoop基准程序对本文提出的框架进行测试,结果显示写性能提升超过45%,读性能提升超过97%,证明此框架可以有效的支持Hadoop大数据访问。

关 键 词:分布式文件系统  大数据  缓存  布局
收稿时间:2015/11/10 0:00:00
修稿时间:2016/9/12 0:00:00

Research and implementation on pNFS framework to access Hadoop Big data
Affiliation:Institute of Computing Technology, Chinese Academy of Sciences,,Institute of Information Engineering, Chinese Academy of Sciences,Institute of Computing Technology, Chinese Academy of Sciences,Institute of Computing Technology, Chinese Academy of Sciences,Institute of Computing Technology, Chinese Academy of Sciences
Abstract:As the era of big data coming, it has been a trend that distributed file systems supports Hadoop to access big data. This paper designed and implemented a pNFS framework for accessing big data with Hadoop. The framework added a pNFS shim layer module between Hadoop and pNFS, and then implemented the HDFS APIs. In addition, it added write cache and the node data layout aware mechanism to optimize the performance of the system. This paper used Hadoop benchmarks to test the designed pNFS framework. The results show that the framework increases the performance of write by 45%, and the performance of read by at least of 97%. So, the proposed framework can support accessing Hadoop Big data effectively.
Keywords:distributed file system  big data  cache  layout
点击此处可从《计算机应用研究》浏览原始摘要信息
点击此处可从《计算机应用研究》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号