首页 | 本学科首页   官方微博 | 高级检索  
     

Hadoop MapReduce短作业执行性能优化
引用本文:顾荣,严金双,杨晓亮,袁春风,黄宜华.Hadoop MapReduce短作业执行性能优化[J].计算机研究与发展,2014(6).
作者姓名:顾荣  严金双  杨晓亮  袁春风  黄宜华
作者单位:计算机软件新技术国家重点实验室(南京大学);
基金项目:国家自然科学基金专项基金项目(61223003);国家“八六三”高技术研究发展计划基金项目(2011AA01A202);美国Intel Labs大学研究资助项目
摘    要:Hadoop MapReduce并行计算框架被广泛应用于大规模数据并行处理.近年来,由于其能较好地处理大规模数据,Hadoop MapReduce也被越来越多地使用在查询应用中.为了能够处理大规模数据集,Hadoop的基本设计更多地强调了数据的高吞吐率.然而在处理对短作业响应性能有较高要求的查询应用时,Hadoop MapReduce并行计算框架存在明显不足.为了提升Hadoop对于短作业的执行效率,对原有的Hadoop MapReduce作出以下3点优化:1)通过优化原有的setup和cleanup任务的执行方式,成功地缩短了作业初始化环境准备和作业结束环境清理的时间;2)将首次任务分配从"拉"模式转变为"推"模式;3)将作业执行过程中JobTracker和TaskTrackers之间的控制消息通信从现有的周期性心跳机制中分离出来,采用即时传递机制.最后,采用一种典型的基于MapReduce并行化的查询应用BLAST,对优化工作进行了评估.各种不同类型BLAST作业的测试实验表明,与现有的标准Hadoop相比,优化后的Hadoop平均执行性能提升约23%.

关 键 词:MapReduce  并行计算  短作业  性能优化  大数据处理
本文献已被 CNKI 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号