Hadoop MapReduce短作业执行性能优化 |
| |
引用本文: | 顾荣,严金双,杨晓亮,袁春风,黄宜华.Hadoop MapReduce短作业执行性能优化[J].计算机研究与发展,2014(6). |
| |
作者姓名: | 顾荣 严金双 杨晓亮 袁春风 黄宜华 |
| |
作者单位: | 计算机软件新技术国家重点实验室(南京大学); |
| |
基金项目: | 国家自然科学基金专项基金项目(61223003);国家“八六三”高技术研究发展计划基金项目(2011AA01A202);美国Intel Labs大学研究资助项目 |
| |
摘 要: | Hadoop MapReduce并行计算框架被广泛应用于大规模数据并行处理.近年来,由于其能较好地处理大规模数据,Hadoop MapReduce也被越来越多地使用在查询应用中.为了能够处理大规模数据集,Hadoop的基本设计更多地强调了数据的高吞吐率.然而在处理对短作业响应性能有较高要求的查询应用时,Hadoop MapReduce并行计算框架存在明显不足.为了提升Hadoop对于短作业的执行效率,对原有的Hadoop MapReduce作出以下3点优化:1)通过优化原有的setup和cleanup任务的执行方式,成功地缩短了作业初始化环境准备和作业结束环境清理的时间;2)将首次任务分配从"拉"模式转变为"推"模式;3)将作业执行过程中JobTracker和TaskTrackers之间的控制消息通信从现有的周期性心跳机制中分离出来,采用即时传递机制.最后,采用一种典型的基于MapReduce并行化的查询应用BLAST,对优化工作进行了评估.各种不同类型BLAST作业的测试实验表明,与现有的标准Hadoop相比,优化后的Hadoop平均执行性能提升约23%.
|
关 键 词: | MapReduce 并行计算 短作业 性能优化 大数据处理 |
本文献已被 CNKI 等数据库收录! |
|