首页 | 本学科首页   官方微博 | 高级检索  
     

基于MapReduce模型的范围查询分析优化技术研究
引用本文:赵辉,杨树强,陈志坤,尹洪,金松昌.基于MapReduce模型的范围查询分析优化技术研究[J].计算机研究与发展,2014(3).
作者姓名:赵辉  杨树强  陈志坤  尹洪  金松昌
作者单位:国防科学技术大学计算机学院;
基金项目:国家“八六三”高技术研究发展计划基金项目(2012AA012600,2012AA01A402,2012AA01A401,2011AA010702,2010AA012505);国家自然科学基金项目(60933005,91124002);国家科技支撑计划基金项目(2012BAH38B04,2012BAH38B06);国家242信息安全计划基金项目(2011A010)
摘    要:近年来,MapReduce并行计算模型受到工业界和学术界广泛关注.基于该模型的系统实现已在谷歌、雅虎、Facebook等大公司内部成功应用.然而,基于MapReduce的系统实现最初用于解决海量无结构、半结构化数据的批处理问题,例如生成倒排索引、计算网页的pagerank、日志分析等,在设计上缺乏针对海量结构化数据进行交互式分析处理的优化考虑,例如:它总是采用全数据集强力扫描的数据处理模式,这有悖于结构化数据管理中常用的操作模式———选择性查询分析处理.针对该问题,引入传统数据库管理领域中常用的全局索引技术,将其应用在基于MapReduce模型的开源项目Hadoop上,以block为粒度对Hadoop分布式文件系统上的结构化数据构建全局索引结构,并给出一种面向范围查询分析的作业编译与调度执行优化算法,主要目标是基于应用语义及辅助索引结构减少不必要的map任务数,进而优化作业的调度开销和执行开销.在实验验证阶段,给出了80%,50%,30%,10%四种数据选择率在3种集群规模下的优化效果,发现作业响应时间最高可提升5倍,I?O开销最高提升10倍,任务调度开销最高提升11倍.

关 键 词:MapReduce  Hadoop  大数据分析  全局索引  范围查询
本文献已被 CNKI 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号