首页 | 本学科首页   官方微博 | 高级检索  
     

数据倾斜情况下基于MapReduce模型的连接算法研究
作者姓名:金健  陈群  赵保学
作者单位:西北工业大学计算机学院
基金项目:国家“九七三”重点基础研究发展规划基金资助项目(2012CB316203);国家自然科学基金重点资助项目(61033007);国家“八六三”高技术研究发展基金资助项目(2012AA011004)
摘    要:基于MapReduce的连接算法的研究是海量数据研究领域的一个重要内容,但都集中在数据分布均匀的情况下进行算法优化,而在实际应用中数据分布往往是不均匀的。本文基于此背景,提出一种适合在数据严重倾斜时使用基于MapReduce编程模型的连接算法Skew Control Join,算法通过采样获取数据集的整体分布,通过全局分区将数据集进行分割,使倾斜数据的处理平均分配到所有的Reduce任务上。实验表明在数据倾斜时,本文提出的算法具有良好的性能,达到研究目标。

关 键 词:连接算法  数据倾斜  全局分区  采样
本文献已被 CNKI 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号