首页 | 本学科首页   官方微博 | 高级检索  
     

非均匀数据分布下的MapReduce连接查询算法优化
作者单位:;1.桂林电子科技大学广西可信软件重点实验室;2.桂林电子科技大学广西云计算与大数据协同创新中心;3.桂林电子科技大学广西自动检测技术与仪器重点实验室
摘    要:MapReduce分布式计算框架有助于提升大规模数据连接查询的效率,但当连接属性分布不均匀时,其简单的散列策略容易导致计算节点间负载不均衡,影响作业的整体性能。针对连接查询操作中的数据倾斜问题,研究了MapReduce框架下大规模数据连接查询操作的优化算法。首先对经典的改进重分区连接查询算法进行实验分析,研究了传统MapReduce计算框架下连接查询操作的执行流程,找出了基于MapReduce计算框架的连接查询算法在数据分布不均匀时的性能瓶颈;进而提出了组合分割平衡分区优化策略,设计并实现了基于组合分割平衡分区优化策略的改进型连接查询算法。实验结果表明,提出的优化策略在大规模数据的连接查询处理上很好地解决了数据倾斜带来的性能影响,具有好的时间性能和可扩展性。

关 键 词:连接查询  MapReduce  数据倾斜

Join Query Optimization Based on MapReduce under Skewed Data
Abstract:
Keywords:
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号