首页 | 本学科首页   官方微博 | 高级检索  
     

异构Spark集群数据倾斜修正调度策略
引用本文:卞琛,修位蓉,于炯. 异构Spark集群数据倾斜修正调度策略[J]. 计算机工程与科学, 2022, 44(4): 620-630. DOI: 10.3969/j.issn.1007-130X.2022.04.006
作者姓名:卞琛  修位蓉  于炯
作者单位:(1广东金融学院互联网金融与信息工程学院,广东 广州 510521;2.广州商学院信息技术与工程学院,广东 广州 511363;3.新疆大学信息科学与工程学院,新疆 乌鲁木齐 830046)
基金项目:广州市哲学社会科学规划项目;国家自然科学基金
摘    要:异构Spark集群存在木桶效应,不合理的并行度导致任务分配与工作节点计算能力的适配性较差,进而影响集群计算效率和资源利用率。针对这一问题,首先建立模型,分析数据分布、并行度参数和节点任务分配的耦合关系,提出算法的优化目标,设计异构Spark集群的数据倾斜修正调度策略DSCS,包括并行度预估算法、数据倾斜修正算法和异构节点任务分配算法。预估算法对并行度进行先期设定,数据倾斜修正算法根据首个计算阶段的统计信息进行数据重新划分和并行度修正,由异构节点任务分配算法对集群不同计算能力的工作节点进行合理的任务分配,从而提高数据计算量与节点计算能力的适配性,优化Spark集群的整体性能。实验结果表明:在不同作业类型、不同数据集条件下,算法均取得了一定的性能提升,并能有效减少工作节点外存溢写的概率。

关 键 词:Spark  并行调度  数据分配  异构集群  数据倾斜
收稿时间:2021-11-09
修稿时间:2021-12-15

A data skew correction scheduling strategy of heterogeneous Spark cluster
BIAN Chen,XIU Wei-rong,YU Jiong. A data skew correction scheduling strategy of heterogeneous Spark cluster[J]. Computer Engineering & Science, 2022, 44(4): 620-630. DOI: 10.3969/j.issn.1007-130X.2022.04.006
Authors:BIAN Chen  XIU Wei-rong  YU Jiong
Abstract:
Keywords:
本文献已被 万方数据 等数据库收录!
点击此处可从《计算机工程与科学》浏览原始摘要信息
点击此处可从《计算机工程与科学》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号