一种Spark作业配置参数智能优化方法 |
| |
引用本文: | 阮树骅,潘梵梵,陈兴蜀,罗永刚,吴天雄.一种Spark作业配置参数智能优化方法[J].四川大学学报(工程科学版),2020,52(1):191-197. |
| |
作者姓名: | 阮树骅 潘梵梵 陈兴蜀 罗永刚 吴天雄 |
| |
作者单位: | 四川大学网络空间安全学院,四川大学网络空间安全研究院,四川大学网络空间安全学院,四川大学网络空间安全研究院,四川大学网络空间安全学院,四川大学网络空间安全研究院,四川大学网络空间安全研究院,四川大学计算机学院,四川大学网络空间安全研究院 |
| |
基金项目: | 国家自然科学基金青年科学基金项目(61802270);中央高校基本科研业务费基础研究项目(SCU2018D018) |
| |
摘 要: | Spark的配置参数对作业运行性能有较大影响,针对配置参数种类多、参数搜索空间大、参数间相互影响导致人工配置参数调优效率低下的问题,提出了一种Spark作业配置参数智能优化方法。本文首先在Spark众多配置参数中选择对作业运行性能影响较大的关键配置参数,建立典型Spark作业的运行数据集,利用支持向量回归算法,构建作业性能预测模型,通过改变数据集的规模,对比分析了模型预测值和作业的真实运行时间,模型评估指标证明了作业性能预测模型的有效性和准确性。其次基于作业性能预测模型,设计并实现了基于爬山算法、模拟退火算法、递归随机搜索算法以及粒子群算法的配置参数优化算法,并对几种算法的求解质量进行对比分析,实验表明递归随机搜索算法在几种不同类型的作业上收敛结果较优且标准差较小,证明该算法对不同类型作业的适应性较强、稳定性较好。将本文的智能优化配置与传统经验优化配置相比,实验结果表明,智能优化配置为典型Spark作业分别带来了4%、15%、22%的平均性能提升,证明智能优化配置能够高效地获取到具备较好作业适应性的配置,提升作业运行性能。
|
关 键 词: | Spark 配置参数 性能预测 智能优化 |
收稿时间: | 2019/3/23 0:00:00 |
修稿时间: | 2019/11/1 0:00:00 |
|
| 点击此处可从《四川大学学报(工程科学版)》浏览原始摘要信息 |
|
点击此处可从《四川大学学报(工程科学版)》下载全文 |
|