首页 | 本学科首页   官方微博 | 高级检索  
     

基于运行数据分析的Spark任务参数优化
引用本文:陈侨安,李峰,曹越,龙明盛.基于运行数据分析的Spark任务参数优化[J].计算机工程与科学,2016,38(1):11-19.
作者姓名:陈侨安  李峰  曹越  龙明盛
作者单位:;1.清华大学软件学院;2.清华大学信息科学与技术国家实验室(筹)
基金项目:清华大学信息科学与技术国家实验室大数据科学与技术专项(面向领域的大数据应用系统开发与运行平台)
摘    要:运行数据是大数据系统中增长最快、最为复杂也是最有价值的数据资源之一。基于运行数据,软件开发者可以分析关于软件质量和开发模型的重要信息。Spark作为一个分布式系统,在运行过程中会产生大量的运行数据,包括日志数据、监控数据以及任务图数据。开发者可以基于运行数据对系统进行参数调优。然而该系统所涉及的参数种类繁多、影响多样且难以评估,若对系统了解不足,进行参数调优存在较大的困难。提出运行数据历史库的概念,历史库中存储的是以往运行任务的特征信息以及运行配置信息。同时提出了基于历史库搜索的参数优化模型,并实验验证了本文提出的参数优化模型对用户任务性能提升具有较好的效果。

关 键 词:大数据  运行数据  数据分析  参数优化  Spark
收稿时间:2015-10-02
修稿时间:2016-01-25

Parameter optimization for Spark jobs based on runtime data analysis
CHEN Qiao an,LI Feng,CAO Yue,LONG Ming sheng.Parameter optimization for Spark jobs based on runtime data analysis[J].Computer Engineering & Science,2016,38(1):11-19.
Authors:CHEN Qiao an  LI Feng  CAO Yue  LONG Ming sheng
Affiliation:(1.School of Software,Tsinghua University,Beijing 100084;2.National Laboratory for Information Science and Technology (TNList),Tsinghua University,Beijing 100084,China)
Abstract:The fast growing runtime data is one of the most complicated and valuable data resources in big data systems. Based on runtime data, developers can analyze software quality and discover important information on software development model. As a distributed system, Spark generates a large amount of runtime data during running user applications. Those runtime data include log data, monitoring data and graph representation of jobs. Developers can optimize system parameters with the help of runtime data. However, there are different types of parameters in Spark and it is difficult to identify the effects of the parameters, which makes them hard to tune. In this paper we propose the concept of runtime data historical database and a parameters optimization model based on searching the database. Experimental results validate that the proposed optimization model achieves good performance on the recommendation of system parameters.
Keywords:big data  runtime data  data analysis  parameters optimization  Spark  
本文献已被 万方数据 等数据库收录!
点击此处可从《计算机工程与科学》浏览原始摘要信息
点击此处可从《计算机工程与科学》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号