首页 | 本学科首页   官方微博 | 高级检索  
     

Spark中一种高效RDD自主缓存替换策略研究
引用本文:魏赟,丁宇琛. Spark中一种高效RDD自主缓存替换策略研究[J]. 计算机应用研究, 2020, 37(10): 3043-3047
作者姓名:魏赟  丁宇琛
作者单位:上海理工大学 光电信息与计算机工程学院,上海200093;上海理工大学 光电信息与计算机工程学院,上海200093
基金项目:上海市科委科研计划;国家自然科学基金
摘    要:由于并行计算框架Spark缓存替换算法的粗糙性,LRU(least recently used)算法并未考虑RDD的重复使用导致易把高重用数据块替换出内存且作业执行效率较低等问题。通过优化权重模型和改进替换策略,提出了一种高效RDD自主缓存替换策略(efficient RDD automatic cache,ERAC),包括高重用自主缓存算法和缓存替换分级算法,可实现高效RDD的自主缓存和缓存目标的分级替换。最后利用SNAP(Stanford network analysis project)提供的标准数据集将ERAC和LRU、RA(register allocation)等算法进行了对比实验,结果显示ERAC算法能够有效提高Spark的内存利用率和任务执行效率。

关 键 词:Spark  弹性分布式数据集  缓存替换  内存资源利用
收稿时间:2019-06-16
修稿时间:2020-09-08

Research on efficient RDD self-cache replacement strategy in Spark
Wei Yun and Ding Yuchen. Research on efficient RDD self-cache replacement strategy in Spark[J]. Application Research of Computers, 2020, 37(10): 3043-3047
Authors:Wei Yun and Ding Yuchen
Affiliation:School of Optical-Electrical and Computer Engineering,University of Shanghai for Science and Technology,
Abstract:Due to the roughness of cache replacement mechanism in Spark parallel computing framework, LRU algorithm does not consider the RDD data block reuse problem that easily results in high-reuse block to swap out of the cache and execution inefficiency. By optimizing the weight model and improving the replacement strategy, this paper put forward ERAC cache strategy, which could achieve efficient RDD autonomous cache and hierarchical replacement, included high-reuse self-caching algorithm and cache replacement hierarchical algorithm. Applied ERAC, RA and LRU in standard dataset of SNAP, experimental shows that ERAC can effective improve the memory utilization and task execution efficiency.
Keywords:Spark   resilient distributed datasets   cache replacement   memory resource utilization
本文献已被 万方数据 等数据库收录!
点击此处可从《计算机应用研究》浏览原始摘要信息
点击此处可从《计算机应用研究》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号