首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 140 毫秒
1.
为提高Hadoop作业调度的效率,增加云平台的吞吐率,提出了一种基于Hadoop云计算平台的作业调度算法。该算法在加权轮转调度算法的基础上,针对MapReduce的运行特点,增加了改进map任务本地性调度的因素,使得作业调度仍然保持了相对的公平性,并通过提高轮转周期内的map任务数据本地性,减少了任务的执行时间。实验结果证明,该调度算法与加权轮转调度算法相比,较好地提高了任务本地执行的比例,缩短了云计算系统内作业的总执行时间。  相似文献   

2.
基于学习方式对Hadoop作业调度的改进研究   总被引:1,自引:0,他引:1  
余正样 《计算机科学》2012,39(101):220-222,256
随着并行计算、分布式计算和网格计算技术的发展,云计算作为一种新的模型被提出来,发展极为迅速。Hadoop作为一个开源的云计算系统,得到了广泛的运用。作业调度是Hadoop平台的核心问题之一,通过对Hadoop中已有调度算法的了解和分析后,基于学习的方式,利用过去的节点历史记录和作业属性来不断地改进作业调度;应用了基于特征加权的朴素贝叶斯分类器算法来改进任务的分配调度,并通过实验进行了验证,结果表明它对任务分配调度执行效率有一定的提高。  相似文献   

3.
针对Hadoop平台现有任务调度算法优化程度不高的问题, 提出了一种基于数据局部性的推测式任务调度算法。该算法通过计算节点上Map和Reduce任务时长比例, 结合不同节点上数据的局部特性, 采用了比现有算法更精确的任务进度探测方式找出快慢节点, 在快节点上启动剩余时间最长的落后任务的备份任务, 用移动计算代替移动数据。在Hadoop环境中进行了实验, 结果表明该算法比现有算法缩短了任务平均运行时间, 加快了任务的执行效率。  相似文献   

4.
对Hadoop平台下的MapReduce现有的调度器进行分析研究。针对LATE调度算法在分配节点执行落后任务的备份任务时的不足,结合Hadoop集群的异构性和工作负载的特殊性,在LATE调度算法的基础上提出了一种改进的LATE调度算法。对该算法进行实验和性能分析,表明该算法在完成时间和负载均衡方面有很大改进。  相似文献   

5.
调度问题是目前云计算研究中的热点问题,其目的是研究如何协同云计算资源,使其能最大化利用.Hadoop是目前流行的开源云计算平台.针对Hadoop自带的作业调度算法的不足,研究和实现了基于优先级的加权循环算法.该算法能够区分用户服务等级,保证系统资源不被服务等级高的用户长时间占有,保证系统资源得到合理的利用.最后,对该算法进行实验及性能分析,验证该算法能够提高系统的整体效率和减少了相应时间,避免资源浪费.  相似文献   

6.
移动云计算将云计算的概念引入到移动互联网中。在对移动终端和云计算进行研究的基础上,针对移动终端请求计算量小、并发性高、用户实时性要求高的特点,提出一种基于Hadoop的移动云计算本地化调度算法。同时针对实际应用场景可能出现的热点数据问题,给出改进方案。实验结果表明改进后的本地化调度算法能够缩短系统响应时间,提高系统的吞吐率。  相似文献   

7.
在大规模的Hadoop集群中,良好的任务调度策略对提高数据本地性、减小网络传输开销、减少作业执行时间以及提高集群的作业吞吐量都有着重要的影响。本文针对Hadoop架构中Reduce任务的数据本地性较低问题,提出了一种基于延迟调度策略的Reduce任务调度优化算法,通过提高Reduce任务的数据本地性来减少作业执行时间以及提高作业吞吐量,该算法在Hadoop架构的Early Shuffle阶段,使用多级延迟调度策略来提高Reduce任务的数据本地性。最后重写原生公平调度器代码实现了该调度算法,并与原生公平调度器进行了对比实验分析,实验结果表明该算法明显减少了作业执行时间,提高了集群的作业吞吐量。  相似文献   

8.
针对目前 Hadoop 作业调度方法服务水平不高、资源利用率低的问题,提出了一种改进的 Hadoop 多用户作业调度算法。分析了 Hadoop 现行调度算法存在的不足,提出了基于服务质量(QoS)的作业选择量化和基于遗传算法的任务选择均衡化的方法,最后采用 Hadoop 平台对算法进行了仿真。仿真结果表明,该资源调度方法提高了作业的服务质量,实现了资源的合理调度。  相似文献   

9.
为了提高Hadoop调度器的调度性能,缩短Hadoop集群的任务整体响应时间,提出了一种基于CPU占用率的动态调度改进算法.首先对Hadoop传统的性能优化方法进行了对比,指出其存在问题的关键是缺乏动态性和灵活性.在此基础上,深入分析Hadoop默认任务调度模型,提出了一种以CPU占用率作为负载指标,在循环分配任务时根据反馈的负载指标判断节点负载情况的算法,动态适应负载变化.实验结果表明,该算法在Hadoop集群中,能有效提高集群性能.  相似文献   

10.
Hadoop已成为研究云计算的基础平台,MapReduce是其大数据分布式处理的计算模型。针对异构集群下MapReduce数据分布、数据本地性、作业执行流程等问题,提出一种基于DAG的MapReduce调度算法。把集群中的节点按计算能力进行划分,将MapReduce作业转换成DAG模型,改进向上排序值计算方法,使其在异构集群中计算更精准、任务的优先级排序更合理。综合节点的计算能力与数据本地性及集群利用情况,选择合理的数据节点分配和执行任务,减少当前任务完成时间。实验表明,该算法能合理分布数据,有效提高数据本地性,减少通信开销,缩短整个作业集的调度长度,从而提高集群的利用率。  相似文献   

11.
It is a fact that the attention of research community in computer science, business executives, and decision makers is drastically drawn by big data. As the volume of data becomes bigger, it needs performance‐oriented data‐intensive processing frameworks such as MapReduce, which can scale computation on large commodity clusters. Hadoop MapReduce processes data in Hadoop Distributed File System as jobs scheduled according to YARN fair scheduler and capacity scheduler. However, with advancement and dynamic changes in hardware and operating environments, the performance of clusters is greatly affected. Various efforts in literature have been made to address the issues of heterogeneity (i.e., clusters consisting of virtual machines and machines with different hardware), network communication, data locality, better resource utilization, and run‐time scheduling. In this paper, we present a survey to discuss various research efforts made so far to improve Hadoop MapReduce scheduling. We classify scheduling algorithms and techniques proposed in the literature so far based on their addressing areas and present a taxonomy. Furthermore, we also discuss various aspects of open issues and challenges in the scheduling of MapReduce to improve its performance. Copyright © 2015 John Wiley & Sons, Ltd.  相似文献   

12.
同构Hadoop集群环境下改进的延迟调度算法   总被引:1,自引:1,他引:0  
在Hadoop框架下计算资源和数据资源可以在不同物理位置的特点产生本地化问题。延迟调度算法的产生旨在解决本地化问题, 此算法根据任务待处理数据的物理位置作为作业的计算节点, 调度任务至目标节点。但是可能出现同一作业中若干任务集中运行在某一计算节点, 导致作业达不到理想的并行效果。针对原有的延迟调度算法, 提出延迟一容量调度算法, 允许部分任务选择非本地化节点作为原延迟调度算法中任务的目标计算节点, 以提高作业的响应时间与增加作业的并行程度。最后通过实验对比分析, 改进后的算法在执行效率和并行效果明显优于原延迟调度算法。  相似文献   

13.
王越峰  王溪波 《计算机科学》2017,44(Z6):567-570
在Hadoop集群环境下本地性调度算法是提高数据本地性的算法。本地性调度算法的调度策略的本质是提高数据本地性,减少网络传输开销,避免阻塞。但是由于Map任务的完成时间不同,Reduce任务存在的等待现象影响了作业的平均完成时间,使得作业的完成时间增加,进而引起系统的性能参数不佳。因此提出在保留原算法数据本地性要求的基础上集成可抢占式的调度方法。在Reduce任务等待时,挂起该任务并释放资源给其他Map任务,当Map任务完成到一定程度后,重新调度Reduce任务。基于上述调度策略设计了集成抢占式策略的本地性调度。为了对改进的算法进行验证,通过实验对本地性调度算法和集成抢占式本地性调度算法进行比较。实验结果表明,在相同数据上,集成抢占式本地性调度算法的平均完成时间有明显的降低。  相似文献   

14.
This paper proposes a scheduling algorithm to solve the problem of task scheduling in a cloud computing system with time‐varying communication conditions. This algorithm converts the scheduling problem with communication changes into a directed acyclic graph (DAG) scheduling problem for existing fuzzy communication task nodes, that is, the scheduling problem for a communication‐change DAG (CC‐DAG). The CC‐DAG contains both computation task nodes and communication task nodes. First, this paper proposes a weighted time‐series network bandwidth model to solve the indefinite processing time (cost) problem for a fuzzy communication task node. This model can accurately predict the processing time of a fuzzy communication task node. Second, to address the scheduling order problem for the computation task nodes, a dynamic pre‐scheduling search strategy (DPSS) is proposed. This strategy computes the essential paths for the pre‐scheduling of the computation task nodes based on the actual computation costs (times) of the computation task nodes and the predicted processing costs (times) of the fuzzy communication task nodes during the scheduling process. The computation task node with the longest essential path is scheduled first because its completion time directly influences the completion time of the task graph. Finally, we demonstrate the proposed algorithm via simulation experiments. The experimental results show that the proposed DPSS produced remarkable performance improvement rate on the total execution time that ranges between 11.5% and 21.2%. In view of the experimental results, the proposed algorithm provides better quality scheduling solution that is suitable for scientific application task execution in the cloud computing environment than HEFT, PEFT, and CEFT algorithms.  相似文献   

15.
针对Hadoop平台上调度算法存在的不足,提出了一种改进的调度算法———Triple-Queue算法。在充分考虑数据的本地性后,Triple-Queue算法设计了一种改进的优先级计算模型,以有效地区分用户作业的等级,同时又保证一定程度的公平性,进而减小作业执行时间,避免系统资源浪费。实验结果表明,随着数据量的提高,该算法执行效率明显提高,同时能够较好地解决数据本地性问题。  相似文献   

16.
国家气象信息中心存储和保存了50多年宝贵的长序列历史资料,这些历史资料在实时、准实时业务及科研中需要经常被使用并进行气象科学计算.由于历史数据量大,耗时长,如何在短时间内得到所需的计算结果提供用户使用成为本文的主要研究目标.通过搭建云计算平台,并以30年气候资料统计整编研究对象,在云计算平台上基于MapReduce分布式并行计算模型进行多种统计项目、统计方法的算法实现.通过修改云计算平台运行环境参数配置并在不同配置下运行相同计算任务,进行计算效率对比试验.  相似文献   

17.
Apache Hadoop becomes ubiquitous for cloud computing which provides resources as services for multi-tenant applications. YARN (a.k.a. MapReduce 2.0) is one of the key features in the second-generation Hadoop, which provides resource management and scheduling for large-scale MapReduce environments. Two enormous challenges in the YARN scheduler are the abilities to automatically tailor and control resource allocations to different jobs for achieving their Service Level Agreements (SLAs), and minimize energy consumption of the overall cloud computing system. In this work, we propose an SLA-aware energy-efficient scheduling scheme which allocates appropriate amount of resources to MapReduce applications with YARN architecture. In our task scheduling policy, We consider the data locality information to save the MapReduce network traffic. Furthermore, the slack time between the actual execution time of completed tasks and expected completion time of the application is utilized to improve the energy-efficiency of the system. An online userspace governor-based dynamic voltage and frequency scaling (DVFS) scheme is designed in the YARN per-application ApplicationMaster to dynamically change the CPU frequency for upcoming tasks given the slack time from previous completed tasks. Experimental evaluation shows that our proposed scheme outperforms the existing MapReduce scheduling policies in terms of both resource ultization and energy-efficiency.  相似文献   

18.
张春燕  于丽 《计算机测量与控制》2017,25(8):162-165, 174
针对电子书应用存在的文件格式、性能效率低下和图像失真等问题,设计了一种应用于云电子书系统的多级优化框架,优化框架主要体现在如下三个方面;第一,对向量图形类库的性能进行描述,并提出了一种优化算法,减少了类库的时间复杂度;第二,在嵌入式GPU上并行进行坐标系统的计算;利用GPU在并行计算方面的优势,云电子书在向量图形类库方面获取了显著的性能提升;第三,云电子书将文件转化功能转嫁给Hadoop云平台,节省了移动设备的能量消耗和计算时间。同时为了对Hadoop调度过程中的数据位置问题进行优化,将位置感知调度器运用到提出的系统;实验结果表明:云电子书系统与最初的Open VG类库相比,性能提升了约70%,而且云电子书系统与连续服务器平台相比,计算时间减小了约60%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号