首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 218 毫秒
1.
随着基于Hadoop平台的大数据技术的不断发展和实践的深入,Hadoop YARN资源调度策略在异构集群中的不适用性越发明显。一方面,节点资源无法动态分配,导致优势节点的计算资源浪费、系统性能没有充分发挥;另一方面,现有的静态资源分配策略未考虑作业在不同执行阶段的差异,易产生大量资源碎片。基于以上问题,提出了一种负载自适应调度策略。监控集群执行节点和提交作业的性能信息,利用实时监控数据建模、量化节点的综合计算能力,结合节点和作业的性能信息在调度器上启动基于相似度评估的动态资源调度方案。优化后的系统能够有效识别集群节点的执行能力差异,并根据作业任务的实时需求进行细粒度的动态资源调度,在完善YARN现有调度语义的同时,可作为子级资源调度方案架构在上层调度器下。在Hadoop 2.0上实现并测试该策略,实验结果表明,作业的自适应资源调度策略显著提高了资源利用率,集群并发度提高了2到3倍,时间性能提升了近10%。  相似文献   

2.
YARN是Hadoop的一个分布式的资源管理系统,用来提高分布式集群的内存、I/O、网络、磁盘等资源的利用率.然而,YARN的配置参数众多,要对其人工调优并获得最佳的性能费时费力.本文在现有的YARN资源调度器的基础上,结合了一种闭环反馈控制方法,可在集群运行状态下动态地对MapReduce (MR)作业数进行优化,省去了人工调整参数的过程.实验表明,在YARN的容量调度器和公平调度器的基础上使用该方法,相比于默认配置,MR作业完成时间分别减少53%和14%左右.  相似文献   

3.
何华  林闯  赵增华  庞善臣 《计算机应用》2015,35(5):1255-1261
由于Hadoop能在同一时间处理多个用户提交的不同作业的多个任务,这使得用传统的方法对其进行建模和性能分析变得十分困难.为了解决这个问题,基于马尔可夫排队模型M/MMDP/C/K建立了一个随机Petri网(SPN)模型和一个确定随机Petri网(DSPN)模型来分别描述Hadoop调度中的数据状态和作业公平调度.通过设置DSPN中的使动谓词和随机开关来建模Hadoop公平调度和YARN公平调度.使用嵌入的马尔可夫链模型来分析单用户情景,而在分析多用户情景时则引入分解和迭代技术来减小模型的状态空间,从而避免产生状态爆炸问题.研究侧重于Hadoop中作业调度的平均性能,仅通过求解提出的分析模型,就可以对比和分析服务质量(QoS)的一些关键指标,如平均吞吐量、平均队列长度和平均时延.采用Matlab进行仿真:当每秒到达任务数大于等于20时,YARN算法的数据积压和平均时延明显少于公平算法;当每秒到达任务数大于等于30时,YARN算法的平均吞吐量明显高于公平算法.实验结果表明,YARN公平算法能够减少平均处理和排队等待时间,在平均吞吐量、平均队列长度和平均时延上明显优于公平算法.  相似文献   

4.
通过研究蚁群算法,针对现有Hadoop调度器的不足,提出一个基于蚁群算法的Hadoop资源感知调度器及其具体实现方案。从而使Hadoop作业调度器可以更有效地对任务进行分配,提高整体架构的作业性能。通过实验证明,利用蚁群算法实现的资源感知调度器在同构环境中虽没有明显改善系统计算速度,但是在异构环境中可以很好提高系统处理任务的性能,降低了运算时间。  相似文献   

5.
风电场数据中心包含状态监测、数据采集等实时类作业和非实时类作业,采用C/S结构存在资源利用率不平衡、管理与维护成本高等缺点。设计了一种基于Hadoop云平台的数据中心架构;针对开源Hadoop平台现有FIFO调度器不能满足实时监测系统要求,在原有FIFO调度器的基础上,设计了一种双队列的作业调度器,综合考虑作业的截止时间和优先级来进行作业调度决策,实验结果表明,与FIFO调度器相比,双队列的作业调度器在集群负载较大时能够表现出较好的性能,保证实时类作业能够优先执行,为风电机组的安全运行提供保障。  相似文献   

6.
为提升Hadoop集群在异构环境下处理硬实时作业的性能,提出一种基于历史进度自动调整作业优先级的调度算法(HAPS)。该算法实时监控作业进度信息,对作业进度率进行指数平滑预测,计算作业剩余执行时间,动态估算作业空闲时间。并据此实时更新作业队列中作业的优先级顺序,优先调度空闲时间小的作业。实验结果表明,HAPS有效地提高了异构环境下硬实时作业的执行成功率。  相似文献   

7.
对Hadoop平台的作业调度算法进行了研究, 提出了支持作业类型区分的多队列调度优化算法。优化算法支持根据节点当前的负载情况分配不同类型的作业, 以提高节点的资源利用率; 允许作业队列的资源在闲置时被其他作业队列占用; 在原作业队列需要时可以被即时回收, 即回收过程支持任务抢占; 采用共享队列列表和非共享队列列表的逻辑划分来防止乒乓效应。Hadoop平台的性能测试结果表明, 优化算法相比系统默认算法在作业调度的执行效率、执行平稳性等方面都有了显著的提升。  相似文献   

8.
过高的Coflow调度时间将会导致数据中心性能下降,如何减小数据中心中语义相关流(Coflow)的平均完成时间是目前数据中心网络流量调度需要解决的重点问题。为了降低先验未知情况下的Coflow调度的时间,提出一种面向无先验知识Coflow的高效多级队列调度E-Aalo(Enhanced-Aalo)。采用Coflow流量放置策略选择合适的节点减少Coflow中需传输的数据量,降低Coflow调度的平均完成时间。通过提前调度多级队列中低优先级队列流量进一步优化Coflow调度的平均完成时间。实验结果表明,与已有的Aalo方法相比,Coflow调度平均完成时间降低了12.28%,更接近先验已知情况下的最优调度。  相似文献   

9.
为有效提高Hadoop集群作业调度的效率,提出一种基于蚁群算法的自适应作业调度的方案,有效利用蚁群算法正反馈的优势特点,使Hadoop作业调度器更高效地对任务进行分配,提高整体架构的作业性能。实验结果表明,该算法能够很好的平衡资源负载,减少任务的完成时间,提高系统处理任务的性能。  相似文献   

10.
《软件》2016,(3):84-88
提交到YARN上的一个大数据作业会被切分为一个或者多个任务,任务是大数据作业申请资源和执行的基本单位[1]。在某些领域中存在需要对作业紧急度作有效区分使得高紧急度作业优先获得资源的需求,但是在现有的YARN资源调度策略中,对于提交到YARN上的高优先级作业缺乏资源优先分配和高质量的资源保障机制。本文在修改YARN原有资源调度方案的基础上,提出了一种基于YARN的高优先级作业调度实现方案。实验表明,提交到YARN上的高优先级作业执行效率提升了7%左右,证明设计方案行之有效。  相似文献   

11.
YARN is a resource management system widely used in Hadoop. It supports MapReduce, Spark, Storm and other computing frameworks, and has become the core component of big data ecology. However, in Hadoop YARN’s existing resource scheduler, a resource guarantee mechanism based on resource reservation, will produce resource fragmentations, leading to a waste of resources. In order to improve the resource utilization and throughput of the cluster, this paper proposes a resource allocation mechanism based on reservation and backfill. In this mechanism, based on the priority of the job, it decides whether to make a reservation to the resource and introduce a backfill strategy to backfill the resource without affecting the execution of the reservation job. Experiments show that the resource scheduling mechanism based on reserved backfill can effectively improve the resource utilization and throughput of Hadoop YARN cluster.  相似文献   

12.
To solve the limitation of Hadoop on scalability, resource sharing, and application support, the open‐source community proposes the next generation of Hadoop's compute platform called Yet Another Resource Negotiator (YARN) by separating resource management functions from the programming model. This separation enables various application types to run on YARN in parallel. To achieve fair resource sharing and high resource utilization, YARN provides the capacity scheduler and the fair scheduler. However, the performance impacts of the two schedulers are not clear when mixed applications run on a YARN cluster. Therefore, in this paper, we study four scheduling‐policy combinations (SPCs for short) derived from the two schedulers and then evaluate the four SPCs in extensive scenarios, which consider not only four application types, but also three different queue structures for organizing applications. The experimental results enable YARN managers to comprehend the influences of different SPCs and different queue structures on mixed applications. The results also help them to select a proper SPC and an appropriate queue structure to achieve better application execution performance. Copyright © 2016 John Wiley & Sons, Ltd.  相似文献   

13.
Apache Hadoop becomes ubiquitous for cloud computing which provides resources as services for multi-tenant applications. YARN (a.k.a. MapReduce 2.0) is one of the key features in the second-generation Hadoop, which provides resource management and scheduling for large-scale MapReduce environments. Two enormous challenges in the YARN scheduler are the abilities to automatically tailor and control resource allocations to different jobs for achieving their Service Level Agreements (SLAs), and minimize energy consumption of the overall cloud computing system. In this work, we propose an SLA-aware energy-efficient scheduling scheme which allocates appropriate amount of resources to MapReduce applications with YARN architecture. In our task scheduling policy, We consider the data locality information to save the MapReduce network traffic. Furthermore, the slack time between the actual execution time of completed tasks and expected completion time of the application is utilized to improve the energy-efficiency of the system. An online userspace governor-based dynamic voltage and frequency scaling (DVFS) scheme is designed in the YARN per-application ApplicationMaster to dynamically change the CPU frequency for upcoming tasks given the slack time from previous completed tasks. Experimental evaluation shows that our proposed scheme outperforms the existing MapReduce scheduling policies in terms of both resource ultization and energy-efficiency.  相似文献   

14.
It is a fact that the attention of research community in computer science, business executives, and decision makers is drastically drawn by big data. As the volume of data becomes bigger, it needs performance‐oriented data‐intensive processing frameworks such as MapReduce, which can scale computation on large commodity clusters. Hadoop MapReduce processes data in Hadoop Distributed File System as jobs scheduled according to YARN fair scheduler and capacity scheduler. However, with advancement and dynamic changes in hardware and operating environments, the performance of clusters is greatly affected. Various efforts in literature have been made to address the issues of heterogeneity (i.e., clusters consisting of virtual machines and machines with different hardware), network communication, data locality, better resource utilization, and run‐time scheduling. In this paper, we present a survey to discuss various research efforts made so far to improve Hadoop MapReduce scheduling. We classify scheduling algorithms and techniques proposed in the literature so far based on their addressing areas and present a taxonomy. Furthermore, we also discuss various aspects of open issues and challenges in the scheduling of MapReduce to improve its performance. Copyright © 2015 John Wiley & Sons, Ltd.  相似文献   

15.
为了能有效处理海量数据,进行关联分析、商业预测等,Hadoop分布式云计算平台应运而生。但随着Hadoop的广泛应用,其作业调度方面的不足也显现出来,现有的多种作业调度器存在参数设置复杂、启动时间长等缺陷。借助于人工蜂群算法的自组织性强、收敛速度快的优势,设计并实现了能实时检测Hadoop内部资源使用情况的资源感知调度器。相比于原有的作业调度器,该调度器具有参数设置少、启动速度快等优势。基准测试结果表明,该调度器在异构集群上,调度资源密集型作业比原有调度器快10%~20%左右。  相似文献   

16.
在大规模的Hadoop集群中,良好的任务调度策略对提高数据本地性、减小网络传输开销、减少作业执行时间以及提高集群的作业吞吐量都有着重要的影响。本文针对Hadoop架构中Reduce任务的数据本地性较低问题,提出了一种基于延迟调度策略的Reduce任务调度优化算法,通过提高Reduce任务的数据本地性来减少作业执行时间以及提高作业吞吐量,该算法在Hadoop架构的Early Shuffle阶段,使用多级延迟调度策略来提高Reduce任务的数据本地性。最后重写原生公平调度器代码实现了该调度算法,并与原生公平调度器进行了对比实验分析,实验结果表明该算法明显减少了作业执行时间,提高了集群的作业吞吐量。  相似文献   

17.
本文研究并实现了大数据平台 Hadoop YARN 与深度学习框架 TensorFlow 的结合。通过对 DRF 算法的扩展,使得 Hadoop YARN 在原先支持 CPU 和内存的基础上,可以对 GPU 资源进行管理和调度。通过 YARN 的应用接口,把 TensorFlow 封装成了 YARN 的应用程序之一,把原来的分布式程序在多节点手动分发启动改为了在单节点自动分发启动,单机版不变。本文设计了多组实验对 YARN+TensorFlow 进行了多方位的测试,实验结果表明 YARN 和 TensorFlow 相结合相比原生 TensorFlow 程序具有相似的加速比,可以满足单系统多用户对 GPU 资源的使用,有效提高 GPU 资源的使用效率和编程人员的工作效率,增加系统的复用率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号