首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 406 毫秒
1.
文中介绍了基于Kubernetes的AI调度引擎平台的设计与实现, 针对当前人工智能调度系统中存在的服务配置复杂, 集群中各节点计算资源利用率不均衡以及系统运维成本高等问题, 本文提出了基于Kubernetes实现容器调度和服务管理的解决方案. 结合AI调度引擎平台的需求, 从功能实现和平台架构等方面设计该平台的各个模块. 同时, 针对Kubernetes无法感知GPU资源的问题, 引入device plugin收集集群中每个节点上的GPU信息并上报给调度器. 此外, 针对Kubernetes调度策略中优选算法只考虑节点本身的资源使用率和均衡度, 未考虑不同类型的应用对节点资源的需求差异, 提出了基于皮尔逊相关系数 (Pearson correlation coefficient, PCC)的优选算法, 通过计算容器资源需求量与节点资源使用率的互补度来决定Pod的调度, 从而保证调度完成后各节点的资源均衡性.  相似文献   

2.
为有效提高异构的CPU/GPU集群计算性能,提出一种支持异构集群的CPU与GPU协同计算的两级动态调度算法。根据各节点计算能力评测结果和任务请求动态分发数据,在节点内CPU和GPU之间动态调度任务,使用数据缓存和数据处理双队列机制,提高异构集群的传输和处理效率。该算法实现了集群各节点“能者多劳”,避免了单节点性能瓶颈造成的任务长尾现象。实验结果表明,该算法较传统MPI/GPU并行计算性能提高了11倍。  相似文献   

3.
GPU集群已经成为高性能计算(HPC)领域的主流组件。随着处理单元的发展和集群节点的拓展,GPU集群将在节点层面趋于异构化。提出一套针对异构任务在节点异构GPU集群上的能量有效调度方案。形式化地描述其任务和资源模型以及能耗评估模型。通过特定的节点选择策略,减少空闲状态的能耗损失。通过任务类型划分和组合分配以及DVFS,增加CPU资源利用率。该方案从系统层面着手,能够与现有的算法和指令层面的优化方法兼容。  相似文献   

4.
容器云是5G边缘计算的重要支撑技术,5G的大带宽、低时延和大连接三大特性给边缘计算带来较大的资源压力,容器云编排器Kubernetes仅采集Node剩余CPU和内存两大资源指标,并运用统一的权重值计算Node优先级作为调度依据,该机制无法适应边缘计算场景下精细化的资源调度需求。面向5G边缘计算的资源调度场景,通过扩展Kubernetes资源调度评价指标,并增加带宽、磁盘两种评价指标进行节点的过滤和选择,提出一种基于资源利用率进行指标权重自学习的调度机制WSLB。根据运行过程中的资源利用率动态计算该应用的资源权重集合,使其能够随着应用流量的大小进行自适应动态调整,利用动态学习得到的资源权重集合来计算候选Node的优先级,并选择优先级最高的Node进行部署。实验结果表明,与Kubernetes原生调度策略相比,WSLB考虑了边缘应用的带宽、磁盘需求,避免了将应用部署到带宽、磁盘资源已饱和的Node,在大负荷与异构请求场景下可使集群资源的均衡度提升10%,资源综合利用率提升2%。  相似文献   

5.
为了避免多应用间的资源争用,Spark采用了FIFO、FAIR等作业调度策略,辅以SpreadOut和非SpreadOut两种资源调度算法,但是这些算法没有充分考虑用户作业类型和集群节点性能的相互关系。用户作业类型及节点性能偏向感知的资源调度算法ATNPA提出了对该问题的解决方案。ATNPA根据作业运行所需的内存量和CPU核数将用户作业分为CPU密集型和内存密集型。节点的性能偏向性由节点的静态因素和动态因素决定。静态因素包括CPU速度、内存大小、CPU核数和磁盘容量等;动态因素包括CPU剩余率、内存剩余率、磁盘剩余率和磁盘读写速度等。ATNPA算法在进行资源分配时,能够将作业分配到最适合其类型的节点上。仿真实验表明,与未考虑节点和作业匹配的算法相比较,ATNPA能够有效缩短作业的执行时间、提高集群的性能。  相似文献   

6.
随着基于Hadoop平台的大数据技术的不断发展和实践的深入,Hadoop YARN资源调度策略在异构集群中的不适用性越发明显。一方面,节点资源无法动态分配,导致优势节点的计算资源浪费、系统性能没有充分发挥;另一方面,现有的静态资源分配策略未考虑作业在不同执行阶段的差异,易产生大量资源碎片。基于以上问题,提出了一种负载自适应调度策略。监控集群执行节点和提交作业的性能信息,利用实时监控数据建模、量化节点的综合计算能力,结合节点和作业的性能信息在调度器上启动基于相似度评估的动态资源调度方案。优化后的系统能够有效识别集群节点的执行能力差异,并根据作业任务的实时需求进行细粒度的动态资源调度,在完善YARN现有调度语义的同时,可作为子级资源调度方案架构在上层调度器下。在Hadoop 2.0上实现并测试该策略,实验结果表明,作业的自适应资源调度策略显著提高了资源利用率,集群并发度提高了2到3倍,时间性能提升了近10%。  相似文献   

7.
研究GPU/CPU异构系统任务调度的节能问题.与传统同构体系结构相比,异构系统任务调度呈现较大的随机性和不定性,GPU/CPU异构系统中时间间隙片段呈现了较大的随机性,导致传统调度方法很难建立规则的描述时间片段的模型,调度能耗较高.为解决上述问题,提出了一种改进功耗优化的GPU/CPU异构环境下的任务调度算法,将任务关系图按照依赖关系计算量拆分,并分配到计算节点.在计算节点内根据权重法的思想,统计所有计算节点的处理情况,进而将节点内的子任务调度到合适的处理器.实验结果表明,在不影响应用性能的前提下,降低了异构系统的能耗开销,优化效果明显.  相似文献   

8.
基于遗传算法的Kubernetes资源调度算法   总被引:1,自引:0,他引:1  
Kubernetes在优选阶段仅根据节点CPU和内存的利用率来决定节点的分值,这只能保证单节点的资源利用率,无法保证集群资源的负载均衡.针对该问题,提出一种基于遗传算法的Kubernetes资源调度算法,该算法加入了网络带宽和磁盘IO两项评价指标,同时为评价指标赋予不同权重值,并且引入校验字典校验并修复遗传算法生成的新种群中不符合配置的个体.实验结果表明,与Kubernetes默认资源调度策略相比,该算法考虑了集群中的所有节点的资源利用率,在保证集群负载均衡方面有着更好的效果.  相似文献   

9.
通过研究蚁群算法,针对现有Hadoop调度器的不足,提出一个基于蚁群算法的Hadoop资源感知调度器及其具体实现方案。从而使Hadoop作业调度器可以更有效地对任务进行分配,提高整体架构的作业性能。通过实验证明,利用蚁群算法实现的资源感知调度器在同构环境中虽没有明显改善系统计算速度,但是在异构环境中可以很好提高系统处理任务的性能,降低了运算时间。  相似文献   

10.
Kubernetes是Google主导的容器编排引擎, 其资源调度算法分为预选和优选两个过程. 针对预选过程要遍历所有节点比较耗时的问题, 改进的资源调度算法提出在选出满足条件的节点数量时直接进行优选而无需遍历所有节点, 从而提高资源调度效率; 针对优选过程只考虑了pod自身申请的CPU和内存使用情况, 并且未考虑节点本身的资源利用率的问题, 改进的资源调度算法综合考虑CPU、内存、网络、IO指标, 通过实验验证了改进算法能适应更加复杂的互联网应用环境, 进而提高集群的负载均衡效率.  相似文献   

11.
Kubernetes是比较流行的开源容器编排引擎,其默认调度算法只考虑了CPU和内存两种性能指标,且采用统一权重计算候选节点得分,无法满足各异的Pod应用需求.本文在此基础上扩展了Kubernetes性能指标,增加了带宽、磁盘、IO速率3种指标,并通过AHP(analytic hierarchy process,层次分...  相似文献   

12.
Kubernetes是一个管理容器化应用的开源平台,其默认的调度算法在优选阶段仅把CPU和内存两种资源来作为计算节点的评分指标,同时还忽略了不同类型的Pod对节点资源的占用比例是不同的,容易导致某一资源达到性能瓶颈,从而造成节点对资源使用失衡.针对上述问题,本文在Kubernetes原有的资源指标基础上增加了带宽和磁盘容量,考虑到CPU、内存、带宽和磁盘容量这4类资源在节点上的占用比例对节点的性能的影响,可能造成Pod中应用的非正常运行,甚至杀死Pod,从而影响集群整体的高可靠性.本文将等待创建的Pod区分为可压缩消耗型、不可压缩消耗型以及均衡型,并为每种类型的Pod设置相应的权重,最后通过改进的秃鹰搜索算法(TBESK)来寻找出最优节点进行调度.实验结果表明,随着集群中Pod的数量在不断增加,在集群负载较大的情况下, TBESK算法的综合负载标准差和默认的调度算法相比提升了24%.  相似文献   

13.
Cloud platforms composed of multi-core CPU and many-core Graphics Processing Unit (GPU) have become powerful platforms to host incremental CPU–GPU workloads. In this paper, we study the problem of optimizing the CPU resource management while keeping the quality of service (QoS) of games. To this end, we propose vHybrid, a lightweight user mode runtime framework, in which we integrate a scheduling algorithm for GPU and two algorithms for CPU to efficiently utilize CPU resources with the control accuracy of QoS. vHybrid can maintain the desired QoS with low CPU utilization, while being able to guarantee better QoS performance with little overhead. Our evaluations show that vHybrid saves 37.29% of CPU utilization with satisfactory QoS for hybrid workloads, and reduces three orders of magnitude for QoS fluctuations, without any impact on GPU workloads.  相似文献   

14.
平凡  汤小春  潘彦宇  李战怀 《计算机应用》2021,41(11):3295-3301
针对大量的资源需求少且并行度高的不规则任务集合,利用图形处理器(GPU)来加速处理是目前的主流。然而现有的不规则任务调度策略要么采用独占GPU的方式,要么使用传统的优化方法将任务映射到GPU设备上。前者导致GPU资源的闲置,后者不能最大限度利用GPU计算资源。在分析了现存问题的基础上,采用多背包优化思想,使更多的不规则任务以最佳的方式共享GPU设备。首先,针对GPU集群的特点,给出了由调度器、执行器组成的分布式GPU作业调度框架;然后,以GPU显存为代价,设计了一种基于GPU计算资源的扩展贪心调度(EGS)算法,该算法将尽可能多的不规则任务调度到多个可用的GPU上,以最大限度地利用GPU计算资源,并解决了GPU资源的闲置问题;最后,使用实际基准程序随机生成目标任务集来验证所提调度策略的有效性。实验结果表明,与传统的贪心算法、最早完成时间(MCT)算法和Min-min算法相比,当任务数量等于1 000时,EGS算法的执行时长分别平均降低至原来的58%、64%和80%,并且能有效提升GPU资源利用率。  相似文献   

15.
Computing systems should be designed to exploit parallelism in order to improve performance. In general, a GPU (Graphics Processing Unit) can provide more parallelism than a CPU (Central Processing Unit), resulting in the wide usage of heterogeneous computing systems that utilize both the CPU and the GPU together. In the heterogeneous computing systems, the efficiency of the scheduling scheme, which selects the device to execute the application between the CPU and the GPU, is one of the most critical factors in determining the performance. This paper proposes a dynamic scheduling scheme for the selection of the device between the CPU and the GPU to execute the application based on the estimated-execution-time information. The proposed scheduling scheme enables the selection between the CPU and the GPU to minimize the completion time, resulting in a better system performance, even though it requires the training period to collect the execution history. According to our simulations, the proposed estimated-execution-time scheduling can improve the utilization of the CPU and the GPU compared to existing scheduling schemes, resulting in reduced execution time and enhanced energy efficiency of heterogeneous computing systems.  相似文献   

16.
刘粟  于炯  鲁亮  李梓杨 《计算机应用》2018,38(12):3481-3489
针对Storm流式计算平台中默认轮询调度策略存在通信开销大、负载不均衡的问题,提出基于拓扑结构的任务调度策略(TS2)。首先,选取CPU资源充足且可用的工作节点并各分配一个进程,消除节点内进程间通信开销,优化进程部署;然后,分析拓扑结构,找出拓扑中度最大的组件,优先分配该组件的线程;最后,在满足节点可承载最大线程数的条件下,尽可能将关联任务部署到同一个节点来减少节点间通信开销,改善集群负载均衡,优化线程部署。实验结果表明:在系统延迟方面,与Storm默认调度策略和离线调度策略相比,TS2的平均优化率分别为16.91%和5.69%,有效提高了系统的实时性;在节点间通信开销方面,TS2相比于Storm默认调度策略平均降低了15.75%;在平均吞吐量方面,TS2相比于Storm默认调度策略平均提升了14.21%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号