期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

《计算机应用与软件》2013,(3)

GPU集群已经成为高性能计算(HPC)领域的主流组件。随着处理单元的发展和集群节点的拓展,GPU集群将在节点层面趋于异构化。提出一套针对异构任务在节点异构GPU集群上的能量有效调度方案。形式化地描述其任务和资源模型以及能耗评估模型。通过特定的节点选择策略,减少空闲状态的能耗损失。通过任务类型划分和组合分配以及DVFS,增加CPU资源利用率。该方案从系统层面着手,能够与现有的算法和指令层面的优化方法兼容。相似文献

2.

CPU-GPU融合架构上的缓存性能分析与优化

孙传伟安虹孙荪陈俊仕《计算机工程与应用》2017,53(2):47-52

现今CPU和GPU的发展已经出现新的瓶颈,将两者“结合”在同一块芯片上成为一种新的趋势。这种新的异构架构给片上共享资源的管理带来压力。而共享末级缓存（LLC）的管理对性能的影响非常关键。由于CPU程序和GPU程序的不同特性,给CPU和GPU间共享的末级缓存管理带来新的挑战。通过分析GPU程序访存特征,借鉴之前的缓存管理方案,提出对CPU-GPU融合系统的末级缓存进行等量的静态划分和最优静态划分的方案。实验结果表明：通过缓存划分可以有效避免CPU和GPU程序间的干扰。与传统LRU策略相比,等量静态划分和最优静态划分可以使系统整体性能分别提高7.68%和11.62%。相似文献

3.

基于GPU/CPU混合架构的流程序多粒度划分与调度方法研究

陈文斌杨瑞瑞于俊清《计算机工程与科学》2017,39(1):15-26

数据流编程语言简化了相关领域的编程,很好地把任务计算和数据通信分开,从而使应用程序分别在任务级和数据级均具有可并行性。针对GPU/CPU混合架构中存在的大量数据并行、任务并行和流水线并行等问题,提出并实现了面向GPU/CPU混合架构的数据流程序任务划分方法和多粒度调度策略,包括任务的分类处理、GPU端任务的水平分裂和CPU端离散任务的均衡化,构造了软件流水调度,经过编译优化生成OpenCL的目标代码。任务的分类处理根据数据流程序各个任务的计算特点和任务间的通信量大小,将各任务分配到合适的计算平台上;GPU端任务的水平分裂利用GPU端任务的并行性将其均衡分裂到各个GPU,以避免GPU间高额的通信开销影响程序整体的执行性能;CPU端离散任务的均衡化通过选择合适CPU核,将CPU端各任务均衡分配给各CPU核,以保证负载均衡并提高各CPU核的利用率。实验以多块NVIDIA Tesla C2050、多核CPU为混合架构平台,选取多媒体领域典型的算法作为测试程序,实验结果表明了划分方法和调度策略的有效性。相似文献

4.

GPU/CPU异构系统任务节能调度方法仿真

陈杰《计算机仿真》2013,30(7)

研究GPU/CPU异构系统任务调度的节能问题.与传统同构体系结构相比,异构系统任务调度呈现较大的随机性和不定性,GPU/CPU异构系统中时间间隙片段呈现了较大的随机性,导致传统调度方法很难建立规则的描述时间片段的模型,调度能耗较高.为解决上述问题,提出了一种改进功耗优化的GPU/CPU异构环境下的任务调度算法,将任务关系图按照依赖关系计算量拆分,并分配到计算节点.在计算节点内根据权重法的思想,统计所有计算节点的处理情况,进而将节点内的子任务调度到合适的处理器.实验结果表明,在不影响应用性能的前提下,降低了异构系统的能耗开销,优化效果明显. 相似文献

5.

异构集群中CPU与GPU协同调度算法的设计与实现

高原顾文杰丁雨恒彭晖陈泊宇顾雯轩《计算机工程与设计》2020,41(2):592-601

为有效提高异构的CPU/GPU集群计算性能,提出一种支持异构集群的CPU与GPU协同计算的两级动态调度算法。根据各节点计算能力评测结果和任务请求动态分发数据,在节点内CPU和GPU之间动态调度任务,使用数据缓存和数据处理双队列机制,提高异构集群的传输和处理效率。该算法实现了集群各节点“能者多劳”,避免了单节点性能瓶颈造成的任务长尾现象。实验结果表明,该算法较传统MPI/GPU并行计算性能提高了11倍。相似文献

6.

一种基于关键路径分析的CPU-GPU异构系统综合能耗优化方法 总被引：1，自引：0，他引：1

林一松杨学军唐滔王桂彬徐新海《计算机学报》2012,35(1):123-133

GPU强大的计算性能使得CPU-GPU异构体系结构成为高性能计算领域热点研究方向.虽然GPU的性能/功耗比较高,但在构建大规模计算系统时,功耗问题仍然是限制系统运行的关键因素之一.现在已有的针对GPU的功耗优化研究主要关注如何降低GPU本身的功耗,而没有将CPU和GPU作为一个整体进行综合考虑.文中深入分析了CUDA程序在CPU-GPU异构系统上的运行特点,归纳其中的任务依赖关系,给出了使用AOV网表示程序执行过程的方法,并在此基础上分析程序运行的关键路径,找出程序中可以进行能耗优化的部分,并求解相应的频率调节幅度,在保持程序性能不变的前提下最小化程序的整体能量消耗. 相似文献

7.

多核CPU和GPU加速分子动力学模拟

林江宏林锦贤吕暾《计算机应用》2011,31(3):843-847

在多核中央处理器(CPU)—图形处理器(GPU)异构并行体系结构上,采用OpenMP和计算统一设备架构(CUDA)编程实现了基于AMBER力场的蛋白质分子动力学模拟程序。通过合理地将程序划分为CPU单线程、CPU多线程和GPU多线程执行部分,高效地利用了计算机的处理能力。性能测试结果表明,相对于优化后的CPU串行计算,多核CPU-GPU异构并行计算模型有强大的性能优势,特别是将占整个程序执行时间90%的作用力的计算移植到GPU上执行,获得了最高可达12倍的计算加速比。相似文献

8.

异构HPL算法中CPU端高性能BLAS库优化

蔡雨孙成国杜朝晖刘子行康梦博李双双《软件学报》2020,31(7)

异构HPL（High-performance Linpack）效率的提高需要充分发挥加速部件和通用CPU计算能力,加速部件集成了更多的计算核心,负责主要的计算,通用CPU负责任务调度的同时也参与计算.在合理划分任务,平衡负载的前提下,优化CPU端计算性能对整体效率的提升尤为重要.针对具体平台体系结构特点对BLAS（Basic linear Algebra Subprograms）函数进行优化往往可以更加充分的利用通用CPU计算能力,提高系统整体效率.BLIS（BLAS-like Library Instantiation Software）算法库是开源的BLAS函数框架,具有易开发、易移植和模块化等优点.本文基于异构系统平台体系结构以及HPL算法特点,充分利用三级缓存、向量化指令和多线程并行等技术手段优化CPU端调用的各级BLAS函数,应用auto-tuning技术优化矩阵分块参数,从而形成了HygonBLIS算法库,与MKL相比,异构环境下HPL整体性能提高了11.8%. 相似文献

9.

CPU/GPU 异构环境下图像协同并行处理模型

杨洪余李成明王小平姜青山《集成技术》2017,6(5):8-18

随着GPU通用计算能力的不断发展,一些新的更高效的处理技术应用到图像处理领域.目前已有一些图像处理算法移植到GPU中且取得了不错的加速效果,但这些算法没有充分利用CPU/GPU组成的异构系统中各处理单元的计算能力.文章在研究GPU编程模型和并行算法设计的基础上,提出了CPU/GPU异构环境下图像协同并行处理模型.该模型充分考虑异构系统中各处理单元的计算能力,通过图像中值滤波算法,验证了CPU/GPU环境下协同并行处理模型在高分辨率灰度图像处理中的有效性.实验结果表明,该模型在CPU/GPU异构环境下通用性较好,容易扩展到其他图像处理算法. 相似文献

10.

CPU/GPU异构混合并行的栅格数据空间分析研究——以地形因子计算为例

《计算机工程与应用》2017,(1):172-177

海量数据背景下传统GIS栅格数据空间分析计算效率已经不能满足快速计算的需求,为此以地形因子计算为例,分析并测试了基于共享内存模型的CPU多核并行模式与基于流处理器模型的GPU众核并行模式的计算性能,在此基础上详细实现了负载均衡的设备间任务划分,进行CPU与GPU异构混合的并行技术改良研究。实验结果表明,基于相同的单机硬件环境,与多核共享内存模型或众核流处理器的单一计算平台并行方案相比,CPU/GPU异构混合并行计算方法对于栅格数据分析具有更好的加速效果。相似文献

11.

面向异构计算平台的列数据库调度方法研究与实现

罗伟良李观钊陈虎荣霓《计算机科学》2013,40(3):142-146

由多核CPU和GPU构成的异构计算平台已经成为当前高性能计算的重要发展方向。为了有效提升列数据库的查询性能,充分利用异构计算平台的计算资源,在一套已定义的列数据库原语集合的基础上,提出了一套原语调度方法。该方法包括原语执行机制、基于动态规划的CPU原语调度方法和基于〔}PU显存管理机制的GPU原语调度方法。这使得系统可合理利用多核CPU计算资源,有效利用GPU显存中数据的局部性,以提升整体性能。对"I'PG H基准程序中几个典型查询进行了测试,结果表示,CPU原语调度方法使查询更稳定,GPU原语调度方法使查询更快。同时通过实验发现了此异构计算平台下的列数据库调度方法存在的不足,这为后续工作指明了改进方向。相似文献

12.

基于HYB格式稀疏矩阵与向量乘在CPU+GPU异构系统中的实现与优化

阳王东李肯立《计算机工程与科学》2016,38(2):202-209

稀疏矩阵与向量相乘SpMV是求解稀疏线性系统中的一个重要问题,但是由于非零元素的稀疏性,计算密度较低,造成计算效率不高。针对稀疏矩阵存在的一些不规则性,利用混合存储格式来进行SpMV计算,能够提高对稀疏矩阵的压缩效率,并扩大其适应范围。HYB是一种广泛使用的混合压缩格式,其性能较为稳定。而随着GPU并行计算得到普遍应用以及CPU日趋多核化,因此利用GPU和多核CPU构建异构并行计算系统得到了普遍的认可。针对稀疏矩阵的HYB存储格式中的ELL和COO存储特征,把两部分数据分别分割到CPU和GPU进行协同并行计算,既能充分利用CPU和GPU的计算资源,又能够发挥CPU和GPU的计算特性,从而提高了计算资源的利用效能。在分析CPU+GPU异构计算模式的特征的基础上,对混合格式的数据分割和共享方面进行优化,能够较好地发挥在异构计算环境的优势,提高计算性能。相似文献

13.

An efficient scheduling scheme using estimated execution time for heterogeneous computing systems

Hong Jun Choi Dong Oh Son Seung Gu Kang Jong Myon Kim Hsien-Hsin Lee Cheol Hong Kim 《The Journal of supercomputing》2013,65(2):886-902

Computing systems should be designed to exploit parallelism in order to improve performance. In general, a GPU (Graphics Processing Unit) can provide more parallelism than a CPU (Central Processing Unit), resulting in the wide usage of heterogeneous computing systems that utilize both the CPU and the GPU together. In the heterogeneous computing systems, the efficiency of the scheduling scheme, which selects the device to execute the application between the CPU and the GPU, is one of the most critical factors in determining the performance. This paper proposes a dynamic scheduling scheme for the selection of the device between the CPU and the GPU to execute the application based on the estimated-execution-time information. The proposed scheduling scheme enables the selection between the CPU and the GPU to minimize the completion time, resulting in a better system performance, even though it requires the training period to collect the execution history. According to our simulations, the proposed estimated-execution-time scheduling can improve the utilization of the CPU and the GPU compared to existing scheduling schemes, resulting in reduced execution time and enhanced energy efficiency of heterogeneous computing systems. 相似文献

14.

CPU+GPU海量信息集群高速显示技术

罗明宇刘其军付燕平《计算机系统应用》2015,24(4):70-74

针对集群显示系统中存在的CPU多核闲置、GPU利用不足、CPU与GPU结合困难等问题,研究了CPU多核多线程处理、GPU并行处理及CPU+GPU整合运算等技术,提出并构建了CPU+GPU集群并行显示系统,提升了集群并行显示系统的综合运算能力,实验结果表明CPU+GPU集群并行显示技术是有效的,为海量信息高速显示提供了有效的解决方案。相似文献

15.

基于CPU/GPU异构模式的高光谱遥感影像数据处理研究与实现

汤媛媛周海芳方民权申小龙《计算机科学》2016,43(2):47-50, 77

近年来,基于GPU的新型异构高性能计算模式的蓬勃发展为众多领域应用提供了良好的发展机遇,国内外遥感专家开始引入高性能异构计算来解决高光谱遥感影像高维空间特点所带来的数据计算量大、实时处理难等问题。在此简要介绍了高光谱遥感和CPU/GPU异构计算模式,总结了近几年国内外基于CPU/GPU异构模式的高光谱遥感数据处理研究现状和问题;并面向共享存储型小型桌面超级计算机,基于CPU/GPU异构模式实现了高光谱遥感影像MNF降维的并行化,通过与串行程序和共享存储的OpenMP同构模式对比,验证了异构模式在高光谱遥感处理领域的发展潜力。相似文献

16.

Kubernetes异构资源细粒度调度策略的设计与实现

刘志彬黄秋兰胡庆宝程耀东胡誉田浩来《计算机工程》2023,49(2):31-36+45

在异构资源环境中高效利用计算资源是提升任务效率和集群利用率的关键。Kuberentes作为容器编排领域的首选方案,在异构资源调度场景下调度器缺少GPU细粒度信息无法满足用户自定义需求,并且CPU/GPU节点混合部署下调度器无法感知异构资源从而导致资源竞争。综合考虑异构资源在节点上的分布及其硬件状态,提出一种基于Kubernetes的CPU/GPU异构资源细粒度调度策略。利用设备插件机制收集每个节点上GPU的详细信息,并将GPU资源指标提交给调度算法。在原有CPU和内存过滤算法的基础上,增加自定义GPU信息的过滤,从而筛选出符合用户细粒度需求的节点。针对CPU/GPU节点混合部署的情况,改进调度器的打分算法,动态感知应用类型,对CPU和GPU应用分别采用负载均衡算法和最小最合适算法,保证异构资源调度策略对不同类型应用的正确调度,并且在CPU资源不足的情况下充分利用GPU节点的碎片资源。通过对GPU细粒度调度和CPU/GPU节点混合部署情况下的调度效果进行实验验证,结果表明该策略能够有效进行GPU调度并且避免资源竞争。相似文献

17.

A Distributed PTX Virtual Machine on Hybrid CPU/GPU Clusters

《Journal of Systems Architecture》2016

Hybrid CPU/GPU cluster recently has drawn lots of attention from high performance computing because of excellent execution performance and energy efficiency. Many supercomputing sites in the newest TOP 500 and Green 500 are built by hybrid CPU/GPU clusters instead of CPU clusters. However, the programming complexity of hybrid CPU/GPU clusters is so high such that most of users usually hesitate to move toward to this new cluster computing platform. To resolve this problem, we propose a distributed PTX virtual machine called BigGPU on heterogeneous clusters in this paper. As named, this virtual machine physically is a distributed system which is aimed at parallel re-compiling and executing the PTX codes by aggregating CPUs and GPUs available in a computational cluster. With the support of this virtual machine, users can regard a hybrid CPU/GPU as a single large-scale GPU. Consequently, they can develop applications by using only CUDA without combining MPI and multithreading APIs while can simultaneously use distributed CPUs and GPUs for resolving the same problem. Moreover, they need not handle the problem of load balance among heterogeneous processors and the constraints of device memory and thread configuration existing in physical GPUs because BigGPU supports large-scale virtual device memory space and thread configuration. On the other hand, we have evaluated the execution performance of BigGPU in this paper. Our experimental results have shown that BigGPU indeed can effectively exploit the computational power of CPUs and GPUs for enhancing the execution performance of user's CUDA programs. 相似文献