首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到15条相似文献,搜索用时 171 毫秒
1.
随着异构系统成为建造超级计算机的重要选择,如何让CPU与加速器协调工作以充分发挥异构系统的计算性能具有重要意义.HPL是高性能计算领域最重要的基准测试程序,传统面向纯CPU系统的HPL算法通过利用加速器加速矩阵乘法的做法已经无法取得很好的性能.针对这一问题,本文基于新的国产处理器-国产加速器异构系统提出了一个新的HPL性能模型,设计了一种全新的多线程细粒度异构HPL算法.我们完成了一个轻量级跨平台异构加速框架HPCX用来实现跨平台的HPL算法.我们的性能模型能够准确的预测类似异构系统的HPL性能,我们的多线程细粒度异构HPL算法在NVIDIA GPU平台上性能超过目前NVIDIA平台上性能最好的NVIDIA官方闭源nvhpl程序9%.在国产处理器-国产加速器平台512节点的规模上,我们的新HPL算法实现了2.3PFLOPS实测峰值性能和71.1%的浮点效率.  相似文献   

2.
随着异构系统成为建造超级计算机的重要选择,如何让CPU与加速器协调工作以充分发挥异构系统的计算性能具有重要意义.HPL是高性能计算领域最重要的基准测试程序,传统面向纯CPU系统的HPL算法通过加速器加速矩阵乘法的做法已经无法取得很好的性能.针对这一问题,提出了基于国产处理器-国产加速器异构系统的HPL性能模型和多线程细...  相似文献   

3.
布尔多项式求解是当今密码代数分析中的关键步骤,F4算法是布尔多项式求解的高效算法。分析了Lachartre为F4矩阵专门设计的高斯消去算法,针对其中布尔矩阵乘这一耗时的计算步骤,设计并实现了分布式异构(CPU+MIC)并行算法。布尔矩阵相对于普通矩阵主要体现在矩阵元素取值区间不一样上,由于布尔矩阵元素(0,1)导致矩阵乘操作的特殊性,普通矩阵乘的优化方法不能很好地满足布尔矩阵乘的需求。分别从布尔矩阵的存储、OpenMP多线程组织、访存、任务划分和调度等方面进行了性能优化,实现了布尔矩阵乘的分布式异构并行算法。通过随机生成布尔矩阵测试,优化后的分布式异构并行程序相较于分布式同构并行程序达到了2.45的加速比,体现了良好的性能提升。  相似文献   

4.
负载均衡技术是并行计算系统的关键技术之一,其主要思想是将计算任务合理分配到各节点,以避免由于某个节点的计算速度慢而导致的整个系统的性能瓶颈。为了使系统达到更优的结果,提出了一种基于MPICH的负载均衡模型,构建了一个异构Beawulf并行计算系统,并且用一个适合异构环境的矩阵分块相乘算法进行了性能测试。实验结果表明,此算法比使用传统的矩阵相乘算法执行效率更高。从而证明了系统能够把计算任务高效合理地分配到各个节点。  相似文献   

5.
负载均衡技术是并行计算系统的关键技术之一,其主要思想是将计算任务合理分配到各节点,以避免由于某个节点的计算速度慢而导致的整个系统的性能瓶颈.为了使系统达到更优的结果,提出了一种基于MPICH的负载均衡模型.构建了一个异构Beowulf并行计算系统,并且用-个适合异构环境的矩阵分块相乘算法进行了性能测试.实验结果表明,此算法比使用传统的矩阵相乘算法执行效率更高.从而证明了系统能够把计算任务高效合理地分配到各个节点.  相似文献   

6.
异构重构计算是目前高性能计算的研究热点.由于应用任务的异构性,以及体系结构的可重构性,导致异构重构计算的性能分析非常困难,现有的并行计算性能分析方法不再适用.本文提出一种基于应用任务调度的性能分析方法,该方法以异构重构计算系统模型和应用任务模型为基础,利用异构匹配、重构耦合矩阵,实现应用任务和处理部件的优化选择和耦合匹配,通过调度算法求出应用任务在异构重构计算系统中的完成时间,并进行了实例分析.  相似文献   

7.
HPL(High Performance Linpack)是一套被广泛用于测评计算机性能的测试程序,几十年来学术界及产业界十分关注对HPL测试程序的定制化优化工作,以充分反应同时代新兴计算机平台的性能.面向当今主流多设备异构计算平台,本文尝试为HPL的优化工作提供一种新的解决方案:Hetero-HPL.在Hetero-HPL中,进程不再要求与(协)处理器一一对应,因此HPL算法在单节点独立运行情况下可以完全避免进程间数据传输开销,算法各个重要步骤有能力完全利用物理节点的所有资源,如内存容量,CPU核心,协处理器,PCI-e总线等.Hetero-HPL并不引入冗余计算量及通信量,并在任意设备数量下妥善应对锁页内存分配限制,确保多设备负载均衡和设备内的高效的大规模同质运算.在实验平台上,Hetero-HPL效率可以达到平台峰值性能的76.5%(其中矩阵乘函数效率为84%);进一步的实验表明,Hetero-HPL在多节点联机运行情况下也是一种可行的方案.  相似文献   

8.
异构HPL(High-performance Linpack)效率的提高需要充分发挥加速部件和通用CPU计算能力,加速部件集成了更多的计算核心,负责主要的计算,通用CPU负责任务调度的同时也参与计算.在合理划分任务,平衡负载的前提下,优化CPU端计算性能对整体效率的提升尤为重要.针对具体平台体系结构特点对BLAS(Basic linear Algebra Subprograms)函数进行优化往往可以更加充分的利用通用CPU计算能力,提高系统整体效率.BLIS(BLAS-like Library Instantiation Software)算法库是开源的BLAS函数框架,具有易开发、易移植和模块化等优点.本文基于异构系统平台体系结构以及HPL算法特点,充分利用三级缓存、向量化指令和多线程并行等技术手段优化CPU端调用的各级BLAS函数,应用auto-tuning技术优化矩阵分块参数,从而形成了HygonBLIS算法库,与MKL相比,异构环境下HPL整体性能提高了11.8%.  相似文献   

9.
一种实时异构系统的集成动态调度算法   总被引:10,自引:0,他引:10  
乔颖  邹冰  方亭  王宏安  戴国忠 《软件学报》2002,13(12):2251-2258
提出了一种实时异构系统的集成动态调度算法.该算法通过一个新的任务分配策略以及软实时任务的服务质量QoS(quality of service)降级策略,不仅以统一方式完成了对实时异构系统中硬、软实时任务的集成动态调度,而且提高了算法的调度成功率.同时,还进行了大量的模拟研究.这些模拟以传统的近视算法为基准,将其应用在实时异构系统集成动态调度时的调度成功率与新算法进行比较,模拟结果表明,在多种任务参数取值下,新算法的调度成功率均高于传统的近视算法.  相似文献   

10.
基/副版本技术是实现实时分布式系统容错的一个重要手段。提出了一种异构分布式混合型容错模型,该模型与传统的异构分布式实时调度模型相比同时考虑了周期和非周期调度任务。在此基础上给出3种容错调度算法:以可调度性为目的SSA算法、以可靠性为目的RSA算法、以负载均衡性为目的BSA算法。算法能够在异构系统中同时调度具有周期和非周期容错需求的实时任务,且能够保证在异构系统中某节点机失效情况下,实时任务仍然能在截止时间内完成。最后从可调度性、可靠性代价、负载均衡性、周期与非周期任务数及任务周期与粒度J个方面对算法进行了分析。模拟实验结果显示算法各有优缺点,所以在选择调度算法时应该根据异构系统的特点来选择。  相似文献   

11.
当今世界的主流超级计算机越来越多地使用带有加速器的异构系统.随着加速器的浮点性能不断提高,超级计算机内计算节点的CPU、内存、总线、网络以及系统架构都要与之相适应.HPL(high performance Linpack)是高性能计算机评测的传统基准测试程序,复杂异构系统给HPL评测带来很多机遇与挑战.针对带有GPU的...  相似文献   

12.
当今世界的主流超级计算机越来越多地使用带有加速器的异构系统.随着加速器的浮点性能不断提高,超级计算机内计算节点的CPU、内存、总线、网络以及系统架构都要与之相适应.HPL(High Performance Linpack)是高性能计算机评测的传统基准测试程序,复杂异构系统给HPL评测带来很多机遇与挑战.针对带有GPU的异构超级计算机系统,提出一套新的CPU与加速器计算任务分配方式,提出平衡点理论指导HPL性能优化.为了优化HPL程序,提出了使用CPU与加速器协同工作的look-ahead算法和行交换连续流水算法,实现了加速器、CPU、网络等部件的高度并行.此外,为带有加速器的系统设计了新的panel分解和行交换的实现方法,提高加速器的利用率.在每个节点带有4个GPU的系统上,单节点HPL效率达到79.51%,14884节点效率达到62.22%.  相似文献   

13.
异构HPL(high-performance Linpack)效率的提高需要充分发挥加速部件和通用CPU计算能力,加速部件集成了更多的计算核心,负责主要的计算,通用CPU负责任务调度的同时也参与计算.在合理划分任务、平衡负载的前提下,优化CPU端计算性能对整体效率的提升尤为重要.针对具体平台体系结构特点对BLAS(ba...  相似文献   

14.
稀疏矩阵与向量相乘SpMV是求解稀疏线性系统中的一个重要问题,但是由于非零元素的稀疏性,计算密度较低,造成计算效率不高。针对稀疏矩阵存在的一些不规则性,利用混合存储格式来进行SpMV计算,能够提高对稀疏矩阵的压缩效率,并扩大其适应范围。HYB是一种广泛使用的混合压缩格式,其性能较为稳定。而随着GPU并行计算得到普遍应用以及CPU日趋多核化,因此利用GPU和多核CPU构建异构并行计算系统得到了普遍的认可。针对稀疏矩阵的HYB存储格式中的ELL和COO存储特征,把两部分数据分别分割到CPU和GPU进行协同并行计算,既能充分利用CPU和GPU的计算资源,又能够发挥CPU和GPU的计算特性,从而提高了计算资源的利用效能。在分析CPU+GPU异构计算模式的特征的基础上,对混合格式的数据分割和共享方面进行优化,能够较好地发挥在异构计算环境的优势,提高计算性能。  相似文献   

15.
孙乔  孙家昶  马文静  赵玉文 《软件学报》2021,32(8):2329-2340
HPL(high performance Linpack)是一套被广泛用于测评计算机性能的测试程序,几十年来学术界及产业界十分关注对HPL测试程序的定制化优化工作,以充分反应同时代新兴计算机平台的性能.面向当今主流多设备异构计算平台,尝试为HPL的优化工作提供一种解决方案:Hetero-HPL.在Hetero-HPL中...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号