期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

甘新标孙燎原刘杰雄成伟黄嘉昆《计算机工程与科学》2018,40(1):10-14

HPL是高性能计算广泛采用的Linpack测试软件包,传统HPL算法中,求解矩阵将以块为单位循环分布到所有处理器,由于国产加速器(China Accelerator)的底层矩阵乘接口仅支持定制接口,传统HPL算法已不适合CPU+China Accelerator异构系统,因此,必须基于定制接口完成矩阵分布细致划分与封装dPEM,以提供一个通用的HPL测试配置环境;同时,为了充分发挥国产异构系统的效率,设计了异构协同矩阵乘调度算法OA4MM,以提高国产异构系统的效率。实验验证了dPEM的有效性和OA4MM算法的高效性,OA4MM较传统的异构HPL调度算法性能提升近10%。相似文献

2.

异构计算中的时间和能耗优化执行方法

俞莉花曾国荪《计算机科学》2011,38(10):285-290

计算环境的异构性以及应用任务的复杂多样性导致异构计算的必要性。异构计算的目的是重视并行处理系统和计算任务的差异,寻求系统和任务的有效匹配,从而获得并行任务在系统上执行的最佳效果。当前,异构计算中的时间优化执行方法较成熟,但同时将时间和能耗联合起来作为异构计算优化执行目标方面的研究很少。以高性能计算和绿色计算为总目标,针对异构计算环境中并行任务分配调度执行问题,提出了异构任务模型、异构计算速率矩阵、异构计算功率矩阵,利用能耗时间归一思想,给出并行任务在异构处理机上时间与能耗启发式优化执行算法,并通过实例分析证实算法的可行性和有效性。相似文献

3.

与体系结构匹配的多级可重构任务划分方法

郝水侠曾国荪《计算机科学》2014,41(8):63-66,74

异构系统是高性能计算发展的主要模式,云计算是异构计算的典型实例。其优势在于异构处理器能各尽其能,但在实际应用中异构系统的性能往往不能充分发挥,因为处理器特征与应用程序特征不匹配,造成系统效率低下。因此借助重构思想,提出与体系结构结合的多级可重构任务划分方法。定义了多级可重构的概念,分析了异构匹配的原理,给出异构特征分析过程,提出了基于异构特征匹配的多级可重构任务划分方法。最后通过仿真实验说明,与体系结构匹配的划分方法适合当前的异构系统。相似文献

4.

HXDSP异构计算框架的设计与优化

宁成明蔡恒雨郑启龙耿锐《小型微型计算机系统》2022,(1):179-185

由于CPU在处理海量数据时所面临的性能瓶颈,使得基于异构系统的异构并行计算成为并行计算领域的研究热点之一.HXDSP是中国电子科技集团第三十八所自主研制的DSP芯片,能满足多种高性能计算领域的需求.为了充分发挥HXDSP的计算能力以及多HXDSP设备并行计算的能力,本文设计了基于OpenCL的HXDSP异构计算框架.本... 相似文献

5.

异构计算中的时间和能耗优化执行方法

俞莉花曾国荪《计算机科学与探索》2011,38(10):285-290

计算环境的异构性以及应用任务的复杂多样性导致异构计算的必要性.异构计算的目的是重视并行处理系统和计算任务的差异,寻求系统和任务的有效匹配,从而获得并行任务在系统上执行的最佳效果.当前,异构计算中的时间优化执行方法较成熟,但同时将时间和能耗联合起来作为异构计算优化执行目标方面的研究很少.以高性能计算和绿色计算为总目标,针... 相似文献

6.

从独自为战到协同作战处理器异构系统架构HSA深度剖析

张平《微型计算机》2013,(19):125-132

进入21世纪第二个十年后,由于摩尔定律接近失效、制造工艺也逐渐逼近了物理极限,传统依靠不断压榨工艺和集成大量晶体管来获取计算性能提升的方法效果渐弱。在这种情况下,人们开始转变思维,希望通过改变设计,转而注重优化效率来尽可能的榨取目前PC架构的性能。异构计算,就是这种思想下的产物,它的目的是打破并行和串行的鸿沟,让计算在系统的管控下,自动的进入高效率的部件进行处理。今天,本文就为大家介绍异构计算的新联盟——Heterogeneous System Architecture异构系统架构（简称HSA）的方方面面。相似文献

7.

基于HXDSP的OpenCL运行时任务调度

顾经纬宁成明郑启龙《计算机系统应用》2022,31(11):130-138

OpenCL是一种开源免费的异构计算框架,被各类架构处理器广泛采用. HXDSP是中国电子科技集团公司第38研究所自主研发的国产高性能DSP芯片.为了解决HXDSP异构计算平台调度困难和硬件利用不充分,本文针对OpenCL运行时任务调度系统展开研究,设计了OpenCL运行时期间的任务图自动化提取方法,并结合HXDSP硬件特性和OpenCL执行模型特性对经典的静态调度算法HEFT进行改进,提出了一种异构双粒度最早完成时间优先调度算法HDGEFT,并在HXDSP异构计算平台上设计实验验证算法.实验结果表明经过特殊设计的调度算法在执行效率上有明显优势. 相似文献

8.

异构HPL算法中CPU端高性能BLAS库优化

蔡雨孙成国杜朝晖刘子行康梦博李双双《软件学报》2020,31(7)

异构HPL（High-performance Linpack）效率的提高需要充分发挥加速部件和通用CPU计算能力,加速部件集成了更多的计算核心,负责主要的计算,通用CPU负责任务调度的同时也参与计算.在合理划分任务,平衡负载的前提下,优化CPU端计算性能对整体效率的提升尤为重要.针对具体平台体系结构特点对BLAS（Basic linear Algebra Subprograms）函数进行优化往往可以更加充分的利用通用CPU计算能力,提高系统整体效率.BLIS（BLAS-like Library Instantiation Software）算法库是开源的BLAS函数框架,具有易开发、易移植和模块化等优点.本文基于异构系统平台体系结构以及HPL算法特点,充分利用三级缓存、向量化指令和多线程并行等技术手段优化CPU端调用的各级BLAS函数,应用auto-tuning技术优化矩阵分块参数,从而形成了HygonBLIS算法库,与MKL相比,异构环境下HPL整体性能提高了11.8%. 相似文献

9.

异构HPL算法中CPU端高性能BLAS库优化

蔡雨孙成国杜朝晖刘子行康梦博李双双《软件学报》2021,32(8):2289-2306

异构HPL（high-performance Linpack）效率的提高需要充分发挥加速部件和通用CPU计算能力,加速部件集成了更多的计算核心,负责主要的计算,通用CPU负责任务调度的同时也参与计算.在合理划分任务、平衡负载的前提下,优化CPU端计算性能对整体效率的提升尤为重要.针对具体平台体系结构特点对BLAS（basic linear algebra subprograms）函数进行优化往往可以更加充分地利用通用CPU计算能力,提高系统整体效率.BLIS（BLAS-like library instantiation software）算法库是开源的BLAS函数框架,具有易开发、易移植和模块化等优点.基于异构系统平台体系结构以及HPL算法特点,充分利用三级缓存、向量化指令和多线程并行等技术手段优化CPU端调用的各级BLAS函数,应用auto-tuning技术优化矩阵分块参数,从而形成了HygonBLIS算法库.与MKL相比,在异构环境下,HPL算法整体性能提高了11.8%. 相似文献

10.

Physis语言框架在WENO高阶数值格式异构计算中的应用

邬萍孟晨王龙《数据与计算发展前沿》2015,6(5):42-47

WENO(weighted essentially non-oscillatory)是计算流体力学中广泛采用的一种高阶数值格式。由于算法本身和异构计算编程的复杂性,需要开展异构计算代码自动生成的研究,以加速更多的应用。本文基于Physis这一领域编程语言框架,针对三维五阶WENO计算的天文应用,实现了其异构代码的自动生成。在超级计算机"元"上的测试结果表明,自动生成的异构计算代码具有良好的可扩展性,计算性能达到手工优化异构代码的72%,可为相关流体计算的异构代码生成提供借鉴。相似文献

11.

国产异构架构系统上HPL的优化与分析

水超洋于献智王银山谭光明《软件学报》2020,31(7)

随着异构系统成为建造超级计算机的重要选择,如何让CPU与加速器协调工作以充分发挥异构系统的计算性能具有重要意义.HPL是高性能计算领域最重要的基准测试程序,传统面向纯CPU系统的HPL算法通过利用加速器加速矩阵乘法的做法已经无法取得很好的性能.针对这一问题,本文基于新的国产处理器-国产加速器异构系统提出了一个新的HPL性能模型,设计了一种全新的多线程细粒度异构HPL算法.我们完成了一个轻量级跨平台异构加速框架HPCX用来实现跨平台的HPL算法.我们的性能模型能够准确的预测类似异构系统的HPL性能,我们的多线程细粒度异构HPL算法在NVIDIA GPU平台上性能超过目前NVIDIA平台上性能最好的NVIDIA官方闭源nvhpl程序9%.在国产处理器-国产加速器平台512节点的规模上,我们的新HPL算法实现了2.3PFLOPS实测峰值性能和71.1%的浮点效率. 相似文献

12.

国产异构系统上HPL的优化与分析

水超洋于献智王银山谭光明《软件学报》2021,32(8):2319-2328

随着异构系统成为建造超级计算机的重要选择,如何让CPU与加速器协调工作以充分发挥异构系统的计算性能具有重要意义.HPL是高性能计算领域最重要的基准测试程序,传统面向纯CPU系统的HPL算法通过加速器加速矩阵乘法的做法已经无法取得很好的性能.针对这一问题,提出了基于国产处理器-国产加速器异构系统的HPL性能模型和多线程细粒度流水HPL算法.完成了一个轻量级跨平台异构加速框架HPCX,以实现跨平台的HPL算法.该性能模型能够准确地预测类似异构系统的HPL性能.该HPL算法在NVIDIA GPU平台上性能超过了NVIDIA官方闭源nvhpl程序9%.在国产处理器-国产加速器平台512个节点的规模上,优化的HPL算法实现了2.3 PFLOPS实测峰值性能和71.1%的浮点效率. 相似文献

13.

CPU+GPU异构模式下并行计算效率研究

蔡镇河张旭栾江霞《计算机与现代化》2012,(5):185-188

CPU+GPU的异构模式由于比传统的超算架构更加便宜和更加环保、低碳,所以得到了越来越多的关注,在HPC的Top500中也渐渐出现了异构模式的身影。然而异构模式下的并行效率过低也是个既定的事实。本文从异构模式及GPU之间并行调度的原理出发,以Linpack测试效率为例来展开异构模式下的并行计算效率研究,并给出相应结论。相似文献

14.

Perspectives of China’s HPC system development: a view from the 2009 China HPC TOP100 list

Yunquan ZHANG Jiachang SUN Guoxing YUAN Linbo ZHANG 《Frontiers of Computer Science》2010,4(4):437

The China HPC TOP100 list, an annual report of the 100 most powerful high performance computing (HPC) systems installed in mainland China, has traced the rapid growth of HPC technology in China since its first publication in 2002. This paper introduces the China HPC TOP100 list and reviews the current status of HPC systems in China in terms of system features, manufactures, and areas of application using the data reported in the most recent list, published on November 1st, 2009. We provide further analysis, prediction of future trends, and directions of the development of HPC systems in China referencing historical data accumulated through archived TOP100 lists and other publically available information. We predict that the aggregated Linpack performance of the top 100 HPC systems will reach 10 PFlops in 2011, a single system with 10 PFlops peak performance will appear between 2012 and 2013, the aggregated performance of the top 100 systems will reach 100 PFlops in 2014, and a single system with 100 PFlops peak performance will appear around 2015. 相似文献

15.

Perspectives of China’s HPC system development: a view from the 2009 China HPC TOP100 list 总被引：1，自引：0，他引：1

Yunquan Zhang Jiachang Sun Guoxing Yuan Linbo Zhang 《Frontiers of Computer Science in China》2010,4(4):437-444

The China HPC TOP100 list, an annual report of the 100 most powerful high performance computing (HPC) systems installed in mainland China, has traced the rapid growth of HPC technology in China since its first publication in 2002. This paper introduces the China HPC TOP100 list and reviews the current status of HPC systems in China in terms of system features, manufactures, and areas of application using the data reported in the most recent list, published on November 1st, 2009. We provide further analysis, prediction of future trends, and directions of the development of HPC systems in China referencing historical data accumulated through archived TOP100 lists and other publically available information. We predict that the aggregated Linpack performance of the top 100 HPC systems will reach 10 PFlops in 2011, a single system with 10 PFlops peak performance will appear between 2012 and 2013, the aggregated performance of the top 100 systems will reach 100 PFlops in 2014, and a single system with 100 PFlops peak performance will appear around 2015. 相似文献

16.

复杂异构计算系统HPL的优化

黎雷生杨文浩马文静张娅赵慧赵海涛李会元孙家昶《软件学报》2021,32(8):2307-2318

当今世界的主流超级计算机越来越多地使用带有加速器的异构系统.随着加速器的浮点性能不断提高,超级计算机内计算节点的CPU、内存、总线、网络以及系统架构都要与之相适应.HPL（high performance Linpack）是高性能计算机评测的传统基准测试程序,复杂异构系统给HPL评测带来很多机遇与挑战.针对带有GPU的异构超级计算机系统,提出一套新的CPU与加速器计算任务分配方式,提出平衡点理论指导HPL性能优化.为了优化HPL程序,提出了使用CPU与加速器协同工作的look-ahead算法和行交换连续流水算法,实现了加速器、CPU、网络等部件的高度并行.此外,为带有加速器的系统设计了新的panel分解和行交换的实现方法,提高了加速器的利用率.在每个节点带有4个GPU的系统上,单节点HPL效率达到了79.51%. 相似文献

17.

2014年中国高性能计算机发展现状分析与展望

张云泉《数据与计算发展前沿》2015,6(1):89-96

本文根据2014 年11 月发布的中国高性能计算机TOP100 排行榜的数据,对国内高性能计算机的发展现状从总体性能、制造商、行业领域等方面进行了深入分析。我们发现, 由于天河二号超级计算机的发布,中国TOP100 的平均Linpack 性能已经从两年前的落后一年变为比国际TOP500 平均Linpack 性能高的局面,且TOP100 的入门性能门槛也第一次超过TOP500。在此基础上,根据十三届排行榜积累的性能数据和能够得到的其他公开历史数据,对未来几年中国大陆高性能计算机的发展趋势进行了分析预测。根据新的数据和实际情况,经修正后我们认为,累计Linpack 性能将在2015 年到2016 年间达到100Petaflops, 比我们原来预期的晚;峰值100Petaflops 的机器将在2015 年到2016 年间出现;峰值Exaflops 的机器将在2019 年到2020 年间出现,比我们原来预期的晚2 年。单台机器峰值超过累计Linpack 性能的情况出现在2018 到2019 年间。相似文献

18.

用于高性能计算的作业调度能效性研究综述

郑文旭潘晓东马迪汪浩《计算机工程与科学》2019,41(9):1526-1533

由于科学研究与商业应用等对高性能计算的需求与日俱增,高性能计算的性能和系统规模得到迅速发展。但是,急剧增长的功耗严重限制了高性能计算系统的设计和使用,使得低功耗技术成为高性能计算领域的关键技术。作为整个系统的核心组件,作业调度系统立足有限的系统资源,对用户提交的应用进行作业-资源分配,其能效性对于整个高性能计算系统的能耗控制与调节起到至关重要的作用。首先介绍主要的能量效率技术和常用的作业调度策略,然后对当前高性能计算作业调度能效性进行分析,并讨论了其面临的挑战及未来发展方向。相似文献

19.

Dawning Nebulae: A PetaFLOPS Supercomputer with a Heterogeneous Structure

下载免费PDF全文

Ning-Hui Sun Jing Xing Zhi-Gang Huo Guang-Ming Tan Jin Xiong Bo Li Can Ma 《计算机科学技术学报》2011,26(3):352-362

Dawning Nebulae is a heterogeneous system composed of 9280 multi-core x86 CPUs and 4640 NVIDIA Fermi GPUs. With a Linpack performance of 1.271 petaFLOPS, it was ranked the second in the TOP500 List released in June 2010. In this paper, key issues in the system design of Dawning Nebulae are introduced. System tuning methodologies aiming at petaFLOPS Linpack result are presented, including algorithmic optimization and communication improvement. The design of its file I/O subsystem, including HVFS and the underlying DCFS3, is also described. Performance evaluations show that the Linpack efficiency of each node reaches 69.89%, and 1024-node aggregate read and write bandwidths exceed 100 GB/s and 70GB/s respectively. The success of Dawning Nebulae has demonstrated the viability of CPU/GPU heterogeneous structure for future designs of supercomputers. 相似文献

20.

2016 年中国高性能计算机发展现状分析与展望

张云泉《数据与计算发展前沿》2016,7(6):86-94

本文根据 2016 年 11 月发布的中国高性能计算机 TOP100 排行榜的数据,对国内高性能计算机的发展现状从总体性能、制造商、行业领域等方面进行了深入分析。我们发现,由于神威太湖之光超级计算机的发布,中国 TOP100 的平均 Linpack 性能继续保持比国际 TOP500 平均 Linpack 性能高的局面,且 TOP100 的入门性能门槛仍然超过 TOP500。随着联想对 IBM X86 服务器并购的完成,中国 TOP100 上的超级计算系统已经几乎全部都是国产超算系统,曙光、联想和浪潮三强争霸的局面已经形成。在此基础上,本文根据十五届排行榜积累的性能数据和能够得到的其他公开历史数据,对未来几年中国大陆高性能计算机的发展趋势进行了分析预测。我们去年的预测累计 Linpack 性能将在 2016 年间达到 100Petaflops 和峰值 100Petaflops 的机器将在 2016 年出现都成功实现,预测准确。根据新的数据,我们认为：累计 Linpack 性能将在 2017 年到 2018 年间达到 1000Petaflops,峰值 Exaflops 的机器将在 2018 年到 2019 年间出现。相似文献