共查询到18条相似文献,搜索用时 65 毫秒
1.
随着异构系统成为建造超级计算机的重要选择,如何让CPU与加速器协调工作以充分发挥异构系统的计算性能具有重要意义.HPL是高性能计算领域最重要的基准测试程序,传统面向纯CPU系统的HPL算法通过利用加速器加速矩阵乘法的做法已经无法取得很好的性能.针对这一问题,本文基于新的国产处理器-国产加速器异构系统提出了一个新的HPL性能模型,设计了一种全新的多线程细粒度异构HPL算法.我们完成了一个轻量级跨平台异构加速框架HPCX用来实现跨平台的HPL算法.我们的性能模型能够准确的预测类似异构系统的HPL性能,我们的多线程细粒度异构HPL算法在NVIDIA GPU平台上性能超过目前NVIDIA平台上性能最好的NVIDIA官方闭源nvhpl程序9%.在国产处理器-国产加速器平台512节点的规模上,我们的新HPL算法实现了2.3PFLOPS实测峰值性能和71.1%的浮点效率. 相似文献
2.
HPL是高性能计算广泛采用的Linpack测试软件包,传统HPL算法中,求解矩阵将以块为单位循环分布到所有处理器,由于国产加速器(China Accelerator)的底层矩阵乘接口仅支持定制接口,传统HPL算法已不适合CPU+China Accelerator异构系统,因此,必须基于定制接口完成矩阵分布细致划分与封装dPEM,以提供一个通用的HPL测试配置环境;同时,为了充分发挥国产异构系统的效率,设计了异构协同矩阵乘调度算法OA4MM,以提高国产异构系统的效率。实验验证了dPEM的有效性和OA4MM算法的高效性,OA4MM较传统的异构HPL调度算法性能提升近10%。 相似文献
3.
[目的]为快速分析超算系统性能,加速HPL基准测试优化,本文分析了HPL主要影响因素,建立了相关并行计算模型.[方法]基于曙光先进计算系统HPL基准测试程序并行优化,采用理论分析与实验验证相结合的方法,分别对HPL效率上限、快速预测、不同参数影响等问题进行分析,建立了相应的并行计算模型.[结果]与曙光先进计算系统测试结... 相似文献
4.
基于HPL测试的集群系统性能分析与优化 总被引:1,自引:0,他引:1
集群系统以很高的性价比和良好的可扩展性而成为当今高性能研究的一大新熟点,如何评价与优化集群系统的特性也成为一个很关键的问题。本文通过采用全世界TOP500计算机排名所用的HPL基准测试,对集群的浮点运算性能进行评测和分析,根据在集群系统上进行的HPL基准测试的结果分析总结了影响其整体性能的重要因素,并对这些方面一一给出具体的分析,提出了针对集群系统具有实际意义和研究价值的优化方向和优化方法。 相似文献
5.
6.
7.
当今世界的主流超级计算机越来越多地使用带有加速器的异构系统.随着加速器的浮点性能不断提高,超级计算机内计算节点的CPU、内存、总线、网络以及系统架构都要与之相适应.HPL(High Performance Linpack)是高性能计算机评测的传统基准测试程序,复杂异构系统给HPL评测带来很多机遇与挑战.针对带有GPU的异构超级计算机系统,提出一套新的CPU与加速器计算任务分配方式,提出平衡点理论指导HPL性能优化.为了优化HPL程序,提出了使用CPU与加速器协同工作的look-ahead算法和行交换连续流水算法,实现了加速器、CPU、网络等部件的高度并行.此外,为带有加速器的系统设计了新的panel分解和行交换的实现方法,提高加速器的利用率.在每个节点带有4个GPU的系统上,单节点HPL效率达到79.51%,14884节点效率达到62.22%. 相似文献
8.
异构重构计算是目前高性能计算的研究热点.由于应用任务的异构性,以及体系结构的可重构性,导致异构重构计算的性能分析非常困难,现有的并行计算性能分析方法不再适用.本文提出一种基于应用任务调度的性能分析方法,该方法以异构重构计算系统模型和应用任务模型为基础,利用异构匹配、重构耦合矩阵,实现应用任务和处理部件的优化选择和耦合匹配,通过调度算法求出应用任务在异构重构计算系统中的完成时间,并进行了实例分析. 相似文献
9.
10.
11.
HPL(High Performance Linpack)是一套被广泛用于测评计算机性能的测试程序,几十年来学术界及产业界十分关注对HPL测试程序的定制化优化工作,以充分反应同时代新兴计算机平台的性能.面向当今主流多设备异构计算平台,本文尝试为HPL的优化工作提供一种新的解决方案:Hetero-HPL.在Hetero-HPL中,进程不再要求与(协)处理器一一对应,因此HPL算法在单节点独立运行情况下可以完全避免进程间数据传输开销,算法各个重要步骤有能力完全利用物理节点的所有资源,如内存容量,CPU核心,协处理器,PCI-e总线等.Hetero-HPL并不引入冗余计算量及通信量,并在任意设备数量下妥善应对锁页内存分配限制,确保多设备负载均衡和设备内的高效的大规模同质运算.在实验平台上,Hetero-HPL效率可以达到平台峰值性能的76.5%(其中矩阵乘函数效率为84%);进一步的实验表明,Hetero-HPL在多节点联机运行情况下也是一种可行的方案. 相似文献
12.
13.
并行计算六十年 总被引:4,自引:0,他引:4
杨学军 《计算机工程与科学》2012,34(8):1-10
并行计算是实现高性能计算的主要技术手段。本文回顾了并行计算技术六十多年来的发展历史,重温了并行可扩展性度量公式在并行计算发展进程中的重要地位。分析了并行计算向未来E级计算发展时面临的挑战,并建立了新的并行计算可扩展性度量模型,建模了访存、通信、可靠性、能耗等影响E级计算的因素。通过定量分析,发现和研究了并行计算向更高性能发展面临的可扩展性"墙"。最后,针对我国国情,提出了作者关于我国高性能计算未来发展的体会与思考。 相似文献
14.
研发适应国产异构计算环境的高性能计算算法与软件是非常重要的课题,对我国高性能计算软件研发匹配高性能计算硬件高水平发展的速度具有重要意义.本文首先简要介绍高性能计算应用软件的现状、趋势和面临挑战,并对几类典型高性能计算应用软件开展并行计算算法特征分析,涵盖了宇宙N体模拟、地球系统模式、计算材料相场动力学、分子动力学、量子计算化学和格点量子色力学等多个问题、尺度和领域.其次,我们讨论了面向国产异构计算系统的对策,提炼出若干典型应用算法和软件的共性问题,涉及核心算法、算法发展、优化策略等.最后,本文面向异构计算体系结构对高性能计算算法与软件进行了总结. 相似文献
15.
16.
Pawe Rociszewski Pawe Czarnul Rafa Lewandowski Marcel Schally‐Kacprzak 《Concurrency and Computation》2016,28(9):2586-2607
The paper presents a new open‐source framework called KernelHive for multilevel parallelization of computations among various clusters, cluster nodes, and finally, among both CPUs and GPUs for a particular application. An application is modeled as an acyclic directed graph with a possibility to run nodes in parallel and automatic expansion of nodes (called node unrolling) depending on the number of computation units available. A methodology is proposed for parallelization and mapping of an application to the environment that includes selection of devices using a chosen optimizer, selection of best grid configurations for compute devices, optimization of data partitioning and the execution. One of possibly many scheduling algorithms can be selected considering execution time, power consumption, and so on. An easy‐to‐use GUI is provided for modeling and monitoring with a repository of ready‐to‐use constructs and computational kernels. The methodology, execution times, and scalability have been demonstrated for a distributed and parallel password‐breaking example run in a heterogeneous environment with a cluster and servers with different numbers of nodes and both CPUs and GPUs. Additionally, performance of the framework has been compared with an MPI + OpenCL implementation using a parallel geospatial interpolation application employing up to 40 cluster nodes and 320 cores. Copyright © 2015 John Wiley & Sons, Ltd. 相似文献
17.
如今,科学研究已从计算科学时代进入数据科学时代. 从海量数据中发现规律和突破科学发展瓶颈是数据科学范式的主要目标. 与此同时,高性能计算机(HPC)也越来越重视智能算力,在传统高性能计算方法的基础上融合人工智能算法(HPC+AI),更有利于在数据科学时代解决实际问题,并能充分发挥高性能计算机的智能算力. 不过,在国产HPC系统——特别是面向由新一代国产异构众核处理器sw26010pro构建的HPC系统——上支撑HPC+AI领域应用,则面临着诸多挑战. 提出了一种面向国产异构众核处理器的数据流计算系统swFLOWpro,支持使用TensorFlow接口构建数据流程序,实现对用户透明的众核加速,并实现了面向全处理器视角的两级并行策略. 经测试,系统针对典型核心计算,单核组众核加速比最高可达545倍、典型模型众核加速比最高可达346倍,全片6核组并行执行ResNet50模型训练,对比单核组加速比达到4.96倍,并行效率82.6%. 实验表明,swFLOWpro能够支持以深度学习为代表的数据流程序在国产异构众核处理器上的高效运行.
相似文献18.
随着摩尔定律趋于终结,处理器性能的提升越来越依赖于处理器微体系结构的优化改良,而处理器微体系结构的优化改良离不开体系结构模拟器的辅助,因此体系结构模拟器在现代和未来的高性能处理器设计中的作用越来越重要.具体地,体系结构模拟器可以辅助进行处理器微结构探索、芯片逻辑验证、硅后验证环境搭建、系统软件开发等工作.首先,介绍了开源模拟器与处理器设计的关系,并指出开源模拟器在辅助进行处理器设计方面的不足,同时对处理器厂商使用模拟器辅助进行处理器设计的方法和经验进行了分析总结.其次,对用于处理器微结构优化和改进的性能模拟器的校准方法进行了总结,然后对模拟器的纵向和横向优化方法进行了总结.最后,对新型异构模拟器进行了总结,并对未来模拟器的发展和基于模拟器进行处理器设计的方法进行了总结和展望. 相似文献