首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 390 毫秒
1.
孙乔  孙家昶  马文静  赵玉文 《软件学报》2021,32(8):2329-2340
HPL(high performance Linpack)是一套被广泛用于测评计算机性能的测试程序,几十年来学术界及产业界十分关注对HPL测试程序的定制化优化工作,以充分反应同时代新兴计算机平台的性能.面向当今主流多设备异构计算平台,尝试为HPL的优化工作提供一种解决方案:Hetero-HPL.在Hetero-HPL中,进程与协处理器的对应关系可被改变,因此HPL算法在单节点独立运行情况下可以完全避免进程间数据传输开销.算法各个重要步骤有能力完全利用物理节点的所有资源,如内存容量、CPU核心、协处理器、PCI-e总线等.Hetero-HPL并不引入冗余计算量及通信量,并在任意设备数量下妥善应对锁页内存分配限制,确保多设备负载均衡和设备内高效的大规模同质运算.在实验平台上,Hetero-HPL效率可以达到平台峰值性能的76.5%(其中,dgemm函数效率为84%).进一步的实验结果表明,Hetero-HPL在多节点联机运行情况下也是一种可行的方案.  相似文献   

2.
随着异构系统成为建造超级计算机的重要选择,如何让CPU与加速器协调工作以充分发挥异构系统的计算性能具有重要意义.HPL是高性能计算领域最重要的基准测试程序,传统面向纯CPU系统的HPL算法通过加速器加速矩阵乘法的做法已经无法取得很好的性能.针对这一问题,提出了基于国产处理器-国产加速器异构系统的HPL性能模型和多线程细粒度流水HPL算法.完成了一个轻量级跨平台异构加速框架HPCX,以实现跨平台的HPL算法.该性能模型能够准确地预测类似异构系统的HPL性能.该HPL算法在NVIDIA GPU平台上性能超过了NVIDIA官方闭源nvhpl程序9%.在国产处理器-国产加速器平台512个节点的规模上,优化的HPL算法实现了2.3 PFLOPS实测峰值性能和71.1%的浮点效率.  相似文献   

3.
当今世界的主流超级计算机越来越多地使用带有加速器的异构系统.随着加速器的浮点性能不断提高,超级计算机内计算节点的CPU、内存、总线、网络以及系统架构都要与之相适应.HPL(High Performance Linpack)是高性能计算机评测的传统基准测试程序,复杂异构系统给HPL评测带来很多机遇与挑战.针对带有GPU的异构超级计算机系统,提出一套新的CPU与加速器计算任务分配方式,提出平衡点理论指导HPL性能优化.为了优化HPL程序,提出了使用CPU与加速器协同工作的look-ahead算法和行交换连续流水算法,实现了加速器、CPU、网络等部件的高度并行.此外,为带有加速器的系统设计了新的panel分解和行交换的实现方法,提高加速器的利用率.在每个节点带有4个GPU的系统上,单节点HPL效率达到79.51%,14884节点效率达到62.22%.  相似文献   

4.
随着异构系统成为建造超级计算机的重要选择,如何让CPU与加速器协调工作以充分发挥异构系统的计算性能具有重要意义.HPL是高性能计算领域最重要的基准测试程序,传统面向纯CPU系统的HPL算法通过利用加速器加速矩阵乘法的做法已经无法取得很好的性能.针对这一问题,本文基于新的国产处理器-国产加速器异构系统提出了一个新的HPL性能模型,设计了一种全新的多线程细粒度异构HPL算法.我们完成了一个轻量级跨平台异构加速框架HPCX用来实现跨平台的HPL算法.我们的性能模型能够准确的预测类似异构系统的HPL性能,我们的多线程细粒度异构HPL算法在NVIDIA GPU平台上性能超过目前NVIDIA平台上性能最好的NVIDIA官方闭源nvhpl程序9%.在国产处理器-国产加速器平台512节点的规模上,我们的新HPL算法实现了2.3PFLOPS实测峰值性能和71.1%的浮点效率.  相似文献   

5.
当今世界的主流超级计算机越来越多地使用带有加速器的异构系统.随着加速器的浮点性能不断提高,超级计算机内计算节点的CPU、内存、总线、网络以及系统架构都要与之相适应.HPL(high performance Linpack)是高性能计算机评测的传统基准测试程序,复杂异构系统给HPL评测带来很多机遇与挑战.针对带有GPU的异构超级计算机系统,提出一套新的CPU与加速器计算任务分配方式,提出平衡点理论指导HPL性能优化.为了优化HPL程序,提出了使用CPU与加速器协同工作的look-ahead算法和行交换连续流水算法,实现了加速器、CPU、网络等部件的高度并行.此外,为带有加速器的系统设计了新的panel分解和行交换的实现方法,提高了加速器的利用率.在每个节点带有4个GPU的系统上,单节点HPL效率达到了79.51%.  相似文献   

6.
异构HPL(high-performance Linpack)效率的提高需要充分发挥加速部件和通用CPU计算能力,加速部件集成了更多的计算核心,负责主要的计算,通用CPU负责任务调度的同时也参与计算.在合理划分任务、平衡负载的前提下,优化CPU端计算性能对整体效率的提升尤为重要.针对具体平台体系结构特点对BLAS(basic linear algebra subprograms)函数进行优化往往可以更加充分地利用通用CPU计算能力,提高系统整体效率.BLIS(BLAS-like library instantiation software)算法库是开源的BLAS函数框架,具有易开发、易移植和模块化等优点.基于异构系统平台体系结构以及HPL算法特点,充分利用三级缓存、向量化指令和多线程并行等技术手段优化CPU端调用的各级BLAS函数,应用auto-tuning技术优化矩阵分块参数,从而形成了HygonBLIS算法库.与MKL相比,在异构环境下,HPL算法整体性能提高了11.8%.  相似文献   

7.
异构HPL(High-performance Linpack)效率的提高需要充分发挥加速部件和通用CPU计算能力,加速部件集成了更多的计算核心,负责主要的计算,通用CPU负责任务调度的同时也参与计算.在合理划分任务,平衡负载的前提下,优化CPU端计算性能对整体效率的提升尤为重要.针对具体平台体系结构特点对BLAS(Basic linear Algebra Subprograms)函数进行优化往往可以更加充分的利用通用CPU计算能力,提高系统整体效率.BLIS(BLAS-like Library Instantiation Software)算法库是开源的BLAS函数框架,具有易开发、易移植和模块化等优点.本文基于异构系统平台体系结构以及HPL算法特点,充分利用三级缓存、向量化指令和多线程并行等技术手段优化CPU端调用的各级BLAS函数,应用auto-tuning技术优化矩阵分块参数,从而形成了HygonBLIS算法库,与MKL相比,异构环境下HPL整体性能提高了11.8%.  相似文献   

8.
为满足大规模脉冲神经网络(SNN)的计算需求,类脑计算系统通常需要采用大规模并行计算平台。然而随着节点数量的增多,通信在仿真中所占比例大幅增加,导致计算效率下降。类脑模拟器开源软件NEST采用缓冲区大小相等的策略,有效缩短了通信时间,但是由于缓冲区互相无交流,使得通信数据量持续增加,因此其在能耗方面表现较差。分析NEST集群的负载特性,针对其中的通信问题进行稀疏性优化,提出基于SNN子图跨节点优化的神经元重分布算法ReLOC。通过优化SNN子图的跨节点分布减少每一轮神经元到进程的数量,从而减少跨节点脉冲,使进程间通信更加稀疏,达到缩减每一轮通信进程的目的。在此基础上,以稀疏交换的思想对NEST本身的通信机制进行改进,使有脉冲交换的进程进行数据交换,从而在连接稀疏的情况下提升通信效率。以包含28个Xilinx PYNQ节点的计算集群作为实验平台,运行皮质微电路SNN模型和平衡随机网络模型,验证ReLOC算法的有效性。实验结果表明,相比循环分布算法,重分布算法能够使通信的平均稀疏性提高20%,同时配合稀疏交换最多可使通信能耗减少98.63%。  相似文献   

9.
针对传统的A*算法在对航路上危险天气的路径规划过程中搜索的栅格多、搜索范围大、算法效率低的问题,采用Br-esenham算法对A*算法的底层框架进行优化.在无障碍节点的情况下通过对探索节点的判别使算法探索栅格数量减小,减少无效探索;在有障碍节点的情况下通过对障碍节点周围环境点的探索收集信息选择最优路径,保证运行效率提高.根据A*算法当存在多个最小值时不能保证搜索路径最优的情况,在循环语句中嵌套选择语句分别对不同情况下的阶段性运行结果做出决策,实验结果表明,改进后的算法大幅度提高了算法的运行效率.  相似文献   

10.
随着电商网站用户规模不断增长,高并发问题成为在搭建大规模电商网站系统时面临的一项重大挑战,通过负载均衡算法来实现Web服务集群中各节点均衡负载是解决高并发的手段之一.然而,目前通用的负载均衡算法都存在一些不足之处,针对这一问题,提出了一种动态自适应权重轮询随机负载均衡算法(Dynamic Adaptive Weight Round-Robin Random Load-Balancing,DAWRRRLB),该算法考虑到影响Web服务集群中服务器节点性能的多重因素,根据节点在运行过程中的实时负载情况动态的改变集群中节点的负载性能,并结合改进的Pick-K算法对权重轮询负载均衡算法进行优化,始终保证性能最优的服务器节点在提供服务.通过多次实验对比,改进的DAWRRRLB算法可以有效的提高负载均衡效率.  相似文献   

11.
《Computers & Fluids》1999,28(4-5):603-614
Current trends in computer hardware are dictating a gradual shift toward the use of clusters of relatively inexpensive but powerful workstations, or massively parallel processing (MPP) machines, for scientific computing. However, most computational fluid dynamics (CFD) codes in use today were developed for large, shared-memory machines and are not readily portable to the distributed computing environment. One major hurdle in porting CFD codes to distributed computing platforms is the difficulty encountered in partitioning the problem so that the computation-to-communication ratio for each compute node (process) is maximized and the idle time during which one node waits for other nodes to transfer data is minimized. In the present work, pertinent issues involved in the parallelization of a widely used multiblock Navier–Stokes code TLNS3D are discussed. An engineering approach is used here to parallelize this code so that minimal deviation from the original (nonparallel) code is incurred. A natural partitioning along grid blocks is adopted in which one or more blocks are distributed to each of the available nodes. An automatic, static load-balancing strategy is employed for equitable distribution of computational work to specified nodes. Both parallel virtual machine (PVM) and message passing interface (MPI) protocols are incorporated for data communication to allow maximum portability to a wide range of computer configurations. Results are presented that are comparable with a priori estimates of performance for distributed computing and that are competitive in terms of central processing unit (CPU) time and wall time usage with large, shared-memory supercomputers.  相似文献   

12.
高性能计算机系统的性能评价历来是本领域所关注的重要问题.TOP500排名所采用的标准测试HPL(High Performance Linpack)并不能真实的反映系统各方面的性能,尤其是存储访问方面.HPC Challenge基准测试则着重于各种存储访问模型,在HPL的基础之上又整合了多个有代表性的核心测试程序,很有可能在未来取代现在TOP500采用的的HPL测试.本文首先简单介绍HPC Challenge诞生的背景,解释基准测试的基本概念和原理,从存储访问模型的角度对各项测试进行了描述,并根据实际的测试结果进行比较和分析.最后给出结论以及将来的工作.  相似文献   

13.
HPL是高性能计算广泛采用的Linpack测试软件包,传统HPL算法中,求解矩阵将以块为单位循环分布到所有处理器,由于国产加速器(China Accelerator)的底层矩阵乘接口仅支持定制接口,传统HPL算法已不适合CPU+China Accelerator异构系统,因此,必须基于定制接口完成矩阵分布细致划分与封装dPEM,以提供一个通用的HPL测试配置环境;同时,为了充分发挥国产异构系统的效率,设计了异构协同矩阵乘调度算法OA4MM,以提高国产异构系统的效率。实验验证了dPEM的有效性和OA4MM算法的高效性,OA4MM较传统的异构HPL调度算法性能提升近10%。  相似文献   

14.
向量计算Array OLAP查询处理技术   总被引:1,自引:0,他引:1       下载免费PDF全文
多核和众核处理器成为新的具有强大并行处理能力的大内存计算平台的主流配置。多核处理器遵循以LLC(Last Level Cache,最后一级cache)大小为中心的优化技术,而众核处理器,如Phi、GPU协处理器,则采用较小的cache并以更多的硬件级线程来掩盖内存访问延迟的设计。随着处理核心数量的增长,计算框架更倾向于面向大规模处理核心的、代码执行效率高并且扩展性强的设计思想。提出了一种基于数组存储和向量处理的内存分析处理框架Array OLAP,简化OLAP的存储模型和查询处理模型。在Array OLAP计算框架中,维表规范化为基于向量的维过滤器,事实表规范化为带有多维索引的度量属性。通过多维索引计算,一个多维查询被简化为事实表上的向量索引扫描并根据度量表达式进行聚集计算。规范化的向量查找和向量索引扫描具有较好的代码执行效率,并且阶段化的处理模型更好地适应不同的计算平台,将计算阶段分配给最适合的计算平台。同时,Array OLAP是一种面向数据仓库模式特点的设计,向量处理模型设计简单,对于数据仓库维表较小且增长缓慢的特点具有较好的效率。描述了在不同平台上的Array OLAP计算框架并且通过基准测试评估Array OLAP的性能,通过与当前的内存分析型数据库的性能对比,Array OLAP性能超过主流的内存分析型数据库并且可以平滑地迁移到新的硬件平台。  相似文献   

15.
针对Hadoop平台MapReduce分布式计算模型运行机制中的顺序制约而产生的计算资源浪费问题,从提高平台中每个执行节点的细粒度并行数据处理角度出发,结合Java共享内存多线程编程技术,对该模型进行了优化,提出一种MapReduce+OpenMP粗细粒度相结合的分布式并行计算模型。并在由四个节点组成的Hadoop集群环境下对不同规模大小的出租车GPS轨迹数据分析处理,验证该模型的性能和效率,实验结果证明MapReduce+OpenMP分布式并行计算模型确实能够提高针对大数据集的计算效率,是对Hadoop平台大数据分析处理模型有效的完善和优化。  相似文献   

16.
对HPL基准程序的高速处理亟需一种能满足算法需求的高效DMA传输方式,同时DDR访问效率也直接决定了算法的运行速度。GEMM算法的操作占整个HPL基准程序操作的90%,为了提高该算法的处理速度,结合DDR访问特点,提出了一种基于核间同步的点对点DMA传输模式。实验结果表明,由于访存效率的提升,该传输模式相比于普通传输模式平均获得了256.74%左右数据传输效率提升,明显减少了数据搬运时间开销,有效满足了HPL算法的处理需求。  相似文献   

17.
In recent years, cluster computing has been widely investigated and there is no doubt that it can provide a cost-effective computing infrastructure by aggregating computational power, communication, and storage resources. Moreover, it is also considered to be a very attractive platform for low-cost supercomputing. Distributed shared memory (DSM) systems utilize the physical memory of each computing node interconnected in a private network to form a global virtual shared memory. Since this global shared memory is distributed among the computing nodes, accessing the data located in remote computing nodes is an absolute necessity. However, this action will result in significant remote memory access latencies which are major sources of overhead in DSM systems. For these reasons, in order to increase overall system performance and decrease this overhead, a number of strategies have been devised. Prefetching is one such approach which can reduce latencies, although it always increases the workload in the home nodes. In this paper, we propose a scheme named Agent Home Scheme. Its most noticeable feature, when compared to other schemes, is that the agent home distributes the workloads of each computing nodes when sending data. By doing this, we can reduce not only the workload of the home nodes by balancing the workload for each node, but also the waiting time. Experimental results show that the proposed method can obtain about 20% higher performance than the original JIAJIA, about 18% more than History Prefetching Strategy (HPS), and about 10% higher than Effective Prefetch Strategy (EPS).  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号