期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

章隆兵吴少刚蔡飞胡伟武《软件学报》2004,15(6):842-849

共享存储和消息传递是目前两种主流的并行编程模型.一般认为,消息传递的可编程性不及共享存储友好.OpenMP是目前共享存储编程的实际工业标准.机群OpenMP系统在机群上提供了OpenMP编程环境,具有易编程和可扩展的特点,但是其性能如何一直是关注的热点.以机群OpenMP系统OpenMP/JIAJIA和典型的消息传递系相似文献

2.

MPI在SMP机群上的实现技术分析

周茂成《电子计算机》2001,(1):35-41

用商品SMP的机群构造超级计算机已经越来越普遍，并且代表了超级计算机体系结构的发展方向。但如何让用户只使用单一消息传递编程模型就能高效利用全系统资源的问题还在困扰着开发商和用户。如何解决这个问题已经成为当务之急。本文较为详细地介绍了到目前为止，国外在探讨解决这个问题时所使用的各种技术，分析了它们的特点、解决问题的程度，以及应用前景，并对这些技术以后的探讨方向做了预测。相似文献

3.

曙光1000A上消息传递与共享存储的比较 总被引：12，自引：2，他引：12

唐志敏施巍松胡伟武《计算机学报》2000,23(2):134-140

分布式共享存储虽然有易于编程的优点,但往往被认为效率不高、完全由软件实现的分布式共享存储系统（又称为虚拟共享存储系统）更是如此,文中以典型的消息传递系统ＰＶＭ与分布式共享存储系统ＪＩＡＪＩＡ粉列,报这两种并行程序设计环境的特点,并用７个应用程序在曙光１０００Ａ上分别比较了这两个系统的性能,实验３结果表明,ＪＩＡＪＩＡ的与ＰＶ玎当,但基于ＪＩＡＪＩＡ的并行程序设计却比ＰＶＮ简单得多。相似文献

4.

基于MPI的并行多目标粒子群算法

耿文静董红斌丁蕊《模式识别与人工智能》2018,31(7):668-676

为了进一步提高速度受限的多目标粒子群算法(SMPSO)求解多目标优化问题的效率和精度,文中提出基于消息传递接口(MPI)的并行化SMPSO算法(M-SMPSO).采用主从模式的MPI并行程序设计模式,将整个种群分成几个子种群,各子种群分别执行独立进化计算,提高算法效率.此外,为了均衡考虑算法的分布性与收敛性,提出自适应的全局最优解选择策略.使用标准测试函数验证算法性能,实验表明,相比其它多目标算法,文中算法能获得更高的加速比,更快收敛到多目标优化问题的Pareto前沿. 相似文献

5.

POM:一个MPI程序的进程优化映射工具

卢兴敬商磊陈莉《计算机工程与科学》2009,31(Z1)

现代超级计算机具有越来越多的计算结点,同时结点内具有多个处理器核。由于互联带宽的差异,结点间与结点内构成两个通信性能不同的通信层次,后者的通信性能好于前者。但是,目前MPI程序的默认进程映射未考虑该通信层次差异,无法利用结点内较好的通信带宽,严重束缚了超级计算机的性能发挥。针对该问题,本文设计实现了能利用层次通信差异的MPI程序自动进程优化映射工具POM,提供了高效、低开销获取MPI程序通信信息的方法,最终通过优化通信在通信层次上的分布提高了程序的通信效率,从而提高了应用程序的性能。本文解决了硬件平台通信层次的抽象、MPI程序通信信息的低开销获取与映射方案的计算三个问题。首先,按照通信能力差异将超级计算机结构抽象为高速互联的不同计算结点与相同结点上的多个处理器核两层。其次,提出了将集合通信转化成点到点通信的简单实现方法。最后,利用无向加权边图来表示MPI程序的进程间通信关系,将MPI程序的进程映射问题转化为图划分问题。在曙光5000A和曙光4000A上的实验结果表明,利用POM工具能够显著提高MPI程序的性能。相似文献

6.

大规模集群上多维FFT算法的实现与优化研究

《计算机科学与探索》2017,(6):863-874

快速傅里叶变换(fast Fourier transform,FFT)是用于计算离散傅里叶变换(discrete Fourier transform,DFT)或其逆运算的快速算法,在工程、科学和数学领域的应用非常广泛,例如信号分解、数字滤波、图像处理等。因此,在实际应用中对FFT算法进行细粒度优化是非常重要的。研究了FFT算法常用的分解策略以及FFT算法在大规模集群系统上的并行实现,并提出了相关的优化策略。在此基础上,对多种FFT算法在不同平台上进行了性能评估,并分析了各算法的实现、优缺点及其在大规模计算时的可扩展性。实验结果表明,相关研究有助于对现有的FFT算法进行进一步的优化,以及指导如何在大规模CPU+GPU的异构系统上根据不同需求选择实现性能更优的FFT算法。相似文献

7.

一种新的MPI Allgather算法及其在万亿次机群系统上的实现与性能分析 总被引：4，自引：0，他引：4

陈靖张云泉张林波袁伟《计算机学报》2006,29(5):808-814

给出一个新的MPI Allgather算法--邻居交换算法（neighbor exchange）.提出的平均逻辑通信距离的概念和计算公式,可以有效地衡量通信的局部性.通过分析,发现在4种MPI Allgather算法中,邻居交换和环算法均具有最优的通信局部性.在万亿次机群深腾6800和曙光4000A上对4个MPI Allgather算法进行的性能测试和分析结果表明,邻居交换算法的长消息通信性能最优,中长消息通信性能不稳定,短消息通信性能次于递归倍增和Bruck算法. 相似文献

8.

LQCD Dslash在神威·太湖之光上的研究分析与MPI实现

张淼周宇陈建海何钦铭徐顺宫明《计算机科学与探索》2019,13(10):1664-1676

"神威·太湖之光"是我国全自主研发的千万核超级计算机,目前已有很多大型应用程序在此先进架构上进行了移植优化。然而,高能物理领域的格点量子色动力学(LQCD)数值模拟软件在神威平台上尚未进行过移植优化,这引起了科学工作者们的关注。针对LQCD在神威平台上的移植优化问题展开研究。首先,论述了国内外对LQCD在不同硬件架构上进行并行优化的发展历程。其次,通过对其热点模块Dslash的重构,实现了在神威平台上的成功移植。再次,针对申威26010芯片异构众核的架构和并行模式,实现了从核阵列异构并行、从核本地设备存储器(LDM)与主存之间的直接存储访问(DMA)通讯、主核之间的消息传递接口(MPI)通讯及全局归约等操作。最后,经过实验测试,单核组优化程序与16核组优化程序相比单主核程序分别获得了165倍和25倍的加速比,并发现了一些重要的性能瓶颈问题,为进一步优化提升整体效率奠定重要基础。同时,对国产超算平台的推广使用具有积极意义。相似文献

9.

在消息传递并行机上的高效的最小生成树算法 总被引：5，自引：0，他引：5

王光荣顾乃杰《软件学报》2000,11(7):889-898

基于传统的Borǔ vka串行最小生成树算法,提出了一个在消息传递并行机上的高效的最小生成树算法.并且采用3种方法来提高该算法的效率,即通过两趟合并及打包收缩的方法来减少通信开销,通过平衡数据分布的办法使各个处理器的计算量平衡.该算法的计算和通信复杂度分别为O(n²/p)和O((t_sp+t_wn)n/p).在曙光-1000并行机上运行的实际效果是,对于有10 000个顶点的稀疏图,通过16个节点的运行加速比是12. 相似文献

10.

MPI设计结构的分析与比较 总被引：2，自引：0，他引：2

张岳陈渝孙亦嘉都志辉《计算机科学》2004,31(2):163-166

MPICH与LAM是目前使用最广泛的MPI标准的实现。本文从设计思想和程序结构方面分析二者实现上的异同,重点比较可移植性和性能,并对二者最新版本进行了详细的性能测试。通过实例分析,提出设备层的设计要点,并为选择、移植和改进MPICH和LAM提出建议。相似文献

11.

基于MPI的集群监控系统

邢小虎宋安军《计算机辅助工程》2006,15(4):27-30

为了有效地监控集群系统,基于消息传递接口（Message Passing Interface,MPI）并行库构建一个简单易行的并行任务模型．详细介绍该任务模型中的集群监控、节点负载均衡评估模型结构以及Linux集群数据采集．实验表明该模型配置简单、资源开销低,且对集群系统的干扰小．相似文献

12.

基于PC集群的MPI并行环境的搭建

希润高娃《网络安全技术与应用》2012,(4):48-50

集群是充分利用计算资源的一个重要概念,PC集群是最易构建的分布式并行计算环境。MPI是应用最广的并行程序设计平台。本文通过实例阐述PC集群及PC集群上的MPI并行计算环境的搭建。相似文献

13.

自适应SW-ADI方法解反应扩散方程的并行实现

程海英张武《计算机工程与设计》2004,25(11):1961-1963,2011

根据解反应扩散方程的自适应样条小波-交替方向(SW-ADI)方法,使用MPI、OpenMP两种并行编程模式,对串行程序进行了直接并行化,并在上海大学的高性能计算机自强2000上分别用MPI和OpenMP实现了对方程的求解。对运算结果进行了分析并给出了与串行程序相比较的并行加速比。相似文献

14.

基于MPI的并行程序设计

张翠莲刘方爱王亚楠《微机发展》2006,16(8):72-74

在介绍消息传递接口标准(MPI)和分析并行程序设计方法的基础上,提出了在并行程序设计中需要进行算法级分析和程序级测试,以此来对影响具体的并行程序执行效率的因素进行分析,并用实例验证了分析结果。最后对MPI的实现之一———MPICH1.2.5版本的不足,提出了改进的方法。相似文献

15.

Performance and scalability of MPI on PC clusters

Glenn R. Luecke Marina Kraeva Jing Yuan Silvia Spanoyannis 《Concurrency and Computation》2004,16(1):79-107

The purpose of this paper is to compare the communication performance and scalability of MPI communication routines on a Windows Cluster, a Linux Cluster, a Cray T3E‐600, and an SGI Origin 2000. All tests in this paper were run using various numbers of processors and two message sizes. In spite of the fact that the Cray T3E‐600 is about 7 years old, it performed best of all machines for most of the tests. The Linux Cluster with the Myrinet interconnect and Myricom's MPI performed and scaled quite well and, in most cases, performed better than the Origin 2000, and in some cases better than the T3E. The Windows Cluster using the Giganet Full Interconnect and MPI/Pro's MPI performed and scaled poorly for small messages compared with all of the other machines. Copyright © 2004 John Wiley & Sons, Ltd. 相似文献

16.

基于MPI并行计算的信号稀疏分解

下载免费PDF全文

刘浩杨辉尹忠科王建英《计算机工程》2008,34(12):19-21

在研究信号稀疏分解理论及其最常用的匹配追踪算法的基础上,针对MP算法存在的计算量过大的问题,提出一种基于并行计算系统实现信号稀疏分解的方法。该方法利用8台微机,采用MPI消息传递机制,以100 M高速以太网作为互联网络,构建了一套Beowulf 并行计算系统,在此系统上通过编制并行程序来实现MP算法。实际测试表明这种方法具有很高的并行计算效率,分解时间从单机75 min左右下降到8机并行11 min左右,大大提高了信号稀疏分解的速度。相似文献

17.

RoCE协议下基于在网计算的MPI通信优化

李嘉群蔡文杰沈瑜齐法制曾珊李京《计算机系统应用》2022,31(11):320-329

高性能计算中,通信上的巨大开销已成为其算力提升的主要瓶颈之一,通信性能的优化一直是一个重要挑战.针对通信优化任务,提出一种基于在网计算技术降低通信开销的方法.该方法在基于以太网的超算环境下,利用RoCEv2协议、可编程交换机以及OpenMPI,实现将归约计算卸载到可编程交换机,支持Node和Socket两种通信模式.在真实超算环境下开展了集合通信基准测试和OpenFOAM应用测试实验,结果表明,当服务器节点数达到一定规模时,该方法在Node和Socket两种模式下相较于传统的主机通信,均呈现出较好的性能提升,其中集合通信基准测试有10%–30%左右性能提升,在应用级测试中应用整体性能有1%–5%左右提升. 相似文献

18.

High Performance MPI over the Slingshot Interconnect

下载免费PDF全文

Khorassani Kawthar Shafie Chen Chen-Chun Ramesh Bharath Shafi Aamir Subramoni Hari Panda Dhabaleswar K. 《计算机科学技术学报》2023,38(1):128-145

Journal of Computer Science and Technology - The Slingshot interconnect designed by HPE/Cray is becoming more relevant in high-performance computing with its deployment on the upcoming exascale... 相似文献

19.

A Comparison of MPI,SHMEM and Cache-Coherent Shared Address Space Programming Models on a Tightly-Coupled Multiprocessors

Shan Hongzhang Singh Jaswinder Pal 《International journal of parallel programming》2001,29(3):283-318

We compare the performance of three major programming models on a modern, 64-processor hardware cache-coherent machine, one of the two major types of platforms upon which high-performance computing is converging. We focus on applications that are either regular, predictable or at least do not require fine-grained dynamic replication of irregularly accessed data. Within this class, we use programs with a range of important communication patterns. We examine whether the basic parallel algorithm and communication structuring approaches needed for best performance are similar or different among the models, whether some models have substantial performance advantages over others as problem size and number of processors change, what the sources of these performance differences are, where the programs spend their time, and whether substantial improvements can be obtained by modifying either the application programming interfaces or the implementations of the programming models on this type of tightly-coupled multiprocessor platform. 相似文献