首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 796 毫秒
1.
随着高性能计算机系统与并行应用规模的不断增加,大规模并行作业的启动时间不能再被忽略不计.已有的研究给出了在Tianhe-1A系统上加载MPI作业的性能结果.通过分析作业启动在控制消息传递、文件访问、MPI环境初始化等各阶段的时间开销,发现对于大规模MPI作业而言,环境初始化时间是作业启动的主要开销.基于此发现进行了一些优化,减少MPI环境初始化时交换的数据量,并避免不必要的数据传输开销.显著地提高了并行作业启动的性能,进而提出了一种层次式的可扩展进程管理结构,以进一步增强作业启动的可扩展性.与其他主流MPI实现的进程管理机制的作业启动时间进行了比较.  相似文献   

2.
大规模数值计算受到通信模式、并行算法、I/O速度等的多方面因素的制约,并行程序的好坏直接影响并行机性能的发挥,本文分别对上述影响并行性能的重要因素进行了分析并对NAPA软件进行了优化,测试中发现本文采用的并行算法性能比优化前提高了41.1%,此外,本文采用支持多视口的MPI I/O接口性能有明显提高.最后,本文分析了并行NAPA软件的可扩展性,并采用高超声速平板流动进行了测试,在Grid 97*49*49算例中,64个进程的情况下得到了较高的加速比(53.7)和并行效率(84%),表明,优化后的软件具有较好的并行效率和可扩展性.  相似文献   

3.
从求解三维绕流问题的Boltzmann模型方程的数值模拟程序出发,通过研究区域分解并行计算策略,引入输入/输出、通信与CACHE等优化策略,对数值模拟程序进行MPI并行化移植与高性能计算调试。以高空稀薄过渡流区飞行器绕流状态为算例,进行了MPI大规模并行计算测试,证实了所发展的MPI并行化区域分解策略及程序优化途径的正确性。研究表明开展的并行化实现能明显地缩短模式计算时间,并取得较好的效果。  相似文献   

4.
赫姆霍兹方程求解是GRAPES数值天气预报系统动力框架中的核心部分,可转换为大规模稀疏线性系统的求解问题,但受限于硬件资源和数据规模,其求解效率成为限制系统计算性能提升的瓶颈。分别通过MPI、MPI+OpenMP、CUDA三种并行方式实现求解大规模稀疏线性方程组的广义共轭余差法,并利用不完全分解LU预处理子(ILU)优化系数矩阵的条件数,加快迭代法收敛。在CPU并行方案中,MPI负责进程间粗粒度并行和通信,OpenMP结合共享内存实现进程内部的细粒度并行,而在GPU并行方案中,CUDA模型采用数据传输、访存合并及共享存储器方面的优化措施。实验结果表明,通过预处理优化减少迭代次数对计算性能提升明显,MPI+OpenMP混合并行优化较MPI并行优化性能提高约35%,CUDA并行优化较MPI+OpenMP混合并行优化性能提高约50%,优化性能最佳。  相似文献   

5.
蚁群聚类是一种有效的聚类方法,已在数据分析等领域获得广泛应用.MPI并行计算提供高效的数据处理方案,研究蚁群聚类算法的并行化是目前具有挑战性的研究课题.首先介绍了基于传统编程模型的解决TSP问题的蚁群优化算法,以及蚁群优化算法和K-means结合的聚类方法,描述了它们的基本原理和实现过程.然后,对基于传统编程模型的聚类算法进行MPI并行化改进,实现了基于MPI并行计算的蚁群聚类算法.最后,分别采用Iris、Wine、Zoo3个UCI数据集和Reuter-21578文本数据集进行多次测试,对基于传统编程模型的聚类算法和基于MPI并行计算的聚类算法进行性能和效率上的比较,得出基于MPI并行计算的聚类算法更优的结论.  相似文献   

6.
在石油勘探过程中,地震波正演为反演方法提供理论基础及理论数据,能测试反演方法的有效性,在整个反射地震学中占有很重要的地位。通过对三维声波方程正演算法的分析,结合某众核平台的特性,完成了该算法两级MPI并行+众核级并行的设计,并进行了相关优化。实验结果表明,三维声波方程正演多级异构并行算法在该平台具有较好的众核并行加速效果和良好的MPI扩展性能。  相似文献   

7.
多核时代的来临对现有的应用软件提出了严重挑战,串行代码难以充分发挥硬件资源的性能;软件的并行优化成为亟待解决的重要问题。本文综合了 MPI,OpenMP,众核编程模型 CUDA 三个编程模型进行研究,讨论了适用于不同软件并行优化的方法,提出了适用于企业级应用的软件并行优化策略,最后总结和展望了软件并行优化的挑战和前景。  相似文献   

8.
陆申明  左志强  王林章 《软件学报》2020,31(5):1243-1254
静态程序分析发展至今,已在多个方面取得了长足的进步,应用于软件开发的众多方面.但对现代大规模复杂软件系统(如千万行代码规模的Linux操作系统、分布式大数据处理系统Hadoop等)进行高精度的静态分析,因其极大规模数据量的计算,仍有一定难度.精度、效率和可扩展性相互制约,是静态分析技术在工业界应用的主要障碍.对此,近年来,随着多核、众核架构的兴起,研究人员提出了静态分析的各种并行化解决方案.梳理了静态分析的发展历程,针对当前静态分析面临的挑战,在分析了传统算法优化研究的不足后,对利用硬件资源进行并行优化的方法进行了充分讨论,包括单机的CPU并行、分布式和GPU实现这3个方面;在此基础上,对一些使用较为广泛的支持并行的静态分析工具进行了评估;最后,对未来如何从算法和算力角度对静态分析进行并行优化作了讨论和展望.  相似文献   

9.
基于EnFCM的海量图像聚类分割算法的并行研究   总被引:1,自引:0,他引:1  
《微型机与应用》2015,(15):55-58
图像分割的处理速度成为大规模图像数据处理的瓶颈。本文提出一种基于En FCM的图像聚类分割模型,直接对图像像素的灰度级进行聚类,能显著提高图像聚类分割的处理速度。为进一步提高处理速度,结合En FCM图像聚类分割模型特点,设计了三种并行优化策略——纯MPI并行方法、MPI+Open MP混合编程方法和CUDA并行架构方法 ,使其适合于大规模图像处理。实验结果表明,提出的三种并行优化策略都取得良好的加速效果。  相似文献   

10.
SMP机群混合编程模型研究   总被引:12,自引:0,他引:12  
研究了适用于 SMP机群的混合编程模型 ,并把它划分为 Open MP MPI和 Thread MPI两类 .通过研究指出 ,Open MP MPI优于 Thread MPI.在此基础上 ,重点研究了 Open MP MPI的实现机制、粗粒度和细粒度并行化方法、循环选择、优化措施以及注意事项等 ,得出细粒度并行化的 Open MP MPI是 SMP机群编程模型的一个较好选择的结论  相似文献   

11.
基因序列分析软件Hmmpfam的可扩展并行性能优化   总被引:3,自引:0,他引:3  
基于MPI(message passing interface)平台实现了HMMER软件包核心程序之一Hmmpfam的大规模并行计算.该版本针对原PVM(parallel virtual machine)并行版本在并行规模扩大后,master易成为通信瓶颈的问题,对通信结构进行了优化,提出了一种新的三层通信结构,在序列和HMM模型的两个层次上实现了并行化,并分别提供了有效的负载平衡策略,同时优化了I/O性能,在700多台处理机上达到95%的效率.  相似文献   

12.
非规则、核外计算既是大规模并行应用普遍存在的问题,也是影响大规模并行应用效率的关键问题.本文从并行处理模型、运行支持库实现和并行优化三个方面对非规则、核外计算技术进行了全面综述,并对典型研究成果的特点和不足进行了分析.如何充分利用系统结构的特点和应用数据本身的特点,寻求非规则、核外计算处理的优化是现有技术发展的共同思想.在此基础上,指出了处理两类问题的技术相关性以及在SMP集群系统结构和网络存储环境下,解决非规则、核外计算的新思路:一是从问题描述、编译优化、运行支持等多层次协同研究充分利用系统结构特点的优化技术,二是从应用问题出发,在并行粒度确定、并行范例选择等方面统一非规则、核外计算的处理,三是研究新的支持非规则通信的优化技术和动态负载均衡方法.  相似文献   

13.
随着计算机体系结构的发展,分布式存储结构以其良好的扩展性逐渐占据了高性能计算机体系结构市场的主导地位.为了将现有的串行程序转换为能够在高性能计算机上运行的并行程序,研究人员提出了并行化编译器.然而,当前面向分布存储并行系统的编译器发展却相对较慢,而面向共享存储并行系统的编译器及其相应技术已逐渐成熟.一种开发面向分布存储并行系统编译器的可行方法是改进现有的面向共享存储并行系统的编译器,使其自动生成能够在分布存储结构高性能计算机上运行的MPI(Message Passing Interface)并行程序.因此,该文为面向共享存储并行系统的编译器Open64设计并实现了一个支持MPI代码生成的后端.根据分布式并行化编译的特点,主要从自动生成计算划分、改进循环优化和自动生成MPI并行代码3个方面对Open64进行了改进,使其能够实现面向分布存储的并行化编译.实验测试利用带有MPI后端的Open64对串行程序进行编译,生成的MPI并行代码可直接运行在具有分布存储结构的高性能计算机上.通过将该MPI并行代码的执行效率与传统面向分布存储并行系统编译器生成的MPI代码效率进行比较,并行效率有明显的提升.  相似文献   

14.
MIOS是一个面向大规模CCNUMA系统设计的新型高可扩展操作系统.MIOS创新地采用了多实例内核结构,每个内核实例执行相同代码,分别独立运行和管理一个处理器,多核间通过分布存储管理构成高可扩展的一致性系统映像空间,支持弱共享进程、线程并行模型.MIOS针对大规模CCNUMA系统特点和高性能并行科学计算应用的需求,采用了显式共享数据分布、层次式任务调度、自适应任务间通信以及寄存器锁等优化.在大规模CCNUMA体系结构的银河深度并行计算机上的测试表明,MIOS对MPI应用具有同传统操作系统类似的性能,并可以有效支持2048处理器规模的OMP应用高效运行,具有良好的系统可扩展性.  相似文献   

15.
首先,基于并行计算模型HPM,分析了多机机群系统的体系结构特点,从并行性和局部性(存储与通信特性)两方面分析影响并行应用软件性能的主要因素,讨论应用软件并行与优化的相关问题;分析了纯MPI和MPI SMP(或OMP)制导两种编程模式在性能上的优点与不足。然后,讨论了在GoSMFs系统上对并行应用软件进行优化的方法。最后,对两种不同的通信模式(循环交换、边界交换)在CoSMPs;系统上的性能进行讨论,并在多机机群系统的实例——DW3000超级服务器上进行优化;通过计算实例——矩阵乘法和解偏微分方程的五点格式算法加以验证,实算结果和理论分析一致。  相似文献   

16.
对求解旅行商问题的回溯搜索算法进行并行化的设计和改进,对该并行算法进行了详细描述。在MPI并行计算环境下应用该并行算法进行计算,求出了旅行商问题的最优解。实验结果表明,该并行算法适合求解小规模旅行商问题。  相似文献   

17.
流线是流场可视化的主要方法之一,而针对大规模流场的流线生成由于计算量大往往需要采用高性能计算机这样的并行计算环境结合并行化算法以实现计算加速.在当前异构计算系统越来越普遍的情况下,为了充分利用并行异构计算环境的计算能力,实现更高效的并行流线生成,本文采用了基于数据并行原语结合分布式消息通讯的技术架构,设计了一套适用于异构集群的混合并行流线生成系统,并在此基础上针对数据分块、数据冗余化及进程通讯策略等方面进行设计,提出并实现了一套并行粒子追踪算法.该系统被部署于国产超算平台上,并针对大规模CFD流场模拟结果数据可视化应用开展了实验.本文给出了相关实验结果,分析了核心并行算法的速度性能、可扩展性以及负载均衡等方面情况,说明了系统及算法的有效性和可扩展性.  相似文献   

18.
MPI并行编程环境的研究   总被引:3,自引:0,他引:3  
以RISC工作站或高档微机通过LAN连接的机群系统已经成为并行计算的主流技术,研究适应机群系统的并行编程环境自然重要起来。在众多的并行编程环境中,应用较为广泛的有消息传递接口(MPI)标准和并行虚拟机(PVM)环境。本文重点分析了MPI编程环境,并出给了MPI并行程序设计的基本方法。  相似文献   

19.
王海兵 《计算机应用》2011,31(Z1):172-173,176
通过重载MPI消息传递函数,在重载的MPI函数中调用MPE库中各日志记录函数,实现了大规模面向对象有限元程序自定义并行性能监测。对一个典型冲击动力学问题进行了16 CPU的并行有限元模拟,通过并行性能监测对其有限元并行算法进行了分析。  相似文献   

20.
PC机群上JIAJIA与MPI的比较   总被引:3,自引:2,他引:3       下载免费PDF全文
对JIAJIA和MPI (message passing interface)是进行了比较.JIAJIA和MPI分别代表共享存储和消息传递的编程模式.MPI显式进行数据传输,编程复杂;JIAJIA由底层维护数据一致性,并附加提供简单的消息传递函数,编程容易、灵活.JIAJIA分配共享内存时开销较大,初始化时间比MPI长.提出了一个关于并行加速比与进程数目之间关系的近似经验公式,推出JIAJIA和MPI性能差距随着进程数目的增多而增大的结论.测试结果表明,大部分应用程序的JIAJIA和MPI版本的并行性能差距不超过10%.对于通信量很小的应用程序,其JIAJIA和MPI的性能差距较小,而通信量本身较大的应用程序,其JIAJIA和MPI的性能差距主要取决于运行时产生的实际通信量.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号