首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 156 毫秒
1.
可预测扩展并行性能的并行程序设计模型   总被引:1,自引:0,他引:1  
BSP(Bulk-Synchronous)模型是独立于并行体系结构的,即可作为并行计算模型又可看作并地程序设计模型,该模型使程序员在算法设计阶段和编程调试阶段可精确地分析和预测并行程序性能。BSP程序可移植性强,可在多种并行系统发PVM,MPI等上实现。  相似文献   

2.
SMP机群系统是一种新型的系统结构。由于依赖于处理器的传统加速比模型不再适用于SMP机群系统,文中提出了面向结点的加速比模型,它将传统的串行与并行的对比关系扩展为个体与整体之间的对比关系。通过对基于处理器的传统加速比概念的研究,推导出了基于SMP机群系统的面向结点加速比的计算公式。面向结点加速比模型充分考虑了实际运行时间的可测性,反映出了系统在使用了多个结点之后性能的改变。事实上,传统的加速比模型  相似文献   

3.
VENUS:一个通用的并行性能可视化环境   总被引:1,自引:0,他引:1  
本文介绍了一个通用的并行程序性能可视化环境VENUS。在分析当前并行性能可视化工具不足的基础上,VENUS系统采用了基于可扩展的多层性能视图模型的可视化方法,并改进了PVM的跟踪机制以支持性能可视化分析与程序源代码的直接对应。实验表明,VENUS系统能够有效地帮助发现并行程序中的性能瓶颈。  相似文献   

4.
基于群机系统的并行程序的最大加速比计算   总被引:1,自引:0,他引:1  
加速比是并行程序的重要指标之一。在大多数并行系统中,在数据规 模确定的情况下,程序的加速比随节点工作站的增加而增加,但是大多数群机 系统的节点工作站是共享物理传输介质的,这使得许多并行程序的加速比在节 点机数目超过某一个值之后会随着节,点机的增加而减少。本文通过对群机系统 上并行程序执行时间的分析,论述了在数据规模确定的情况下,程序能够获得 的最大加速比和最短的计算时间,以及获得这个加速比和计算时间的节点机个 数。  相似文献   

5.
郭绚  郭平  郑守淇 《计算机学报》1999,22(6):591-595
介绍了一基于PVM并行环境的并行遗传算法的C++类库ParaGA的设计和实现,ParaGA以使用方便和灵活为主要目标,提供了透明的并行机制,使不具有并行程序经验的用户可以方便地编写并行遗传算法的程序,高级用户也可通过类库提供的若干方法来获得的优化的可行性能,类库采用粗粒度模型,支持并行遗传算法的3种迁移模式及SPMD和Master/Slave两种编程模式,ParaGA也提供了实现负载平衡分与及利用  相似文献   

6.
吕海  邸瑞华  龚华 《计算机科学》2012,39(1):305-310
通过对基于MPI编程模型实现的开源有限元计算分析软件在多核集群计算平台中的程序性能的分析,找出程序瓶颈及其原因,实现了基于MPI编程模型的并行程序在多核计算环境中的性能优化。根据程序性能瓶颈的分析,提出了基于MPI/OpenMP混合并行编程模型的大规模线性/非线性方程组求解和多线程多进程同时进行消息通信的两种程序性能优化方案。不同计算规模的实验结果表明,在多核集群计算平台中,MPI/OpenMP混合编程模型实现的大规模非线性方程组求解器相对于单纯基于MPI编程模型实现的并行程序,其性能有2倍到3倍的提升;多线程多进程同时消息传递的优化方案虽然对程序能够起到性能优化作用,但是对解决程序消息通信瓶颈的问题不是最好的方法。两个方案总体性能分析结果表明,基于MPI/OpenMP混合编程模型实现的并行程序,在多核集群计算平台中能够更好地发挥硬件系统的计算能力。  相似文献   

7.
孙彤  方滨兴 《计算机学报》1995,18(7):539-544
本文分析了面向分布存储SIMD/MIMD并行机的并行程序的优化数据安放问题,在FORALL程序模型和MESH通信模型上,研究了数据分解过程中减少通信代价的优化要求,我们使用编好图描述并行数组之间的对准需求,通过消除维偏好图中的冲突,可得到维对准对准图,一个维对准图就对应一个数据安放方案,维对准图的总代价越大,对应的通信代价就越小,文中给出了最大代价维对准图的一个近似算法。  相似文献   

8.
本文分析了面向分布存储SIMD/MIMD并行机的并行程序的优化数据安放问题,在FORALL程序模型和MESH通信模型之上,研究了数据分解过程中减少通信代价的优化要求.我们使用维偏好图描述并行数组之间的对准需求,通过消除维偏好图中的冲突,可得到维对准图.一个维对准图就对应一个数据安放方案.维对准图的总代价越大,对应的通信代价就越小.文中给出了求最大代价维对准目的一个近似算法.  相似文献   

9.
传统的并行计算的性能评价模型是加速比,文中讨论了加速比的缺点和不足,在此基础上提出了一种新的优化并行计算的性能评价模型(我们称之为优化加速比)。利用优化加速比分析了NAS基准测试程序MG和FT在IBM SP2(66mhz/wn)上的性能。  相似文献   

10.
并行程序由于自身的复杂性使得并行程序的调试相比串行程序要困难的多,因此用可视化的性能分析工具来辅助并行程序的调试显得非常重要,以此来帮助程序员找到程序的性能瓶颈,为并行程序的优化提供指导和建议。本文在研究MPE性能分析机理的基础上,介绍了一种实用的MPI并行程序可视化性能分析方法,并用实例详细说明了并行程序实时可视化性能分析和事后可视化性能分析过程。  相似文献   

11.
随着并行系统规模的扩大,高性能计算系统运行时消耗的能耗也在急剧增长,过高的能耗也给系统的可靠性、稳定性等方面带来严峻挑战。在这种情形下,能耗问题受到了前所未有的关注。因此,设计和研究高性能计算系统,需要在考虑高计算性能的同时兼顾系统低能耗的要求,这为高性能计算系统的度量模型提出了新的挑战。于是,大规模并行系统逐渐从"高性能"走向"高效能"的衡量标准。基于此,本文采用加速比度量指标,从系统可扩展角度将计算性能和能量消耗要素进行综合,提出了一种度量高性能计算系统综合性能的能耗并行加速比模型。该模型能够直观地反映并行计算系统的效能,旨在指导系统设计和应用研究。最后,通过对该模型的分析和模拟,验证了模型的有效性。  相似文献   

12.
系统度量指标的研究一直是并行系统和应用设计的重要问题。本文首先通过对国内外并行计算系统度量指标的分析,将当前并行计算系统度量指标分为单一的计算性能度量指标和多要素综合的高效能度量指标两种。其次,总结了这些度量指标的研究现状,并指出这些度量指标研究中存在的一些问题以及需要考虑的难点。由于并行计算系统正在逐渐从"高性能"走向"高效能",本文主要考虑当前大规模并行计算系统的可靠性和能耗要素对系统的影响,从系统可扩展角度建立了可靠并行加速比和能耗并行加速比模型,并进一步扩展为度量并行计算系统效能的综合指标模型。最后指出了未来并行计算系统度量的研究方向。  相似文献   

13.
该文引入speedup作为并行程序的性能评测指标,分析了并行程序在不同类型和不同数量的客户虚拟机中运行的性能差异,实验表明,MPI并行程序在xVM虚拟化环境中的运行性能接近非虚拟化本地主机的性能,在半虚拟化环境中的并行程序性能超过全虚拟化环境中的并行程序性能。  相似文献   

14.
数值并行计算可扩展性评价与测试   总被引:2,自引:1,他引:2  
分析了几种可扩展性能评价模型存在的问题,针对实际评价与测试的需要,提出了一种基于等平均负载的数值并行计算可扩展性评价模型.该评价模型对可扩展性能加速比和可扩展性进行了重新定义,给出了使用该模型的进行可扩展加速比和可扩展性测试的方法,结合曲线拟合或并行计算时间模型可以预测并行系统的可扩展性,对NPB BT,SP和矩阵乘法进行了可扩展性预测.  相似文献   

15.
文中分析了传统基于并行基准测试程序测试方法的不足,针对目前高性能计算机处理机台数多的特点,给出了实用的测试方法,推广了传统加速比的概念,提出了一种可扩展性评价方法。使用文中给出的方法,可方便地对高性能计算机进行测试和性能评价,同时可以使用小规模的并行机测试结果预测大规模并行机的性能。最后给出了NPB在某高
性能计算机上的测试和性能评价结果。  相似文献   

16.
在油藏数值模拟并行计算中,提高计算速度和资源利用率是一个重要的研究方向,给出分布式并行环境下一种多层油藏模拟并行计算的整体优化方法,其特点是使用高效的区域分解方法并行求解,动态选择两种不同的计算粒度,有效地克服了负载不均衡带来的性能下降问题,实际模型计算表明,此方法策略减少了整体模拟计算时间,并获得较高加速比,采用的算法适用于一类多层油藏模型问题。  相似文献   

17.
遥感图像的镶嵌处理具有数据量大,流程复杂,算法处理耗时巨大的特点,并行计算是加速镶嵌处理过程速度的有效手段。但是,传统的并行镶嵌算法由于任务分配采用静态策略,导致计算节点负载不均衡,并行效率不高。同时,由于传统并行镶嵌算法中存在大量非常耗时的数据存取操作,并且在重采样和匀色过程中存在不合理的流程配置,使得并行效率降低,难以得到比较线性的加速比。本文提出的基于动态任务分配和多线程并行I/O的并行镶嵌算法,较好地解决了上述问题,通过对比分析和实验表明,本算法对大规模图像的镶嵌处理,具有较好的并行处理速度,以及理想的线性并行加速比曲线,节点扩展能力较强。  相似文献   

18.
In this paper, a source to source parallelizing compiler system, AutoPar, is presentd. The system transforms FORTRAN programs to multi-level hybrid MPI/OpenMP parallel programs. Integrated parallel optimizing technologies are utilized extensively to derive an effective program decomposition in the whole program scope. Other features such as synchronization optimization and communication optimization improve the performance scalability of the generated parallel programs, from both intra-node and inter-node. The system makes great effort to boost automation of parallelization. Profiling feedback is used in performance estimation which is the basis of automatic program decomposition. Performance results for eight benchmarks in NPB1.0 from NAS on an SMP cluster are given, and the speedup is desirable. It is noticeable that in the experiment, at most one data distribution directive and a reduction directive are inserted by the user in BT/SP/LU. The compiler is based on ORC, Open Research Compiler. ORC is a powerful compiler infrastructure, with such features as robustness, flexibility and efficiency. Strong analysis capability and well-defined infrastructure of ORC make the system implementation quite fast.  相似文献   

19.
The optimized handling of reductions on parallel supercomputers or clusters of workstations is critical to high performance because reductions are common in scientific codes and a potential source of bottlenecks. Yet in many high-level languages, a mechanism for writing efficient reductions remains surprisingly absent. Further, when such mechanisms do exist, they often do not provide the flexibility a programmer needs to achieve a desirable level of performance. In this paper, we present a new language construct for arbitrary reductions that lets a programmer achieve a level of performance equal to that achievable with the highly flexible, but low-level combination of Fortran and MPI. We have implemented this construct in the ZPL language and evaluate it in the context of the initialization of the NAS MG benchmark. We show a 45 times speedup over the same code written in ZPL without this construct. In addition, performance on a large number of processors surpasses that achieved in the NAS implementation showing that our mechanism provides programmers with the needed flexibility.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号