首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 187 毫秒
1.
随着粒子模拟并行计算在相关领域应用的不断深入和并行节点计算能力的不断增强,粒子模拟并行程序中通信耗时对整体性能的影响越来越显著,甚至成为主要性能瓶颈.本文在分析影响并行程序通信性能多种因素的基础上,从进程划分方式选择、通信协议优化的角度,对1个典型粒子模拟并行程序——二维宏观拟颗粒并行模拟程序在千兆以太网环境下的通信性能的优化策略进行了测试研究,通过改进并行进程划分方式,采用用户级通信协议等方法,使测试程序通信性能获得明显提高,进而提出了粒子模拟并行程序通信性能优化的思路和建议.  相似文献   

2.
陈镐缨 《计算机学报》1993,16(4):312-314
对于大多数用户来说,完成并行算法设计之后,在程序调试中遇到的最大困难莫过于如何正确解决任务之间的通信问题,若这个问题解决不当,往往会对整个程序的并行效率产生致命的影响。Farm技术能使并行程序的主任务与所有子任务间的通信通过一个“透明”的通信网实现,它对以下类型的问题,能够大幅度地提高程序设计效率,并且能够保证程序在通信上保持较高的效率:(1)所有并行的子任务具有相同的操作模式;(2)  相似文献   

3.
孙敏  孙济洲  于策 《计算机工程与设计》2007,28(11):2513-2515,2523
并行结构骨架理论提供了一种描述并行程序设计模式的通用模型,对设计模式进行更高层次的抽象,能有效解决基于设计模式的并行程序设计方法的局限性问题,降低并行程序设计开发难度.基于并行结构骨架的并行程序设计环境--PASBPE在并行结构骨架理论的基础上,使用参数化设置快速生成用户所需并行程序框架,同时通过可视化的程序设计交互环境,简化并行程序的开发过程,提高开发效率.  相似文献   

4.
在分布式存储系统上,MPI已被证实是理想的并行程序设计模型。MPI是基于消息传递的并行编程模型,进程间的通信是通过调用库函数来实现的,因此MPI并行程序中,通信部分代码的效率对该并行程序的性能有直接的影响。通过用集群通信函数替代点对点通信函数以及通过派生数据类型和建立新通信域这两种方式,两次改进DNS的MPI并行程序实现,并通过实验给出一个优化MPI并行程序的一般思路与方法。  相似文献   

5.
边缘海静力数值模式是国内针对边缘海特点自主开发的数值预报模式,但该模式因物理求解方程较多且采用不宜并行化的SOR求解算法而程序计算时间过长。针对上述问题,提出基于三维网格和海洋模式特点的SOR并行求解算法,该算法在保留三维网格数据间依赖关系的同时,有效解决了SOR迭代算法难以并行化的问题。同时,引入通信避免算法,采用MPI非阻塞通信方式,细分计算和通信过程,利用计算有效隐藏通信开销,提高了并行程序效率。实验结果表明,并行后的边缘海静力数值模式程序的性能相对串行程序提升了60.71倍,3天(25920计算时间步)预报结果的均方根误差低于0.001,满足海洋数值预报的时效性和精度要求。  相似文献   

6.
基于模式的并行编程环境中任务队列模式的研究与实现   总被引:1,自引:0,他引:1  
并行程序的设计是并行计算的难点之一。本文在基于模式的并行编程方法的基础上,对一种典型的并行计算与通信模式-任务队列模式进行了深入的研究,并在基于模式的并行编程环境中对该模式进行了实现。本文将通过两个典型的应用实例说明在基于模式的并行编程环境中使用任务队列模式进行问题的并行求解与并行程序开发的过程,并从实现效率和可编程性方面对使用任务队列模式的并行程序和传统的MPI/PVM实现的并行程序进行了分析与比较。  相似文献   

7.
近年来,网格计算技术日益成为用来解决数据和计算密集型应用的可行方案,网格运行平台本身和在网格环境中的并行应用都需要大量的点对多点的群组通信.提出一种灵活、可容错的群组通信机制.该机制基于远程方法调用(RMI),可为分布式并行应用提供高效、可容错的群组通信.通信方法可以在本地对象、远程对象,或一组对象中激活.这种通信采用异步方式,通信发起者可以选择全等待或必要性等待两种机制来获取通信结果.从而最大程度地保证通信的可靠性或高效性.  相似文献   

8.
三维地震声波理论与计算方法是地质勘探研究的基础,通过分析不同介质中声波的传播特性,完成三维地震声波正演模拟。针对三维地震声波有限差分交错网格方程正演过程中存在数值计算大、内存消耗大等实际问题,提出了基于神威·太湖之光超级计算机系统中国产异构众核处理器(申威26010)的三维地震声波正演模拟编程模型,完成了基于处理器间的进程级并行基于计算核心间的线程级并行优化策略。研究了DMA(直接内存读取)通信方式,提出2.5D流水线任务划分、通信与计算的相互掩盖的多角度优化策略。实验结果表明,该策略有效缓解了带宽瓶颈,发挥了处理器强大的计算能力,解决了程序在申威26010异构众核处理器处理有限差分问题时,并行效率过低的问题。在大规模测试下,使用266240个计算核心,程序仍能够保持稳定的计算性能,达到5.5 GFlops的场值更新。  相似文献   

9.
基于安腾2的机群系统的实现与应用   总被引:2,自引:0,他引:2       下载免费PDF全文
本文设计并实现了一个基于安腾2处理器的机群计算系统,并结合安腾2处理器和机群系统的特性,对气象应用并行程序进行了I/O问题优化、通信优化、计算代价优化和通信数据的Cache利用率优化,以发挥该机群系统的长处,规避其弱点。测试结果表明,该机群系统适合气象应用并行软件的高效并行计算。  相似文献   

10.
作为颗粒离散元软件并行化的前期研究,对二维稳态导热问题的有限差分法求解程序进行了并行化处理.并行算法将计算域划分为若干个子域,并将各子域上的迭代计算任务分配给相应的处理器执行.同时,算法考虑负载平衡,并采用计算和通信的重叠技术,提高并行算法的效率.通过对二维稳态温度场导热问题的串/并行程序在曙光TC2600刀片服务器上的计算结果进行比较分析,验证了该并行方法的有效性.实验结果表明,计算耗时与通信耗时的比值越大,并行效率越高.  相似文献   

11.
由于现有的聚类算法还存在一些问题,研究了如何用和声搜索算法快速寻找最优的聚类中心,对于和声搜索算法也进行了一些改进.为了获得最佳的类中心数,采用了半监督方式循环测试各种中心数情况下的聚类质量.考虑到各维特征属性对聚类效果影响不同,采用了维度加权的方法进行特征选择.所有这些措施都是为了达到一个更好的聚类效果.实验结果表明,该聚类算法性能优于其它同类算法.算法被应用于并行计算性能分析中,用于区分和识别并行机的各个处理器运行性能类别.  相似文献   

12.
In this paper we deal with the numerical simulation of time dependent three-dimensional thermal convection on the array processor DAP 510. Applying finite differences in combination with a pressure correction method to the underlying non-linear system of partial differential equations, we reduce the numerical solution of the problem to the solution of a sequence of sparse linear systems. Using polynomial preconditioned conjugate gradient methods for the solution of these systems results in a highly parallel algorithm for the simulation of the considered flows on the DAP 510. Using this parallel algorithm, data can be mapped in different ways onto the processor array. Depending on the number of grid points, several methods are shown. Numerical experiments illustrate the capabilities of the proposed algorithm.  相似文献   

13.
基于二维/轴对称高精度可压缩多相流计算流体力学方法 MuSiC-CCASSIM的结构化网格部分,设计了区域并行分解方法;针对各处理器边界数据的通信,设计了阻塞式通信与非阻塞式通信并行算法;为了减少通信开销,设计了MPI/OpenMP混合并行优化算法。在天河二号超级计算机上进行了测试,每个核固定网格规模为625*250,最多调用8 192核。测试数据表明,采用MPI/OpenMP混合并行算法、纯MPI非阻塞式通信并行算法和纯MPI阻塞式通信并行算法的程序的平均并行效率分别达到86%、83%和77%,三种算法都具有良好的可扩展性。  相似文献   

14.
It has been difficult to develop simple formulations to predict the execution time of parallel programs due to the complexity of characterizing parallel hardware and software. In an attempt to clarify these characterizations, we introduce a methodology for applying a simple performance model based on Amdahl′s law. Our formulation results in accurate predictions of execution time on available systems, allowing programmers to select the optimal number of processors to apply to a particular problem or to select an appropriate problem size for the number of processors available. In short, we accurately quantify the scalability of a specific algorithm when it is run on a specific parallel computer. Our predictions are based on simple experiments that characterize machine performance and on a simple analysis of the parallel program. We illustrate our method for a program executed on a Sequent Symmetry multiprocessor with 20 processors. Our predictions closely match experimental results, differing by no more than 5% from the actual execution times. Our results illustrate key performance limitations of parallel systems, showing the impact of overhead and the scaling of problem size.  相似文献   

15.
基于流处理器的图像灰度变换并行处理研究   总被引:1,自引:0,他引:1  
提出了一种基于流处理器的图像灰度变换并行处理系统.该系统采用Strom-1 系列SP16HP-G220流数字信号处理器构建硬件平台,根据流处理器体系结构特点建立了适应图像灰度变换并行处理的流程序模型,并对图像灰度变换进行算法并行性分析与算法流化.对利用流化过的算法与传统灰度变换算法进行了对比实验.实验结果表明,灰度变换...  相似文献   

16.
We present a program to simulate the dynamics of a wave packet interacting with a time-dependent potential. The time-dependent Schrödinger equation is solved on a one-, two-, or three-dimensional spatial grid using the split operator method. The program can be compiled for execution either on a single processor or on a distributed-memory parallel computer.  相似文献   

17.
针对具有独立DVFS的多核处理器系统,提出了一种K线程低能耗模型的并行任务调度优化算法(Tasks Optimization based on Energy-Effectiveness Model,TO-EEM)。与传统的并行任务节能调度相比,该算法的主要目标是不仅通过降低处理器频率来减少处理器瞬时功耗,而且结合并行任务间的同步互斥所造成的线程阻塞情况,合理分配线程资源来减少线程同步时间,优化并行性能;保证任务在一定的并行加速比性能前提下,提高资源利用率,减少能耗,达到程序能耗和性能之间的折衷。文中进行了大量模拟实验,结果证明提出的任务优化模型算法节能效果明显,能有效降低处理器的功耗,并始终保持线性加速比。  相似文献   

18.
To solve the load imbalance problem of a solution-adaptive finite element application program on a distributed memory multicomputer, nodes of a refined finite element graph can be remapped to processors or load of a refined finite element graph can be redistributed based on the current load of each processor. For the former case, remapping can be performed by some fast mapping algorithms. For the latter case, a load-balancing algorithm can be applied to balance the computational load of each processor. In this paper, three tree-based parallel load-balancing methods, the MCSTLB method, the BTLB method, and the CBTLB method, were proposed to deal with the load imbalance problems of solution-adaptive finite element application programs. To evaluate the performance of the proposed methods, we have implemented those methods along with three mapping methods, the AE/ORB method, the AE/MC method, and the MLkP method, on an SP2 parallel machine. Three criteria, the execution time of mapping/load-balancing methods, the execution time of a solution-adaptive finite element application program under different mapping/load-balancing methods, and the speedups achieved by mapping/load-balancing methods for a solution-adaptive finite element application program, are used for the performance evaluation. The experimental results show that 1) if the initial mapping is performed by a mapping method and the same mapping method and load-balancing methods were used in each refinement to balance the load of processors, the execution time of an application program under a load-balancing method is always shorter than that of the mapping method, and 2) the execution time of an application program under the CBTLB method is shorter than that of the BTLB method and the MCSTLB method  相似文献   

19.
针对传统的生物计算中DNA序列保守序列的识别(模体识别)和最长公共子序列计算需要较大的数据量、计算量,以及功耗大等问题,文中提出了两种基于PAAG多态并行处理器的并行算法,该并行处理器能够支持数据、线程、指令多种并行。通过编程在PAAG多态并行处理的处理单元( PE)上开发了相应的串行和并行程序,将计算的不同过程分派到不同的处理单元( PE)上进行处理,实现了不同粒度算法的并行。实验结果表明,文中提出的并行算法使模体识别和最长公共子序列的计算效率得到明显提高。  相似文献   

20.
The problem of finding an optimal product sequence for sequential multiplication of a chain of matrices (the matrix chain ordering problem, MCOP) is well-known. We consider the problem of finding an optimal product schedule for evaluating a chain of matrix products on a parallel computer (the matrix chain scheduling problem, MCSP). The difference between MCSP and MCOP is that MCOP pertains to a product sequence for single processor systems and MCSP pertains to a sequence of concurrent matrix products for parallel systems. The approach of parallelizing each matrix product after finding an optimal product sequence for single processor systems does not always guarantee minimum evaluation time on parallel systems since each parallelized matrix product may use processors inefficiently. We introduce a new processor scheduling algorithm for MCSP which reduces the evaluation time of a chain of matrix products on a parallel computer, even at the expense of a slight increase in the total number of operations. Given a chain of n matrices and a matrix product utilizing at most P/k processors in a P-processor system, the proposed algorithm approaches k(n-1)/(n+klog(k)-k) times the performance of parallel evaluation using the optimal sequence found for MCOP. Experiments performed on a Fujitsu AP1000 multicomputer also show that the proposed algorithm significantly decreases the time required to evaluate a chain of matrix products in parallel systems.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号