期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

许彦芹陈庆奎《计算机工程与设计》2010,31(15)

为了研究GPU的通用计算能力和适合SMP集群的编程模型,首次提出MPI+CUDA多粒度混合并行编程的新方法,节点间采用MPI实现粗粒度并行,节点内采用CUDA实现细粒度并行的混合编程方式.利用此方法在搭建的3节点SMP集群环境中,测试了大规模矩阵乘问题的并行计算能力.实验结果表明,该方法能够显著提升并行效率,同时证明MPI+CUDA混合编程模型能够充分发挥SMP集群节点间分布式存储和节点内共享内存的优势,为装有CUDA-enabled GPU的SMP集群提供了一种有效的并行策略. 相似文献

2.

混合并行技术在激光化学反应模拟中的应用 总被引：2，自引：0，他引：2

李鸿健白明泽唐红孙世新《计算机应用》2010,30(6):1687-1689

为提高激光化学反应模拟效率,在半经典分子动力学模拟中引入混合并行技术和双层并行思想。基于MPI+OpenMP混合模型设计并实现激光化学反应双层并行模拟算法,上层基于MPI实现节点间的原子分解并行,下层基于OpenMP实现节点内的多线程矩阵并行乘法。在SMP集群中测试表明,模拟大分子体系激光化学反应并行效率可达60%以上。因此,应用混合并行技术可有效提高激光化学反应模拟效率。相似文献

3.

基于SMP集群的三维网格多粒度混合并行编程模型 总被引：2，自引：0，他引：2

于方郑晓薇孙晓鹏《计算机应用与软件》2009,26(3)

为提高大规模三维网格并行算法的执行效率,针对SMP集群分布/共享两级内存层次结构的特点,介绍适用于SMP集群混合编程的不同实现方法.对三维网格模型最短路径问题的并行求解提出了多粒度混合并行编程模型,给出了实现该问题的MPI+OpenMP混合并行算法,并在SMP集群上同粗粒度MPI(Message Passing Interface)并行算法做了性能比较.结果表明,采用该多粒度混合并行编程模型具有更好的加速比和运行效率. 相似文献

4.

近程作用分子动力学模拟的两级并行

王小伟郭力杨章远《计算机与应用化学》2003,20(5):639-642

分子动力学作为一种重要的计算手段在许多领域有着广泛的应用，由于它的计算量比较庞大，因此并行计算方法被越来越多地引入到分子动力学的模拟中。本文在目前常见的SMP集群系统上，根据系统的结构特点，针对分子动力学的三种并行算法：区域分解法、原子分解法和力分解法，利用MPI Pthread的混合编程模型，采用节点间消息传递模式以及节点内部共享存储的编程模式，实现了近程作用分子动力学的两级并行计算。计算结果表明，不同的算法采用了两级并行的方式和原来只有消息传递的并行方式相比，具有不同的计算效率，但是从总体来说采用两级并行的计算方式可以利用更多的计算资源，从而有助于提高计算能力。相似文献

5.

基于SMP集群的多层次并行编程模型与并行优化技术* 总被引：4，自引：0，他引：4

单莹吴建平王正华《计算机应用研究》2006,23(10):254-256

详细描述了适用于SMP集群这种多层次并行体系结构的混合并行编程模型MPI／OpenMP,它提供了实现SMP节点间和节点内多层次并行的机制。在此基础上结合实用的性能评价方法,分别介绍了MPI,OpenMP和单处理器三个层次上的一些常用和有效的并行优化技术,并指出单处理器性能优化是提高并行程序性能一个不容忽视的问题。相似文献

6.

基于SMP集群系统的并行编程模式研究与分析

宋伟宋玉《微机发展》2007,17(2):164-167

并行计算技术是计算机技术发展的重要方向之一,SMP与集群是当前主流的并行体系结构。当前并行程序设计方法主要采用基于消息传递模型的MPI和基于共享存储模型的OpenMP,两种编程模式各有特点和适用范围。对SMP集群以及MPI和OpenMP的特点进行了分析,介绍了在SMP集群系统中利用MPI和OpenMP混合编程的可行性方法。相似文献

7.

基于SMP集群系统的并行编程模式研究与分析 总被引：4，自引：1，他引：4

宋伟宋玉《计算机技术与发展》2007,17(2):164-168

并行计算技术是计算机技术发展的重要方向之一，SMP与集群是当前主流的并行体系结构。当前并行程序设计方法主要采用基于消息传递模型的MPI和基于共享存储模型的OpenMP，两种编程模式各有特点和适用范围。对SMP集群以及MPI和OpenMP的特点进行了分析，介绍了在SMP集群系统中利用MPI和OpenMP混合编程的可行性方法。相似文献

8.

并行编程模型的研究与发展

董仁举祝永志《计算机技术与发展》2011,21(1)

并行编程模型在分布式计算中发挥着很重要的作用,随着人们对高性能计算需求的不断扩大和各种新技术的出现,并行编程模型也处于不断的发展和完善之中.对两种主要的编程模型进行了详细的分析和研究,针对前两种模型的优缺点分析并研究了两级并行模型的使用范围和优势等,最后针对硬件的新发展提出了新的编程模型的发展TBB+MPI.并在基于CMP的集群系统中实现丁矩阵相乘的算法.实验结果显示TBB+MPI在多核集群编程方面有明显的优势,因此模型TBB+MPI更适合于多核集群. 相似文献

9.

WKBZ简正波模型混合并行计算方法研究

范培勤刘晓妍过武宏崔宝龙《计算机工程与科学》2020,42(3):404-410

针对水声传播模型的计算量大,难以满足实时化、精细化水下声传播信息保障需求的难题,基于MPI+OpenMP混合并行编程方法,开展了WKBZ简正波模型混合并行计算方法研究,实现了水下声场2级混合并行计算。该方法通过节点间消息传递、节点内内存共享的方式,有效克服了MPI并行编程模型通信开销大和OpenMP并行编程环境可扩展性差的缺点,较好地解决了水下声传播快速计算的问题。测试结果表明,该方法能够较好地利用SMP集群节点间和节点内多级并行机制,充分发挥消息传递编程模型和共享内存编程模型各自的优势,大幅降低MPI进程间通信带来的时间开销,有效提升程序的可扩展性和并行效率。相似文献

10.

TBB多核编程及其混合编程模型的研究 总被引：7，自引：0，他引：7

胡斌袁道华《计算机技术与发展》2009,19(2)

多核处理器越来越普及,如何通过软件技术最大提升CPU每个核心的使用率,成为热点问题.引入多核并行编程模型Threading Building Blocks,并与raw threads、OpenMP进行各方面详细比较,分析了其优劣.并研究了TBB结合MPI在SMP集群系统上实现高效的混合并行计算应用的方法.最终发现TBB在多核编程方面有显著的优势.TTB和MPI的结合,又为多核处理器结点集群提供了并行层次化结构,大大优化集群的性能. 相似文献

11.

GRAPES动力框架中大规模稀疏线性系统并行求解及优化

张琨贾金芳严文昕黄建强王晓英《计算机工程》2022,48(1):149-154+162

赫姆霍兹方程求解是GRAPES数值天气预报系统动力框架中的核心部分,可转换为大规模稀疏线性系统的求解问题,但受限于硬件资源和数据规模,其求解效率成为限制系统计算性能提升的瓶颈。分别通过MPI、MPI+OpenMP、CUDA三种并行方式实现求解大规模稀疏线性方程组的广义共轭余差法,并利用不完全分解LU预处理子（ILU）优化系数矩阵的条件数,加快迭代法收敛。在CPU并行方案中,MPI负责进程间粗粒度并行和通信,OpenMP结合共享内存实现进程内部的细粒度并行,而在GPU并行方案中,CUDA模型采用数据传输、访存合并及共享存储器方面的优化措施。实验结果表明,通过预处理优化减少迭代次数对计算性能提升明显,MPI+OpenMP混合并行优化较MPI并行优化性能提高约35%,CUDA并行优化较MPI+OpenMP混合并行优化性能提高约50%,优化性能最佳。相似文献

12.

分形计算的并行设计及TBB实现 总被引：1，自引：0，他引：1

陈荣鑫陈维斌廖湖声《计算机应用》2011,31(3):839-842

线程构建模块(TBB)基于模板的特点简化了并行化设计,适合高效地实现多核并行设计。针对分形计算具有计算密集和高耗时的特点,结合TBB并行化设计,以充分利用多核计算资源。对影响并行性能的计算负载不平衡问题,提出了基于采样估算的平衡优化方法,通过采样执行时间来估算工作负载,据此进行均衡的任务划分,利用TBB任务调度实现并行处理。实验结果表明,采样估算精度高,耗时比率低,能有效实现负载均衡;基于TBB的实现可获得较好加速比。相似文献

13.

面向层次化NoC的混合并行编程模型 总被引：1，自引：0，他引：1

下载免费PDF全文

曹祥易伟潘红兵高明伦李丽《计算机工程》2010,36(13):278-280

为更好发挥多核处理器的硬件性能,针对层次化的片上网络架构,提出MPI/OpenMP混合并行编程模型。运用基于MPI的任务级并行模型实现片内簇间的高效通信,采用OpenMP模型实现簇内四核的通信、同步和数据交换。实验结果表明,与单一并行编程模型相比,混合并行编程模型加速比提高了20%~50%。相似文献

14.

A hybrid MPI–OpenMP scheme for scalable parallel pseudospectral computations for fluid turbulence

Pablo D. Mininni Duane Rosenberg Raghu Reddy Annick Pouquet 《Parallel Computing》2011,37(6-7):316-326

A hybrid scheme that utilizes MPI for distributed memory parallelism and OpenMP for shared memory parallelism is presented. The work is motivated by the desire to achieve exceptionally high Reynolds numbers in pseudospectral computations of fluid turbulence on emerging petascale, high core-count, massively parallel processing systems. The hybrid implementation derives from and augments a well-tested scalable MPI-parallelized pseudospectral code. The hybrid paradigm leads to a new picture for the domain decomposition of the pseudospectral grids, which is helpful in understanding, among other things, the 3D transpose of the global data that is necessary for the parallel fast Fourier transforms that are the central component of the numerical discretizations. Details of the hybrid implementation are provided, and performance tests illustrate the utility of the method. It is shown that the hybrid scheme achieves good scalability up to ～20,000 compute cores with a maximum efficiency of 89%, and a mean of 79%. Data are presented that help guide the choice of the optimal number of MPI tasks and OpenMP threads in order to maximize code performance on two different platforms. 相似文献

15.

基于二维结构化网格的可压缩流体并行算法研究

皇甫永硕刘杰龚春叶《计算机工程与科学》2017,39(9):1602-1609

基于二维/轴对称高精度可压缩多相流计算流体力学方法 MuSiC-CCASSIM的结构化网格部分,设计了区域并行分解方法;针对各处理器边界数据的通信,设计了阻塞式通信与非阻塞式通信并行算法;为了减少通信开销,设计了MPI/OpenMP混合并行优化算法。在天河二号超级计算机上进行了测试,每个核固定网格规模为625*250,最多调用8 192核。测试数据表明,采用MPI/OpenMP混合并行算法、纯MPI非阻塞式通信并行算法和纯MPI阻塞式通信并行算法的程序的平均并行效率分别达到86%、83%和77%,三种算法都具有良好的可扩展性。相似文献

16.

基于TBB的二维DCT并行化设计

陈荣鑫杨岳斌《微计算机应用》2011,32(11)

线程构造块(TBB)能简化并行化设计,支持高效地实现多核并行功能.给出面向多核计算的二维DCT的并行化方法,并利用TBB平台实现;针对高耗时的余弦计算,利用查表和分块计算措施进行优化,并探讨粒度设置方法.在多核环境中的实验结果表明,优化后的并行化方法能有效改善执行性能,获得较好的加速比,且具备可扩展性. 相似文献

17.

Parallel Implementation of a Low Order Algorithm for Dynamics of Multibody Systems on a Distributed Memory Computing System

S. Duan K.S. Anderson 《Engineering with Computers》2000,16(2):96-108

In this paper, a new hybrid parallelisable low order algorithm, developed by the authors for multibody dynamics analysis, is implemented numerically on a distributed memory parallel computing system. The presented implementation can currently accommodate the general spatial motion of chain systems, but key issues for its extension to general tree and closed loop systems are discussed. Explicit algebraic constraints are used to increase coarse grain parallelism, and to study the influence of the dimension of system constraint load equations on the computational efficiency of the algorithm for real parallel implementation using the Message Passing Interface (MPI). The equation formulation parallelism and linear system solution strategies which are used to reduce communication overhead are addressed. Numerical results indicate that the algorithm is scalable, that significant speed-up can be obtained, and that a quasi-logarithmic relation exists between time needed for a function call and numbers of processors used. This result agrees well with theoretical performance predictions. Numerical comparisons with results obtained from independently developed analysis codes have validated the correctness of the new hybrid parallelisable low order algorithm, and demonstrated certain computational advantages. 相似文献

18.

基于可视化库和信息传递接口云图显示的并行化处理

刘伟辉唐鹏宋安平刘智翔徐磊张武《计算机应用》2015,35(11):3178-3181

基于可视化库(VTK)可视化技术的特点,讨论可视化流水线机制和并行程序的基本结构.针对计算流体力学可视化后处理实现的问题,介绍和使用VTK颜色映射算法,并编写对计算流体力学结果数据彩色云图显示的程序.然后为了解决时间开销大的问题,提出了并行显示算法.该算法充分利用VTK任务间的并行性,减少程序运行时间,提高运行效率.最后在多核环境下,对大小不同的文件彩色云图显示的加速比进行了对比分析.实验结果显示了随压力变化的彩色云图,表明基于VTK可视化技术能满足可视化后处理方面的要求,与信息传递接口(MPI)结合能取得很好的并行效果. 相似文献