共查询到20条相似文献,搜索用时 93 毫秒
1.
使用基于MPI并行编程方法对Fortran77串行计算程度进行并行处理,主要工作在循环级的可并行性研究和并行实现。文中给出并行代码在国家高性能计算中心(合肥)的曙光-1000机上运行的并行加速比以及相应的系统并行效率。 相似文献
2.
根据解反应扩散方程的自适应样条小波-交替方向(SW-ADI)方法,使用MPI、OpenMP两种并行编程模式,对串行程序进行了直接并行化,并在上海大学的高性能计算机自强2000上分别用MPI和OpenMP实现了对方程的求解。对运算结果进行了分析并给出了与串行程序相比较的并行加速比。 相似文献
3.
4.
求解偏微分方程组是许多流体力学问题的数值模拟中所碰到的关键问题之一,但是设计相应的并行算法并实现都会碰到开发周期长,难度大的问题.介绍的可移植可扩展科学计算工具箱PETSc(Portable,Extensible Toolkit for Scientific Computation)突破性地解决了这一问题,它能够实现自动并行处理.通过求解三对角方程问题实例,并和基于MPI(message passing interface)方法手工编写的并行代码作了比较,给出了并行性能的分析结果. 相似文献
5.
并行计算技术是计算机技术发展的重要方向之一,SMP与集群是当前主流的并行体系结构。当前并行程序设计方法主要采用基于消息传递模型的MPI和基于共享存储模型的OpenMP,两种编程模式各有特点和适用范围。对SMP集群以及MPI和OpenMP的特点进行了分析,介绍了在SMP集群系统中利用MPI和OpenMP混合编程的可行性方法。 相似文献
6.
文中首先介绍了中国气象局武汉暴雨研究所高性能计算机应用现状和目前的模式业务系统,针对气象预报模式精细化对计算能力的更高需求,中国气象局武汉暴雨研究所采用曙光高性能计算机集群对原有集群系统进行升级,升级后的计算节点CPU可提供11.40 TFlops的双精浮点计算能力;其次,讨论了升级后的高性能计算机几个关键技术的现状并对未来进行展望;最后以WRF模式为例,对升级后的高性能计算机的性能进行了分析,得到了较好的加速比。结果表明:新升级的集群系统将大大节省区域高分辨数值预报模式运算时间,有助于提高科研成果的转化效率。 相似文献
7.
8.
有限差分法是求解偏微分方程近似解的一种重要的数值方法。串行算法并不能高效的解决大规模复杂计算问题,并行化计算方法可提高复杂计算问题的效率.从而使并行机上计算有限差分问题成为可能。二维场中拉普拉斯方的差分程格式非常适合并行化方法的计算,将串行部分并行化以提高大规模计算的效率具有重要的现实意义。MPI(消息传递接口)是实现并行程序设计的标准之一。虚拟进程(MPI_PROC_NULL)的引用简化了MPI编程中的通信部分,串行算法可更改为并行化计算方法,最终实现有限差分方法的并行化计算。 相似文献
9.
有限差分法是求解偏微分方程近似解的一种重要的数值方法。并行化计算可提高复杂计算问题的效率,二维场中拉普拉斯方程的差分格式非常适合并行化方法的计算。如何将串行部分并行化以提高大规模计算的效率,MPI(消息传递接口)是实现并行程序设计的标准之一。虚拟进程(MPI_PROC_NULL)是MPI中的假想进程,它的引用可简化MPI编程中的通信部分,引入虚拟进程编写代码,可实现有限差分方法的并行化计算。 相似文献
10.
11.
CRC码以其算法简单、检错能力强、抗干扰性能优异等特点,广泛应用于各种通信协议中。这里在分析CRC串行算法和并行算法的基础上,提出串并结合的算法。CRC循环冗余串并结合算法相比CRC串行编码,大大提高了计算速率;相比CRC并行编码,克服了通信中数据位非8的整数倍的问题。以CRC-ITU生成多项式为例,通过仿真,验证了该算法的正确性和可行性。 相似文献
12.
13.
The message-passing interface (MPI) has become the standard in achieving effective results when using the message passing paradigm of parallelization. Codes written using MPI are extremely portable and are applicable to both clusters and massively parallel computing platforms. Since MPI uses the single program, multiple data (SPMD) approach to parallelism, good performance requires careful tuning of the serial code as well as careful data and control flow analysis to limit communication. We discuss optimization strategies used and their degree of success to increase performance of an MPI-based unstructured finite element simulation code written in Fortran 90. We discuss performance results based on implementations using several modern massively parallel computing platforms including the SGI Origin 3800, IBM Nighthawk 2 SMP, and Cray T3E-1200. 相似文献
14.
一种适于串行机实现的图像并行细化算法 总被引:2,自引:0,他引:2
为解决现有的图像并行细化算法在串行机上的高效实现问题 ,首先提出了一种 4× 4邻域二值图像的双字节图像编码方案 ,由于在该方案中将每个 4× 4邻域的像素用一个双字节的整数来表示 ,从而将基于整个邻域 16个像素的细化处理转化为一个双字节整数的读、写和比较运算的问题 ;然后在此基础上提出了一种可在串行机上实现的并行细化算法。实验证明 ,该算法适用于当前通用的各种基于模板匹配的并行细化算法 ,其不仅可以取得完全相同的细化结果 ,而且可以大幅度提高图像细化过程在串行机上的执行速度 ;最后简要讨论了该算法利用 PC机中的 MMX技术来进一步提高并行粒度和运算效率方面所具有的潜力 相似文献
15.
This paper describes the design and implementation of a practical parallel algorithm for Delaunay triangulation that works
well on general distributions. Although there have been many theoretical parallel algorithms for the problem, and some implementations
based on bucketing that work well for uniform distributions, there has been little work on implementations for general distributions.
We use the well known reduction of 2D Delaunay triangulation to find the 3D convex hull of points on a paraboloid. Based on
this reduction we developed a variant of the Edelsbrunner and Shi 3D convex hull algorithm, specialized for the case when
the point set lies on a paraboloid. This simplification reduces the work required by the algorithm (number of operations)
from O(n log
2
n) to O(n log n) . The depth (parallel time) is O( log
3
n) on a CREW PRAM. The algorithm is simpler than previous O(n log n) work parallel algorithms leading to smaller constants.
Initial experiments using a variety of distributions showed that our parallel algorithm was within a factor of 2 in work
from the best sequential algorithm. Based on these promising results, the algorithm was implemented using C and an MPI-based
toolkit. Compared with previous work, the resulting implementation achieves significantly better speedups over good sequential
code, does not assume a uniform distribution of points, and is widely portable due to its use of MPI as a communication mechanism.
Results are presented for the IBM SP2, Cray T3D, SGI Power Challenge, and DEC AlphaCluster.
Received June 1, 1997; revised March 10, 1998. 相似文献
16.
17.
一种新型抗干扰32位串行编码及其实现 总被引:4,自引:2,他引:2
针对航空系统电磁干扰严重,普通串行信号不能满足可靠性传输要求,详细介绍了某航空系统采用的32位串行码,此编码抗干扰性强,可靠性高;并基于单片机设计了该编码的发送、接收电路,用来实现32位串行码与普通串行码之间的相互转换;实践证明该系统运行稳定,可靠. 相似文献
18.
本文从计算机数据处理的实际需要出发,在对TMS320C25单片计算机和PC机处理数据进行研究的基础上,讨论了由两片TMS320C25构成的并行加速卡与PC机组成的硬件环境实现的有关问题。 相似文献
19.
试谈多核并行运算 总被引:1,自引:0,他引:1
孔一伦 《电脑编程技巧与维护》2010,(16):118-119
通过对比传统顺序计算与多线程计算,阐述了在高数据流条件下使用并行计算的必要性,并介绍了实现方式,简要说明了与并行相关的一些技术。 相似文献
20.
网络应用服务(尤其是电子银行和电子商务)需要数据加密提供安全通信.很多应用服务器面临着执行大量计算稠密的加密挑战.CUDA(统一计算架构)是在GPU进行并行和通用计算的平台,能够利用现有显卡资源,以低成本的方式提升加密性能.在Nvidia GeForce G210显卡上实现CUDA的AES(高级加密标准)并行算法并且在AMD Athlon 7850上实现串行AES算法.实现的AES并行算法避免了同一线程块的线程同步和通信,提升了GPU的加速性能,加速比要比Manavski的AES-128并行算法提升2.66~3.34倍.在大数据量(至32MB)加密环境下探索AES并行算法的性能模型,并首次从加速效率角度分析加速性能.该并行AES算法在16核的GPU上能最高达到15.83倍的加速比和99.898%的加速效率. 相似文献