期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

许德政赵林等《计算机工程》2001,27(7):46-47,87

使用基于MPI并行编程方法对Fortran77串行计算程度进行并行处理,主要工作在循环级的可并行性研究和并行实现。文中给出并行代码在国家高性能计算中心（合肥）的曙光－1000机上运行的并行加速比以及相应的系统并行效率。相似文献

2.

程海英张武《计算机工程与设计》2004,25(11):1961-1963,2011

根据解反应扩散方程的自适应样条小波-交替方向(SW-ADI)方法,使用MPI、OpenMP两种并行编程模式,对串行程序进行了直接并行化,并在上海大学的高性能计算机自强2000上分别用MPI和OpenMP实现了对方程的求解。对运算结果进行了分析并给出了与串行程序相比较的并行加速比。相似文献

3.

一种跨平台的并行编程框架设计与实现

《计算机工程》2014,(8)

并行程序设计的复杂性及并行计算平台的多样性导致程序可移植性较差。为此,设计并实现一种跨平台、分层次的并行编程框架OpenCH。该框架通过两层并行函数库和层次化的API设计,对上层应用程序隐藏并行化细节,为基于不同计算平台的库函数设计了统一的函数接口,使底层平台的变化对上层应用程序透明。根据底层函数库的开发,给出一种填充式的编程方法和任务调度系统。将OpenCH应用于遥感影像分类,实验结果证明,基于该框架开发的并行程序可运行于多种并行计算平台,并具有较高的并行加速比,编程框架本身造成的时间开销低于15%。相似文献

4.

求解三对角方程组的两种并行方法比较

程海英谢江邵华钢《计算机应用与软件》2010,27(11)

求解偏微分方程组是许多流体力学问题的数值模拟中所碰到的关键问题之一,但是设计相应的并行算法并实现都会碰到开发周期长,难度大的问题.介绍的可移植可扩展科学计算工具箱PETSc(Portable,Extensible Toolkit for Scientific Computation)突破性地解决了这一问题,它能够实现自动并行处理.通过求解三对角方程问题实例,并和基于MPI(message passing interface)方法手工编写的并行代码作了比较,给出了并行性能的分析结果. 相似文献

5.

基于SMP集群系统的并行编程模式研究与分析

宋伟宋玉《微机发展》2007,17(2):164-167

并行计算技术是计算机技术发展的重要方向之一,SMP与集群是当前主流的并行体系结构。当前并行程序设计方法主要采用基于消息传递模型的MPI和基于共享存储模型的OpenMP,两种编程模式各有特点和适用范围。对SMP集群以及MPI和OpenMP的特点进行了分析,介绍了在SMP集群系统中利用MPI和OpenMP混合编程的可行性方法。相似文献

6.

曙光高性能计算机在数值预报模式中的应用

王俊超彭涛冯光柳《计算机技术与发展》2014,(10):178-181

文中首先介绍了中国气象局武汉暴雨研究所高性能计算机应用现状和目前的模式业务系统,针对气象预报模式精细化对计算能力的更高需求,中国气象局武汉暴雨研究所采用曙光高性能计算机集群对原有集群系统进行升级,升级后的计算节点CPU可提供11.40 TFlops的双精浮点计算能力;其次,讨论了升级后的高性能计算机几个关键技术的现状并对未来进行展望;最后以WRF模式为例,对升级后的高性能计算机的性能进行了分析,得到了较好的加速比。结果表明：新升级的集群系统将大大节省区域高分辨数值预报模式运算时间,有助于提高科研成果的转化效率。相似文献

7.

MPI自动并行化编译系统中消息传递代码生成算法

陈达智赵荣彩姚远韩林《计算机科学》2012,39(6):301-304

传统MPI自动并行化编译系统从数据重分布的角度,生成面向分布式存储系统的消息传递程序,但是大量数据重分布通信的额外开销导致其加速比低。为了解决此问题,在基于Open64的MPI自动并行化编译系统后端,提出了一种消息传递代码生成算法。该算法以统一数据分布为中心,根据给定的并行化循环集和通信数组集,通过修改WHIRL表示的串行代码语法结构树,生成更精确的消息传递代码。实验结果表明,该算法能够较大程度地降低消息传递程序的通信开销,并且明显提升其加速比。相似文献

8.

有限差分法的并行化计算实现

王伟潘建伟《数字社区&智能家居》2008,(3):1339-1342

有限差分法是求解偏微分方程近似解的一种重要的数值方法。串行算法并不能高效的解决大规模复杂计算问题,并行化计算方法可提高复杂计算问题的效率．从而使并行机上计算有限差分问题成为可能。二维场中拉普拉斯方的差分程格式非常适合并行化方法的计算,将串行部分并行化以提高大规模计算的效率具有重要的现实意义。MPI（消息传递接口）是实现并行程序设计的标准之一。虚拟进程（MPI_PROC_NULL）的引用简化了MPI编程中的通信部分,串行算法可更改为并行化计算方法,最终实现有限差分方法的并行化计算。相似文献

9.

有限差分法的并行化计算实现

王伟潘建伟《微型电脑应用》2008,24(5):62-64

有限差分法是求解偏微分方程近似解的一种重要的数值方法。并行化计算可提高复杂计算问题的效率,二维场中拉普拉斯方程的差分格式非常适合并行化方法的计算。如何将串行部分并行化以提高大规模计算的效率,MPI（消息传递接口）是实现并行程序设计的标准之一。虚拟进程（MPI_PROC_NULL）是MPI中的假想进程,它的引用可简化MPI编程中的通信部分,引入虚拟进程编写代码,可实现有限差分方法的并行化计算。相似文献

10.

并行程序设计及实现

张绍辉《软件导刊》2009,(4)

并行计算是指将顺序执行的计算任务分成可以同时执行的子任务,并行执行这些子任务,从而完成整个计算任务。并行计算不仅仅是一种获得高性能的手段,它同时也具有将计算能力从单个处理器扩展到多个处理器的潜力。相似文献

11.

CRC码串并结合算法的研究与实现

王月琴杨恒新《计算机技术与发展》2014,(6):103-106

CRC码以其算法简单、检错能力强、抗干扰性能优异等特点,广泛应用于各种通信协议中。这里在分析CRC串行算法和并行算法的基础上,提出串并结合的算法。CRC循环冗余串并结合算法相比CRC串行编码,大大提高了计算速率;相比CRC并行编码,克服了通信中数据位非8的整数倍的问题。以CRC-ITU生成多项式为例,通过仿真,验证了该算法的正确性和可行性。相似文献

12.

大规模并行计算机系统并行性能模拟技术研究 总被引：2，自引：0，他引：2

徐传福车永刚王正华《计算机科学》2009,36(9):7-10

性能模拟技术是计算机系统性能评价的重要手段.介绍了面向大规模并行计算机系统以及消息传递应用程序的并行性能模拟技术,总结了相关的关键技术和国内外研究现状.对几个代表性的并行模拟器系统进行了详细介绍.结合并行计算机系统和应用的发展趋势,讨论了未来并行模拟器设计、实现面临的问题和可能的解决方案. 相似文献

13.

Optimization and Performance of a Fortran 90 MPI-Based Unstructured Code on Large-Scale Parallel Systems

Shires Dale Mohan Ram 《The Journal of supercomputing》2003,25(2):131-141

The message-passing interface (MPI) has become the standard in achieving effective results when using the message passing paradigm of parallelization. Codes written using MPI are extremely portable and are applicable to both clusters and massively parallel computing platforms. Since MPI uses the single program, multiple data (SPMD) approach to parallelism, good performance requires careful tuning of the serial code as well as careful data and control flow analysis to limit communication. We discuss optimization strategies used and their degree of success to increase performance of an MPI-based unstructured finite element simulation code written in Fortran 90. We discuss performance results based on implementations using several modern massively parallel computing platforms including the SGI Origin 3800, IBM Nighthawk 2 SMP, and Cray T3E-1200. 相似文献

14.

一种适于串行机实现的图像并行细化算法 总被引：2，自引：0，他引：2

王家隆郭成安《中国图象图形学报》2004,9(1):112-117

为解决现有的图像并行细化算法在串行机上的高效实现问题 ,首先提出了一种 4× 4邻域二值图像的双字节图像编码方案 ,由于在该方案中将每个 4× 4邻域的像素用一个双字节的整数来表示 ,从而将基于整个邻域 16个像素的细化处理转化为一个双字节整数的读、写和比较运算的问题 ;然后在此基础上提出了一种可在串行机上实现的并行细化算法。实验证明 ,该算法适用于当前通用的各种基于模板匹配的并行细化算法 ,其不仅可以取得完全相同的细化结果 ,而且可以大幅度提高图像细化过程在串行机上的执行速度 ;最后简要讨论了该算法利用 PC机中的 MMX技术来进一步提高并行粒度和运算效率方面所具有的潜力相似文献

15.

Design and Implementation of a Practical Parallel Delaunay Algorithm 总被引：1，自引：0，他引：1

G. E. Blelloch G. L. Miller J. C. Hardwick D. Talmor 《Algorithmica》1999,24(3-4):243-269

This paper describes the design and implementation of a practical parallel algorithm for Delaunay triangulation that works well on general distributions. Although there have been many theoretical parallel algorithms for the problem, and some implementations based on bucketing that work well for uniform distributions, there has been little work on implementations for general distributions. We use the well known reduction of 2D Delaunay triangulation to find the 3D convex hull of points on a paraboloid. Based on this reduction we developed a variant of the Edelsbrunner and Shi 3D convex hull algorithm, specialized for the case when the point set lies on a paraboloid. This simplification reduces the work required by the algorithm (number of operations) from O(n log ² n) to O(n log n) . The depth (parallel time) is O( log ³ n) on a CREW PRAM. The algorithm is simpler than previous O(n log n) work parallel algorithms leading to smaller constants. Initial experiments using a variety of distributions showed that our parallel algorithm was within a factor of 2 in work from the best sequential algorithm. Based on these promising results, the algorithm was implemented using C and an MPI-based toolkit. Compared with previous work, the resulting implementation achieves significantly better speedups over good sequential code, does not assume a uniform distribution of points, and is widely portable due to its use of MPI as a communication mechanism. Results are presented for the IBM SP2, Cray T3D, SGI Power Challenge, and DEC AlphaCluster. Received June 1, 1997; revised March 10, 1998. 相似文献

16.

一种并行乘法器的设计与实现 总被引：1，自引：0，他引：1

王新刚樊晓桠李瑛齐斌《计算机应用研究》2004,21(7):135-137

根据补码的特点对Booth2算法进行了改进,在得到部分积的基础上,采用平衡的42压缩器构成的Wallace树对部分积求和,再用专门的加法器对Wallace产生的结果进行求和得到最终结果。用Verilog硬件语言进行功能描述,并用Design_analyzer对其进行综合,得出用这种改进Booth2算法实现的乘法器比传统的CSA阵列乘法器速度快、规模较大的结论。相似文献

17.

一种新型抗干扰32位串行编码及其实现 总被引：4，自引：2，他引：2

徐虎冯金富《计算机测量与控制》2005,13(9):988-990

针对航空系统电磁干扰严重,普通串行信号不能满足可靠性传输要求,详细介绍了某航空系统采用的32位串行码,此编码抗干扰性强,可靠性高;并基于单片机设计了该编码的发送、接收电路,用来实现32位串行码与普通串行码之间的相互转换;实践证明该系统运行稳定,可靠. 相似文献

18.

多CPU微机数据并行处理系统的研究与实现

张龙军巩青歌《微机发展》1998,8(5):33-35

本文从计算机数据处理的实际需要出发，在对ＴＭＳ３２０Ｃ２５单片计算机和ＰＣ机处理数据进行研究的基础上，讨论了由两片ＴＭＳ３２０Ｃ２５构成的并行加速卡与ＰＣ机组成的硬件环境实现的有关问题。相似文献

19.

试谈多核并行运算 总被引：1，自引：0，他引：1

孔一伦《电脑编程技巧与维护》2010,(16):118-119

通过对比传统顺序计算与多线程计算,阐述了在高数据流条件下使用并行计算的必要性,并介绍了实现方式,简要说明了与并行相关的一些技术。相似文献

20.

基于CUDA的并行AES算法的实现和加速效率探索

费雄伟李肯立阳王东杜家宜《计算机科学》2015,42(1):59-62,74

网络应用服务(尤其是电子银行和电子商务)需要数据加密提供安全通信.很多应用服务器面临着执行大量计算稠密的加密挑战.CUDA(统一计算架构)是在GPU进行并行和通用计算的平台,能够利用现有显卡资源,以低成本的方式提升加密性能.在Nvidia GeForce G210显卡上实现CUDA的AES(高级加密标准)并行算法并且在AMD Athlon 7850上实现串行AES算法.实现的AES并行算法避免了同一线程块的线程同步和通信,提升了GPU的加速性能,加速比要比Manavski的AES-128并行算法提升2.66～3.34倍.在大数据量(至32MB)加密环境下探索AES并行算法的性能模型,并首次从加速效率角度分析加速性能.该并行AES算法在16核的GPU上能最高达到15.83倍的加速比和99.898％的加速效率. 相似文献