期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

MPI在CT并行重建中的应用 总被引：1，自引：0，他引：1

孙翠丽路宏年《计算机工程与应用》2005,41(17):7-8,12

CT图像重建计算量巨大,为了达到理想的重建时间,并行处理很有必要,CT图像重建过程各个子空间相互独立,具有很好的并行性。采用基于消息传递接口(MPI)的并行算法充分利用了CT图像重建的这个特性,以平行束重建为例,采用卷积反投影重建算法进行CT图像重建过程的并行实现进行分析,实验结果证明,并行处理和单机处理重建结果完全一致,并且能够达到比较理想的加速比,可以扩展到CT的其他重建算法。相似文献

2.

Aztec在混凝土细观数值模拟中的应用研究

下载免费PDF全文

吴建平赵军宋君强张卫民马怀发《计算机工程与应用》2014,50(13):234-238

细观数值模拟是混凝土性能研究的一种重要手段,但稀疏线性方程组求解在总体模拟时间中所占比重很大。由于属于三维问题,且规模很大,所以采用预条件Krylov子空间迭代是必由之路。Aztec是国际上专门设计用于求解稀疏线性方程组的软件包之一,由于目前混凝土细观数值模拟中的稀疏线性方程组对称正定,所以利用Aztec中提供的CG迭代法进行求解,并对多种能保持对称性的预条件选项进行了实验比较。结果表明,在基于区域分解的并行不完全Cholesky分解、无重叠对称化GS迭代、最小二乘等预条件技术中,第一种的效率最高,且在重叠度为0,填充层次为0时,效果最好;实验结果还表明,在本应用问题中,用RCM排序一般导致求解时间更长,从而没有必要采用。相似文献

3.

双CPU计算服务器MPI并行环境的实现及其在生物大分子动力学模拟中的应用

马国正南俊民《计算机与应用化学》2007,24(8):1092-1094

在Red Hat Linux 9.0操作系统环境下,通过建立双CPU服务器,并采用MPICH并行技术,实现双CPU的并行计算。采用分子动力学模拟程序Amber 7.0分析双CPU并行系统的计算效率,结果表明:该并行系统能够有效地利用现有计算资源,同时计算效率得到较大幅度地提高。在该系统的基础上,采用分子动力学模拟计算生物大分子核酸与药物小分子复合物,在分子水平上提供了较详细、明确的结构变化情况。相似文献

4.

多Agent并行遗传算法在地震勘探属性优化中的应用

刘其成郑纬民《计算机科学》2010,37(4):234

研究了基于多Agent的并行遗传算法,并将其应用于石油勘探的属性优化。针对常规遗传算法的不足,采用Agent构建多Agent系统实现了基于粗粒度的并行遗传算法,该算法能从进化环境中获取表征当前进化状态的有用信息,智能地监控调度GA的进化操作,在避免早熟的同时加快全局寻优,提高遗传算法搜索的效率,同时具有通讯开销小的特点。将该方法用于地震勘探属性优化,取得了良好的效果。相似文献

5.

气象应用基准测试程序MM5 Benchmark并行性能优化

下载免费PDF全文

朱小谦张卫民宋君强胡庆丰《计算机工程与科学》2010,32(12):102

由美国国家大气研究中心(NCAR)和宾夕法尼亚大学(PSU)共同开发的MM5模式是目前气象领域广泛采用的中尺度模式之一。由于MM5模式的广泛应用和计算特点,MM5 Benchmark成为了高性能计算领域衡量计算机实用性能的典型应用之一。本文介绍了MM5模式的并行计算方法,针对目前流行的Intel Itanium-2 CPU特点,在性能分析的基础上,从编译选项、代码优化、区域分解、处理机拓扑结构等方面对程序性能进行优化。实际测试结果表明,在某国产巨型机上优化后的持续计算性能最大提高20%左右。相似文献

6.

并行遗传算法在工程智能优化中的实现策略

崔明义《计算机工程与应用》2004,40(18):90-91,119

遗传算法在工程智能优化中的应用较为广泛,但遗传算法的运算效率却直接影响了其在工程中的应用,该文分析了用并行遗传算法提高遗传算法运算效率的策略,并将其应用到工程智能优化中,取得了较为满意的效果,得出了有意义的结论。相似文献

7.

基于OpenMP/MPI并行编程模型的N体问题的优化实现

祝永志续士强禹继国《计算机工程与应用》2016,52(5):16-21

多核集群的层次化并行编程模型一直是高性能计算的研究热点。以SMP集群为例,从硬件上可分为节点间和节点内的两层架构。阐述了层次化并行编程的实现技术,针对N体问题算法进行了基于Hybrid并行编程模型的并行化研究。提出了一种块同步MPI/OpenMP细粒度N体问题的优化算法。基于曙光TC5000A集群,将该算法与传统的N体并行算法进行了执行时间与加速比的比较,得出了几句总结性具体论述。相似文献

8.

Calculix三级并行优化及其在天河二号超级计算机中的应用

姜文超林穗王多强李东明金海《计算机科学》2017,44(3):32-35

针对开源有限元软件Calculix传统计算模式在大规模数值计算中的低效问题,提出了Calculix三级并行优化策略,即预处理并行优化、节点间并行调度以及节点内多核多线程并行改造。预处理并行优化在方程组分解过程中与分解过程后,分别对其参数矩阵进行有条件的动态舍弃,据此构造了部分列选主元多行双门槛不完全LU分解预处理算法,并对算法的可行性、有效性以及收敛性给出了证明。为充分发挥TH-2超级计算机强大的资源优势,相继给出了基于QoS的节点间任务动态调度算法,以及节点内多核多线程并行任务调度算法,进一步实现计算任务与资源之间的优化匹配和QoS需求。在实验环节中搭建了针对天河二号(TH-2)超级计算环境的有限元并行计算与分析平台,并完成了针对船舶疲劳强度分析问题的实际工程应用测试。理论分析与工程算例测试结果充分证明:Calculix三级并行优化方案能够有效提高Calculix求解线性方程组的速度,在可获取足够计算资源的前提下, 与传统计算模式相比 ,实际工程算例的计算速度平均提高了2～4倍。相似文献

9.

高阶精度CFD应用在天河2系统上的异构并行模拟与性能优化

王勇献张理论车永刚徐传福刘巍程兴华《计算机研究与发展》2015,(4):833-842

在当前主流的众核异构高性能计算机平台上开展超大规模计算流体力学（computational fluid dynamics ,CFD）应用的高效并行数值模拟仍然面临着一系列挑战性技术问题,也是该领域的热点研究问题之一．面向天河2高性能异构并行计算平台,针对高阶精度C FD流场数值模拟程序的高效并行进行了探索,重点讨论了C FD应用特点与众核异构高性能计算机平台特征相适应的性能优化策略,从任务分解、并行度挖掘、多线程优化、SIMD向量化、CPU与加速器协同优化等方面,提出一系列性能提升技术．通过在天河2高性能异构并行计算平台上进行了多个算例的数值模拟,模拟的最大C FD规模达到1228亿个网格点,共使用约59万C P U＋M IC处理器核,测试结果表明移植优化后的程序性能提高2．6倍左右,且具有良好的可扩展性．相似文献

10.

GPU并行优化技术在水利计算中的应用综述

下载免费PDF全文

覃金帛曾志强梁藉杨明祥张健《计算机工程与应用》2018,54(3):23-29

水利计算是水利规划、设计以及运行的基础,提高水利计算的效率对水利信息化和水资源管理具有重要实践意义。通过技术对比发现,GPU（Graphics Processing Unit）并行优化技术是性价比较高的提速策略。系统概述了GPU并行优化技术在水利计算中的应用进展;简要介绍了当前应用较多的几种并行技术;建设性提出了该项技术在水库调度、中长期水文预报和水文模型计算中的应用前景和优势;详细总结了应用该项技术的一般方法,为技术推广提供指导。最后从学科发展和应用需求的角度,有针对性的提出了技术应用难点和今后发展趋势,以期为GPU并行优化技术在水利计算中的应用提供借鉴。相似文献

11.

基于MPI的FDTD并行算法及其优化策略 总被引：1，自引：1，他引：0

徐藻王毅李琳曹群生《计算机仿真》2009,26(3)

由高性能PC机通过网络互联构成的集群(COW)并行计算系统上应用基于消息传递(Message Passing)的方式实现FDTD的并行算法,获得了足够的加速比,有效地解决了传统的FDTD方法计算电大尺寸目标电磁散射问题时的不足.通过区域分割,各个子区域在边界处与其相邻的子区域进行场值的数据传递,从而实现了FDTD算法的并行化.利用并行FDTD方法研究了电磁波的介质层的散射,结果表明并行算法和串行计算结果的一致性,并有效提高计算效率.最后还给出了对算法进行通信隐藏的优化方法,进一步提高了并行计算的效率. 相似文献

12.

基于事件分析的并行调试与监测分析技术

张慧成王华杜祝平魏鸿《计算机工程与应用》2002,38(19):45-47

该文在对并行调试技术进行深入分析的基础上,重点研究了基于事件分析的并行调试与监测分析技术,并对其设计与实现方法进行了详细探讨。相似文献

13.

一种并行调试与监测分析软件的体系结构设计 总被引：1，自引：0，他引：1

张慧成谢余强王华魏鸿《计算机工程》2003,29(8):5-7

在对并行调试技术进行深入分析的基础上，对并行程序调试及性能分析工具软件的体系结构设计进行了详细的探讨，并指出了该软件体系结构设计的长处所在。相似文献

14.

高精度湍流直接数值模拟程序的异构并行优化分析

张天文李新亮张鉴陆忠华《数据与计算发展前沿》2015,6(5):3-11

在众核处理器应用中,主要难点在于异构并行应用模式和负载均衡的策略,对于计算流体力学,需要针对相关应用设计相应的方案。我们针对湍流直接数值模拟中串行程序含有部分并行度较高的子程序或函数的特点,设计了一种新的并行计算模式,给出了一种异构平台优化方案,并在中科院超级计算系统"元"上进行了测试和分析,对领域内的典型算例进行了性能测试,着重讨论了不同规模下采用offload模式的CPU和MIC异构并行的扩展性能。相似文献

15.

Parallelization of MIN3P-THCm: A high performance computational framework for subsurface flow and reactive transport simulation

《Environmental Modelling & Software》2017

This paper presents the development of ParMIN3P-THCm, a parallel version of the reactive transport code MIN3P-THCm, which can run efficiently on machines ranging from desktop PCs to supercomputers. Parallelization of ParMIN3P-THCm was achieved through the domain decomposition method based on the PETSc library. The code has been developed from the ground up for parallel scalability and has been tested for up to 768 processors with problem sizes up to 100 million unknowns, showing strong scalability in modeling large-scale reactive transport problems. The total speedup tends to be ideal and near linear up to 768 processors when the degrees of freedom per processor is larger than 8000–15,000, depending on the relative complexity of the reactive transport and flow problems. The improved code efficiency allows refining of the model discretization in both space and time and will facilitate 3D simulations that were impractical to carry out with the sequential version of MIN3P-THCm. 相似文献

16.

A Parallel Grid Modification and Domain Decomposition Algorithm for Local Phenomena Capturing and Load Balancing

Daoqi Yang 《Journal of scientific computing》1997,12(1):99-117

Lion's nonoverlapping Schwarz domain decomposition method based on a finite difference discretization is applied to problems with fronts or layers. For the purpose of getting accurate approximation of the solution by solving small linear systems, grid refinement is made on subdomains that contain fronts and layers and uniform coarse grids are applied on subdomains in which the solution changes slowly and smoothly. In order to balance loads among different processors, we employ small subdomains with fine grids for rapidly-changing-solution areas, and big subdomains with coarse grids for slowly-changing-solution areas. Numerical implementations in the SPMD mode on an nCUBE2 machine are conducted to show the efficiency and accuracy of the method. 相似文献

17.

基于CUDA的并行粒子群优化算法研究及实现

陈风田雨波杨敏《计算机科学》2014,41(9):263-268

应用图形处理器(GPU)来加速粒子群优化(PSO)算法并行计算时,为突出其加速性能,经常有文献以恶化CPU端PSO算法性能为代价。为了科学比较GPU-PSO算法和CPU-PSO算法的性能,提出用"有效加速比"作为算法的性能指标。文中给出的评价方法不需要CPU和GPU端粒子数相同,将GPU并行算法与最优CPU串行算法的性能作比较,以加速收敛到目标精度为准则,在统一计算设备架构(CUDA)下对多个基准测试函数进行了数值仿真实验。结果表明,在GPU上大幅增加粒子数能够加速PSO算法收敛到目标精度,与CPU-PSO相比,获得了10倍以上的"有效加速比"。相似文献

18.

星系分组算法的并行设计与优化:SGI系统与分布式集群对比

司雨濛韦建文 Simon SEE 林新华《计算机科学》2017,44(10):80-84

Halo-based Galaxy Group Finder (HGGF) 是一种有效的星系分组算法,它根据星系的空间位置、红移、质量等多种属性将星系分组,从而为星系组的形成与演化研究提供重要依据。但是,算法当前的OpenMP实现版本仅能利用单节点提供的资源,在大规模星系分组问题上的应用受到限制。一种优化思路是采用多机并行,使其可以利用更多资源来解决更大规模的星系分组问题,并缩短执行时间。因此,有必要对算法重新进行设计与实现。实现此目标的一大挑战是程序中存在大量半随机性远端内存访问,其在多机并行环境下会对性能造成重大影响。为克服这一难题,设计中提出了邻接星系链表思想,并采用Unified Parallel C (UPC)进行程序实现。对于核代码部分,使用4,8,16节点时,可分别取得2.25,2.78,5.07倍的加速比;同时,对单个节点的内存需求也显著减少。OpenMP版本在SGI UV 2000上的实验结果显示,受限于程序的访存特性与机器体系架构的特点,类似HGGF算法这种具有随机数据访问特征的程序,很难有效利用NUMA结构的共享内存系统中提供的大规模线程与内存资源来直接取得高加速比。在分布式内存集群上采用两级并行设计,以更好地利用局部性原理,可能是更好的解决方案。相似文献