期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

曲海成梁雪剑刘万军籍瑞庆《中国图象图形学报》2015,20(11):1552-1560

目的空间位置检索是遥感影像检索中的关键步骤,为进一步提高海量遥感影像编目数据定位检索效率,降低误检率,提出一种基于MPI和OpenMP混合编程模型对射线法进行多层次并行化实现。方法首先完善传统射线法处理点在多边形边上以及射线与边的端点相交的情况;其次采用MPI实现基于程序层面多机并行,OpenMP实现算法层面单机多线程并行,通过开启多个线程同时处理多边形的各个点,判断它们是否在另一个多边形的内部。结果当系统中所有节点开启线程数之和等于主节点的最佳线程数时,全局计算速度达到最佳。混合并行算法相比串行算法检索时间减少50%以上,效率更高。结论 MPI+OpenMP混合并行比普通的串行执行、单纯MPI并行或单纯OpenMP并行执行空间定位检索算法效率显著提高,这种并行方案普遍适用于集群环境下的并行程序,并且可以进一步拓展到其他图像处理算法领域。相似文献

2.

基于MPI的并行计算集群通信及应用 总被引：4，自引：0，他引：4

罗省贤李录明《计算机应用》2003,23(6):51-53

对能有效解大型稀疏矩阵方程的LSQR串行算法进行了并行化分析，并应用可移植消息传递标准MPI的集群通信机制在分布式存储并行系统上设计和实现了LSQR并行算法，该并行算法和程序在地震表层模型层析反演中得到了有效的应用。相似文献

3.

声波数值模拟中的多核并行方法研究

曹丹平《计算机工程与应用》2012,48(36):9-13

波动方程数值模拟普遍存在计算量大的问题,如何根据波动方程有限差分方法的特点开展并行化方法研究是适应微机多核发展的必然趋势。结合波动方程数值模拟中的多层循环嵌套问题和OpenMP的特点,通过确定循环体并行顺序、减少串行环节、合并循环体、准确设置制导语句以及线程绑定优化等方法有助于实现微机多核的高效并行。针对波动方程特点的多核并行不仅有助于提高单机计算效率,对于提高计算机集群上常用的MPI+OpenMP混合并行效率也具有重要意义。相似文献

4.

MPI通信代码自动生成算法

杜澎赵荣彩董春丽《计算机应用》2007,27(3):759-761

对于高性能并行计算机而言，如何由给出的计算、数据划分信息及精确数组数据流分析信息自动生成并行化代码是实现串行程序并行化的一个重要问题。根据Saman P.Amarasinghe和Lam的定理，实现了一种并行化识别工具中MPI（Message Passing Interface）并行化代码自动生成技术的算法，并对该算法的性能进行分析。相似文献

5.

蚁群算法的三种并行模型分析 总被引：1，自引：0，他引：1

下载免费PDF全文

王磊曹菡王长缨《计算机工程》2011,37(12):170-172

在单机多核下分别构造基于OpenMP和MPI的并行蚁群算法模型,在多核集群机下构造基于MPI和MPI+OpenMP的并行蚁群算法模型,并提出动态蚁群择优策略及分段周期交流策略。基于实际路网的路径寻优问题对上述模型进行比较,实验结果表明,在单机多核下,基于MPI的模型与基于OpenMP的模型相比,运行时间短,加速比高,在多核集群机下,基于MPI+OpenMP的混合模型相比基于MPI的模型,在进程数较多时仍具有较高的加速比。相似文献

6.

基于嵌套循环分类的并行识别技术

赵捷赵荣彩丁锐黄品丰《软件学报》2012,23(10):2695-2704

传统的分布存储并行编译系统大多是在共享存储并行编译系统的基础上开发的.共享存储并行编译系统的并行识别技术适合OpenMP代码生成,实现方式是将所有嵌套循环都按照相同的识别方法进行处理,用于分布存储并行编译系统必然会导致无法高效发掘程序的并行性.分布存储并行编译系统应根据嵌套循环结构的特点进行分类处理,提出适合MPI代码生成的并行识别技术.为解决上述问题,根据嵌套循环的结构和MPI并行程序的特点,提出了一种新的嵌套循环分类方法,并针对不同的嵌套循环分别提出了相应的并行识别技术.实验结果表明,与采用传统并行识别技术的分布存储并行编译系统相比,按照所提方法对嵌套循环进行分类,采用相应并行识别技术的编译系统能够更高效地识别基准程序中的并行循环,自动生成的MPI并行代码其性能加速比提高了20%以上. 相似文献

7.

SMP集群系统上可扩展并行特征问题求解器研究

下载免费PDF全文

赵永华迟学斌姜金荣《计算机工程》2006,32(19):3-5

基于对称三对角特征问题的分而治之方法,提出了一个适合SMP集群环境的多级混合并行算法。SMP节点内的并行求解采用了粗粒度和细粒度两种OpenMP并行。为了改善纯MPI算法中的负载不平衡,混合并行算法使用了动态任务分配方法。在深腾6800上的试验表明,混合并行算法具有好的扩展性和加速比。关键词：SMP集群;MPI+OpenMP;混合并行;并行求解器相似文献

8.

蒙特卡罗程序MCNP-Ⅱ与MCNP-5并行效率比较

邓力张文勇徐涵李刚《计算机工程与科学》2009,31(Z1)

通过MCNP-5程序MPI并行功能开发,与早前作者对MCNP-4C串行程序进行MPI并行化的程序MCNP-Ⅱ进行比较,两个程序均能运行在YH大型并行计算机上,且不同规模、不同处理器的计算结果基本一致。比较显示,MC-NP-Ⅱ在计算效率和并行可扩展性方面均优于MCNP-5。相似文献

9.

模糊C均值聚类算法的并行化研究

张建强郑晓薇吴华平《微型机与应用》2010,29(23)

使用Intel Parallel Amplifier高性能工具,针对模糊C均值聚类算法在多核平台的性能问题,找出串行程序的热点和并发性,提出并行化设计方案.基于Intel并行库TBB(线程构建模块)和OpenMP运行时库函数,对多核平台下的串行程序进行循环并行化和任务分配的并行化设计. 相似文献

10.

基于瓦片算法的并行 QR 分解及其实现

曹冬冬赵永华赵莲《数据与计算发展前沿》2016,7(2):16-24

本文介绍了一种基于瓦片算法的稠密矩阵并行 QR 分解及其实现方法。瓦片算法的思想是将完整的矩阵分块,并使每个块内的数据连续存储。各个瓦片块先独立进行分解,其他块接收当前块分解产生的数据,来更新自身块内的矩阵。我们分别实现了串行瓦片算法和并行瓦片算法,采用基于 MPI 和 OpenMP 混合并行编程模型,在“元”超级计算机上验证了该并行算法,并与 PLASMA 软件包进行对比,程序效率和可扩展性优于 PLASMA。在多个节点上运行时,展现了良好的扩展性。相似文献

11.

基于标记语言的跨平台并行编程框架设计

唐佩佳徐云钟旭阳《计算机系统应用》2020,29(10):82-88

大量遗留的串行代码需要进行并行化改造,而并行程序复杂性及并行计算平台多样性导致改造成本较高.为此,设计了一种基于标记语言的三层并行编程框架,完成了从串行程序层到并行中间代码层、并行中间代码层到目标并行编程语言程序层的二个转换阶段.采用对串行代码进行语言标记的方法来实现并行中间代码层,该代码层实际是共享存储、分布式存储并行平台编程语言的一种抽象.该框架还实现了一种性能标记方法,可用于并行参数自动寻优.用于雷达数据处理的实验结果表明,实现了对应并行代码的生成,且并行加速比与人工实现的并行代码相当. 相似文献

12.

GPS L5并行码相位捕获算法仿真分析

下载免费PDF全文

徐贵州张雷胡以华《计算机工程》2011,37(4):290-292

GPS L5信号是GPS现代化中一个新的民用信号。基于此,从Galileo信号及其捕获算法的简单分析引入GPS L5信号并行码相位搜索的研究,并对GPS L5信号的捕获进行仿真分析。通过研究表明,在GPS L5并行码信号捕获中,双信道并行码相位搜索算法的捕获能力最强但计算量最大。pilot channel并行码相位搜索算法的计算量与data channel并行码相位搜索算法的计算量相同,但捕获能力比双信道并行码相位搜索算法强。相似文献

13.

MCNP-4C多粒子输运蒙特卡罗程序的MPI并行化 总被引：1，自引：0，他引：1

邓力张文勇《数值计算与计算机应用》2006,27(1):52-59

三维连续截面多粒子输运蒙特卡罗程序MCNP-4C-经过MPI并行改造,实现了MPI 并行化．采用分段随机数发生器,并行取得了与串行完全一致的结果,500个处理器的计算速度较串行提高了460倍,并行效率达到92％,可计算包括临界在内的多粒子输运问题．相似文献

14.

A parallel CFD rotor code using OpenMP

《Advances in Engineering Software》2001,32(8):665-671

The extended full-potential (FPX) helicopter rotor computational fluid dynamics (CFD) code of Fortran in its reduced two-dimensional version is successfully converted into a parallel version for multiprocessing. The FPX code with an internal grid generator solves the compressible full-potential equation using an approximately factored finite-difference scheme with added numerous physical modeling enhancements, including viscous boundary layers, shock-induced entropy corrections and wake-vortex embedding. The parallel version of the code uses open multi-processing (OpenMP) directives as parallel programming tool in shared-memory (SM) environment. The OpenMP code is portable and scalable, which can run on various computer platforms including UNIX platforms and Windows NT platforms. The performance study of the parallel code on SGI Origin 2000 UNIX platform is made. The results show that reasonable speedups through parallelization are obtained and that OpenMP is easy to use and an efficient parallel programming tool for the present problem. 相似文献

15.

自发荧光成像中光子传输蒙卡仿真的并行实现

杨薇杨鑫代晓倩王珊骆劼徐敏《计算机科学与探索》2009,3(2):198-209

在生物自发光成像领域,将基于蒙特卡罗方法的光子前向传输仿真进行并行化,提高了仿真的速度。首先介绍了所采用的一系列并行机制和串行加速算法,然后分别对并行仿真结果进行正确性验证和性能验证,并与软件MOSE、triMC3D的结果进行了对比,最后对该并行平台进行了总结和展望。相似文献

16.

支持并行模拟的Verilog编译技术研究与实现

李暾李思昆郭阳刘功杰《计算机工程与应用》2002,38(16):184-187

并行HDL模拟是加速大型复杂的VLSI系统模拟验证的有效方法，支持并行模拟的HDL编译技术是其中的关键技术，文章提出了一种支持并行模拟的Verilog编译技术，编译器将Verilog描述转换成C＋＋代码，最后与并行模拟核心库编译链接生成可执行并行程序。文章将编译器构成，代码生成方法和并行模拟核心库，该技术已经在并行Verilog模拟器ParaVer上实现。相似文献

17.

Code compaction for parallel architectures

Kasi Anantha Fred Long 《Software》1990,20(6):537-554

There are two principal methods used to exploit the parallelism available on a parallel machine: the program to be executed can be optimized by hand, or the program can be automatically converted to parallel machine code by a compiler. The first method usually derives parallelism at the procedure level; a parallel program is written in a high-level language and typically has various modules executing in parallel. By contrast, the compiler methodically transforms the program into parallel code using various transformations, such as code movement. The automatic conversion of a program to parallel code is called compaction or parallelization. This paper describes the evolution of a new compaction program and presents a new algorithm for determining legal code movements. A simulator of the target architecture was used to estimate the execution times of a sample suite of programs before and after compaction. The results verify that substantial advantages arise from applying this compaction technique. 相似文献

18.

用户指导的并行化策略的研究与实现

刘勇陆鑫达《计算机工程》2005,31(4):71-73,84

提出的用户指导的并行化策略,提供给程序员一个图形化的交互界面,首先由程序员选择并行算法,然后通过配置向导对所选择的并行算法进行定制,生成配置文件,然后参照配置文件自动生成并行程序的框架代码,并将程序员提供的元任务的串行代码嵌入到框架代码中,最后生成并行程序,这样程序员就可以较方便高效地编写并行程序了。相似文献

19.

并行应用程序中一些实用并行优化技术

左风丽郭勤张宝琳谭荣乐《计算机工程与应用》2001,37(5):83-85

在某个共享存储式对称多处理（SMP）并行计算机上实现了应用程序（二维弹塑性流体动力学程序）的并行化。该并行计算机系统仅支持对FORTRAN DO循环结构的并行化。文章结合并行机的高性能特征,组织了该程序主体模块的并行化计算,同时给出解决Cache问题的一个实用并行优化技术。数据结果表明：有比较好的加速比。相似文献

20.

Explicit nonlinear dynamic finite element analysis on homogeneous/heterogeneous parallel computing environment

《Advances in Engineering Software》2006,37(11):701-720

This paper presents parallel computational strategies to implement explicit nonlinear finite element analysis code onto distributed memory parallel computers for solving large-scale problems in structural dynamics. Implementation details on both homogeneous and heterogeneous parallel processing environments are considered in detail in this paper. Implementation of an explicit nonlinear finite element dynamic analysis code on homogeneous systems is discussed first and this is later moved onto heterogeneous systems. Domain decomposition with explicit message passing is preferred for parallel implementation. The message passing implementation in the parallel algorithm is based on MPI (Message Passing Interface) libraries. Implementation aspects of overlapped, non-overlapped domain decomposition techniques, Dynamic Task Allocation (DTA) and clustering techniques for DTA and their relative merits are presented. The interprocessor communications are optimised by overlapping with computations to improve the performance of the domain decomposition based explicit dynamic analysis finite element code.The issues related to implementation of finite element code for nonlinear dynamic analysis on heterogeneous parallel computing environment are later presented. A new dynamic load-balancing algorithm is developed for this purpose and it is integrated with the domain decomposition based parallel explicit finite element code to test our algorithms on a coarse grain heterogeneous cluster of workstations. Numerical experiments have been carried out on PARAM-10000, an Indian parallel computer and also on cluster of Unix workstations. 相似文献