期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

赵军宋君强孔金珠《计算机工程与设计》2002,23(6):53-55,28

并行应用软件系统移植是应用巨型机、更早发挥巨型机性能的更快捷、更经济的一种技术途径，同时又是比较复杂、难度较大的任务。针对基于MPI并行环境的并行应用软件系统的移植，提出了“包装”MPI的一种解决方案。实践证明，该方法简单、高效，并可推广至基于PVM环境的并行应用软件系统的移植工作中。相似文献

2.

MPI集群通信技术浅析

CHEN Yan HAO Li-rui 《数字社区&智能家居》2008,(23)

简要介绍了集群系统,指出其用于并行计算的工作原理,重点介绍MPI并行环境及其通信技术,并分析了MPI并行程序中的基本模式及其采用的通信技术。最后对构建MPI并行环境的集群系统进行了展望。相似文献

3.

基于Docker的MPI和OpenMP混合编程

赵博颖肖鹏张力《计算机与现代化》2018,(5):60

针对当前搭建集群并行系统复杂且耗时等问题,提出基于Docker搭建并行系统。介绍轻量级虚拟化技术Docker的核心概念和基本架构,并基于Docker技术在Linux平台上搭建集群并行开发环境。简要阐述并行计算的思想,叙述MPI和OpenMP并行计算的基本概念和特点,针对矩阵并行乘法的算法建立MPI和OpenMP的混合编程模型,并给出混合编程模型与MPI并行编程模型以及OpenMP并行编程模型的性能对比,分析出现差异的原因。基于该混合编程模型比较Docker与传统物理机两者搭建的并行系统的并行效率。相似文献

4.

基于 MPI ＋OpenMP 的红外弱小目标检测并行计算

贺维维吴京曾瑶源《计算机与现代化》2014,(7):53-57

为有效监控红外弱小目标运动的全过程，必须采用多个波段同时探测，但是多波段探测必然带来计算时间的大幅增长，无法满足实际应用中对目标检测实时性的要求。针对这一问题，本文提出一种基于MPI＋OpenMP的层次化并行方法，充分利用消息传递模型和共享存储模型的优势，并基于多处理器节点集群进行测试。实验结果表明，该并行程序在保证相同的检测概率的情况下加速比达到8．61，极大地提高了目标检测的效率。相似文献

5.

基于混合并行的Kriging插值算法研究

吴博高超谢健《计算技术与自动化》2014,(1):65-68

普通Kriging方法是进行空间降水插值的一种有效方法。然而一方面由于海量数据插值计算量大,另一方面该算法的时间复杂度大,为减少空间降水插值的计算时间,采用OpenMP和MPI混合并行技术,实现Kriging并行算法。在Windows操作系统上搭建并行计算环境,实验数据表明,该并行算法能有效地节省计算时间。相似文献

6.

MPI并行调试与优化策略在三维绕流气体运动论数值模拟中的应用

徐金秀李志辉尹万旺《计算机科学》2012,39(5):300-303

从求解三维绕流问题的Boltzmann模型方程的数值模拟程序出发,通过研究区域分解并行计算策略,引入输入/输出、通信与CACHE等优化策略,对数值模拟程序进行MPI并行化移植与高性能计算调试。以高空稀薄过渡流区飞行器绕流状态为算例,进行了MPI大规模并行计算测试,证实了所发展的MPI并行化区域分解策略及程序优化途径的正确性。研究表明开展的并行化实现能明显地缩短模式计算时间,并取得较好的效果。相似文献

7.

基于集群的MPI主从式并行文件传输系统的研究与实现 总被引：1，自引：0，他引：1

龚梅王鹏《电子技术应用》2007,33(11):121-124

研究并实现了一种基于PC集群系统的MPI主从式并行文件传输系统。通过引入一个监控节点实时监控当前各真实节点上的连接数、请求任务量以及各节点的实际处理能力,并衡量不同内容节点的负载,以实现集群内各节点负载均衡,从而更合理地实现并行文件I/O的任务分配。结果显示,该系统具有近似线性加速比,即文件I/O传输速度随着并行节点数量的增多而提高。相似文献

8.

基于MPI＋OpenMP混合模型的并行地震数据处理支撑库的研究 总被引：1，自引：1，他引：1

下载免费PDF全文

李肯立杨进彭成斌秦云川《计算机工程与科学》2007,29(12):136-139

计算机集群技术已经引起了石油地球物理界的广泛关注，如何将现有地震数据处理模块快速、高效地移植到集群上已成为地震数据处理需要解决的重大课题。本文将现有的基于消息传递（MPI）的并行地震处理模型与共享存储（OpenMP）模型相结合，实现了一个适合于SMP集群的并行地震数据支撑库，将涉及到消息传递的并行地震数据操作以直观的API的形式提供给开发人员。本文利用支撑库提供的API开发了一些测试模块。实验证明，支撑库可支持现有地震数据处理和显示模块的多种并行计算模型，并且能够获得较高的并行加速比和计算效率。相似文献

9.

一种新的MPI Allgather算法及其在万亿次机群系统上的实现与性能分析 总被引：4，自引：0，他引：4

陈靖张云泉张林波袁伟《计算机学报》2006,29(5):808-814

给出一个新的MPI Allgather算法--邻居交换算法（neighbor exchange）.提出的平均逻辑通信距离的概念和计算公式,可以有效地衡量通信的局部性.通过分析,发现在4种MPI Allgather算法中,邻居交换和环算法均具有最优的通信局部性.在万亿次机群深腾6800和曙光4000A上对4个MPI Allgather算法进行的性能测试和分析结果表明,邻居交换算法的长消息通信性能最优,中长消息通信性能不稳定,短消息通信性能次于递归倍增和Bruck算法. 相似文献

10.

MPI程序容错系统的分析和设计

下载免费PDF全文

张庆成金海张浩《计算机工程与科学》2005,27(6):89-92

MPI是大规模集群和网格平台中最通用的编程环境,但其运行环境经常会因为节点或网络的故障而出现错误,所以有必要为MPI编程提供容错机制。本文分析了实现MPI程序容错的关键技术,并针对运行MPICH-P4的LINUX集群,利用检查点和消息日志技术,通过改造和扩充MPI底层的P4通信库,提出了一套MPI程序容错系统的具体实施方案。相似文献

11.

ACP理论的平行执行方式分类研究

伦淑娴《自动化学报》2012,38(10):1602-1608

针对人工系统、计算实验和平行执行理论(Artificial systems, computational experiments, parallel execution, ACP)中的平行执行方式, 论文给出了不同分类方法,特别是对整体平行执行、局部平行执行和混合平行执行分类方式进行了详细的阐述. 本文以乙烯生产过程为例,论述了整体平行执行、局部平行执行和混合平行执行分类方法的思想产生来源并进一步阐述了它们的定义、原理、适用场合和条件,最后,给出了这三种平行执行方式的特点. 相似文献

12.

并行对称矩阵三对角化算法在GPU集群上的有效实现

刘世芳赵永华于天禹黄荣锋《计算机研究与发展》2020,57(12):2635-2647

对称矩阵三对角化是求解稠密特征问题的关键计算过程.针对GPU集群采用了MPI(message passing interface)和GPU级2级并行方法设计实现了基于MPI和CUDA(compute unified device architecture )的稠密对称矩阵三对角化算法.在MPI集群级并行中,通过将2维通信域中行-列通信域间的全局数据通信设计为完全并行的点-点数据通信方式,改善了三对角化MPI并行算法的通信性能.通过改进原矩阵三对角化的MPI并行算法,避免了在GPU级并行中使用的不规则的矩阵-向量运算,这部分的并行性能提升了1倍左右.并且,将在GPU并行中存在的小粒度计算合并为较大粒度计算,该策略可通过加大计算密集度来充分地发挥GPU的计算能力,增加GPU的利用率,从而提升了算法的性能.此外,利用多个CUDA流使算法中独立的CUDA操作可以在不同的流中并发执行.并且,在并行算法中,利用CPU与GPU之间的异步数据传输,使得在不同流中的数据传输和核函数同时执行,隐藏了数据传输的时间,进一步提升了算法的性能.在中国科学院超级计算机系统“元”上,使用Nvidia Tesla K20 GPGPU测试了不同规模矩阵的基于MPI+CUDA的三对角化并行块算法的性能,取得了较好的加速效果与性能,并且具有良好的可扩展性. 相似文献

13.

An implementation and evaluation of the MPI 3.0 one‐sided communication interface

James Dinan Pavan Balaji Darius Buntinas David Goodell William Gropp Rajeev Thakur 《Concurrency and Computation》2016,28(17):4385-4404

The Message Passing Interface (MPI) 3.0 standard includes a significant revision to MPI's remote memory access (RMA) interface, which provides support for one‐sided communication. MPI‐3 RMA is expected to greatly enhance the usability and performance of MPI RMA. We present the first complete implementation of MPI‐3 RMA and document implementation techniques and performance optimization opportunities enabled by the new interface. Our implementation targets messaging‐based networks and is publicly available in the latest release of the MPICH MPI implementation. Using this implementation, we explore the performance impact of new MPI‐3 functionality and semantics. Results indicate that the MPI‐3 RMA interface provides significant advantages over the MPI‐2 interface by enabling increased communication concurrency through relaxed semantics in the interface and additional routines that provide new window types, synchronization modes, and atomic operations. Copyright © 2016 John Wiley & Sons, Ltd. 相似文献

14.

Optimization and Performance of a Fortran 90 MPI-Based Unstructured Code on Large-Scale Parallel Systems

Shires Dale Mohan Ram 《The Journal of supercomputing》2003,25(2):131-141

The message-passing interface (MPI) has become the standard in achieving effective results when using the message passing paradigm of parallelization. Codes written using MPI are extremely portable and are applicable to both clusters and massively parallel computing platforms. Since MPI uses the single program, multiple data (SPMD) approach to parallelism, good performance requires careful tuning of the serial code as well as careful data and control flow analysis to limit communication. We discuss optimization strategies used and their degree of success to increase performance of an MPI-based unstructured finite element simulation code written in Fortran 90. We discuss performance results based on implementations using several modern massively parallel computing platforms including the SGI Origin 3800, IBM Nighthawk 2 SMP, and Cray T3E-1200. 相似文献

15.

跨平台可移植远程并行程序调试器的设计与实现

李永强兰巨龙刘建杨广文《小型微型计算机系统》2007,28(3):462-465

介绍了一个跨平台远程并行程序调试器的设计与实现.该调试器实现了平台可移植和模块可移植,支持从Windows平台远程调试Unix/Linux平台PVM/MPI并行程序.与相关工作的比较显示,该调试器降低了开发并行程序的复杂度,提高了机群系统的使用效率,具有很好的实用价值. 相似文献

16.

高阶精度CFD应用在天河2系统上的异构并行模拟与性能优化

王勇献张理论车永刚徐传福刘巍程兴华《计算机研究与发展》2015,(4):833-842

在当前主流的众核异构高性能计算机平台上开展超大规模计算流体力学（computational fluid dynamics ,CFD）应用的高效并行数值模拟仍然面临着一系列挑战性技术问题,也是该领域的热点研究问题之一．面向天河2高性能异构并行计算平台,针对高阶精度C FD流场数值模拟程序的高效并行进行了探索,重点讨论了C FD应用特点与众核异构高性能计算机平台特征相适应的性能优化策略,从任务分解、并行度挖掘、多线程优化、SIMD向量化、CPU与加速器协同优化等方面,提出一系列性能提升技术．通过在天河2高性能异构并行计算平台上进行了多个算例的数值模拟,模拟的最大C FD规模达到1228亿个网格点,共使用约59万C P U＋M IC处理器核,测试结果表明移植优化后的程序性能提高2．6倍左右,且具有良好的可扩展性．相似文献

17.

基于并行计算环境的集群仿真系统设计与实现

薛峰《计算机与数字工程》2011,39(8):66-68

首先研究了并行计算技术,然后对现行仿真系统中的并行算法、模型分配等机制进行分析,提出优化方法和设计评估方法,实现了一种实体运动集群仿真系统. 相似文献

18.

基于微机打印口与PLC无线通信的监控系统 总被引：2，自引：1，他引：2

李海涛林家骏《计算机测量与控制》2003,11(1):51-53

在集散控制系统中，如果控制节点分布广，敷设通信线路困难，通常采用成本较高的遥控遥测装置，文章介绍了一种利用微机打印并行口来实现PC和PLC间无线监控的系统，该系统具有低成本，适合远距离实时监控的特点，实际应用证明这种监控系统具有很强的灵活性和可扩展性，同时介绍了硬件接口设计及软件实现方法。相似文献

19.

网络系统实验平台:发展现状及展望 总被引：1，自引：0，他引：1

杨林瑶韩双双王晓李玉珂王飞跃《自动化学报》2019,45(9):1637-1654

本文首先介绍了网络仿真技术的概念、特点和发展现状,在此基础上介绍了当前主流的通用型网络仿真软件的主要特点并对它们进行了对比分析和评价.为了解决现有网络架构灵活性和服务能力差的问题,我们引入了面向大数据建模、能够对网络整体状态进行预测和实时优化的平行网络架构及其计算实验平台.该平台融合虚拟的人工网络和实际网络的数据并对其进行实验分析和评估,可以发现最优的控制方案.基于平行网络计算实验方法,本文设计了针对微信朋友圈转发预测的网络优化方法,并通过实验验证了该方法可以有效提升网络的性能. 相似文献

20.

Simultaneous Scheduling of Replication and Computation for Data-Intensive Applications on the Grid

Frédéric Desprez Antoine Vernois 《Journal of Grid Computing》2006,4(1):19-31

Managing large datasets has become one major application of Grids. Life science applications usually manage large databases that should be replicated to scale applications. The growing number of users and the simple access to Internet-based application has stressed Grid middleware. Such environment are thus asked to manage data and schedule computation tasks at the same time. These two important operations have to be tightly coupled. This paper presents an algorithm (Scheduling and Replication Algorithm, SRA) that combines data management and scheduling using a steady-state approach. Using a model of the platform, the number of requests as well as their distribution, the number and size of databases, we define a linear program to satisfy all the constraints at every level of the platform in steady-state. The solution of this linear program will give us a placement for the databases on the servers as well as providing, for each kind of job, the server on which they should be executed. Our theoretical results are validated using simulation and logs from a large life science application. This work was supported in part by the ACI GRID and Grid5000 projects of the French Department of Research. 相似文献