首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
异构型计算与并行程序设计环境   总被引:2,自引:0,他引:2       下载免费PDF全文
异构型计算能有效地利用多种不同的高性能计算机,以满足大型计算问题的不同计算需求。本文着重讨论了支持异构型计算的并行程序设计环境所需具备的功能,并以目前最流行的PVM和Express系统为例进行说明。  相似文献   

2.
在当前主流的众核异构高性能计算机平台上开展超大规模计算流体力学(computational fluid dynamics ,CFD)应用的高效并行数值模拟仍然面临着一系列挑战性技术问题,也是该领域的热点研究问题之一.面向天河2高性能异构并行计算平台,针对高阶精度C FD流场数值模拟程序的高效并行进行了探索,重点讨论了C FD应用特点与众核异构高性能计算机平台特征相适应的性能优化策略,从任务分解、并行度挖掘、多线程优化、SIMD向量化、CPU与加速器协同优化等方面,提出一系列性能提升技术.通过在天河2高性能异构并行计算平台上进行了多个算例的数值模拟,模拟的最大C FD规模达到1228亿个网格点,共使用约59万C P U+M IC处理器核,测试结果表明移植优化后的程序性能提高2.6倍左右,且具有良好的可扩展性.  相似文献   

3.
近年来,并行化洪水演进模拟技术发展迅速,在防汛减灾领域发挥重要作用.在考虑洪水演进模型的数值方法、并行模式和编程技术等因素后,选取一些有代表性的洪水演进模型,分析了同构并行和异构并行洪水演进模型涉及的技术细节,提出并行化模型开发的技术难点和解决方法.最后,提出将来并行化洪水演进模型研发的着力点:非结构网格模型的异构并行...  相似文献   

4.
并行分布计算中的任务调度模型   总被引:3,自引:0,他引:3  
In this paper,we first describe the concept of task scheduing in Parallel and Distributed Computing(PDC) ,then illustrate the task scheduling model in PDC and the way of calculating the execution cost and communication cost ,and lastly discuss an approach to estimate the communication contention overhead.  相似文献   

5.
为了充分利用计算机处理能力,缩短心电仿真计算在系统中的计算时间,通过对心电仿真计算问题进行分析,结合当前网络计算的广泛应用,提出了在异构环境中面向较短计算时间的并行任务调度方法.文中的心电仿真计算调度算法,采用网络计算平台进行心电仿真计算的并行实现.实验结果表明,该任务调度方法能够有效的缩短应用在系统中的运行时间,取得了很好的效果.  相似文献   

6.
内存映射文件及其在大数据量文件快速存取中的应用   总被引:13,自引:1,他引:12  
分析了Win32系统下的虚拟内存系统模式及内存映射文件的工作机理,介绍了如何用Windows API将文件映射至内存,并通过实验数据得出,采用内存映射文件在对大数据量文件进行存取,其效率远远高于传统的基于I/O方式的数据存取。  相似文献   

7.
HPMR在并行矩阵计算中的应用   总被引:2,自引:1,他引:2       下载免费PDF全文
为了解决传统并行编程难度大、效率低的问题,提出一种基于MapReduce模型的并行编程方法,在高性能MapReduce平台上实现矩阵并行LU分解。实验结果表明,相比传统并行编程模型,MapReduce模型并行程序可较好满足高性能数值计算需求,其编程简洁性和可读性能有效提升并行编程效率。  相似文献   

8.
在众核处理器应用中,主要难点在于异构并行应用模式和负载均衡的策略,对于计算流体力学,需要针对相关应用设计相应的方案。我们针对湍流直接数值模拟中串行程序含有部分并行度较高的子程序或函数的特点,设计了一种新的并行计算模式,给出了一种异构平台优化方案,并在中科院超级计算系统"元"上进行了测试和分析,对领域内的典型算例进行了性能测试,着重讨论了不同规模下采用offload模式的CPU和MIC异构并行的扩展性能。  相似文献   

9.
计算划分问题是并行编译中最为重要的问题之一.针对并行循环,在数据分布确定的情况下,提出了基于规范集的计算划分算法,具体讨论了规范集的获取方法及综合通信与负载均衡的最优方案选取算法.实验表明,在并行循环处理方面,这一算法与以前几种算法相比更加简单、有效;采用这一算法的p_HPF编译器对数据并行应用问题可以获得良好的加速比和效率.该编译器已在石油领域得到应用.  相似文献   

10.
一种数据并行中的群通信优化策略   总被引:1,自引:0,他引:1  
群通信是影响大规模数据并行系统效率的关键因素,其主要发生在程序不同阶段间的数组重分布与循环划分后的数组重映射这两种情况.在一次通信中显著影响群通信效率常被忽视的因素是消息冲突和消息长度的不一致.因为它们会导致进程间大量的空闲等待时间.然而以前的研究要么不能完全避免消息冲突,要么针对某些特殊情况.对此,提出了在数组分布为Block_Cyclic(k)情况下的一种更具有普遍适用性的通信调度策略CSS.通过证明表明该策略能使一个通信步内的消息互不冲突且消息长度尽量相等.从而最小化通信调度生成时间和实际通信时间.最后的测试结果也表明,与传统的通信优化算法和MPI_Alltoallv实现相比,CSS策略使得通信效率得以明显提高.  相似文献   

11.
一种面向异构计算的结构化并行编程框架   总被引:1,自引:0,他引:1  
随着人工智能时代的到来,异构计算在深度学习、科学计算等领域发挥着越来越重要的作用。目前异构计算系统在应用上的瓶颈之一在于缺少高效的软件开发框架,已有的OpenCL、CUDA等支持GPU、DSP及FPGA的编程框架基于C/C++语言和传统的并行编程方法,导致软件开发效率较低,软件推理和调试困难,难以灵活处理计算设备之间的协作和调度。提出一种面向异构计算平台的基于脚本语言的结构化并行编程框架,提供结构化的并行编程接口,支持计算任务到异构计算设备的映射,便于并行程序的推理和验证。设计并实现了基于遗传算法的结构化调度算法,充分利用异构计算系统的计算能力,提高了异构计算系统的软件开发效率。实验结果表明,提出的编程框架在CPU+GPU平台上实现了相对于单处理器1.5到2.5倍的加速比。  相似文献   

12.
时域有限差分(FDTD)法是求解电磁学中麦克斯韦方程组的重要方法之一,一直以来获得了广泛的使用,但是应用于电大尺寸目标仿真时存在巨大的耗时问题。为解决这一问题,利用图形处理器(GPU)的并行处理特性,结合计算统一设备架构(CUDA),以低通滤波器为算例,实现了时域卷积理想匹配层(CPML)吸收边界的三维FDTD高性能加速计算,目标网格数达5百万。实验在Fermi架构的Quadro 4000和Tesla M2050两款GPU上实测,误差均在10~(-4)范围内,相对于同时期的CPU分别可获得36和55倍以上的加速,结果表明该方法具有精度高、效率高、通用性和实用性强等特点。  相似文献   

13.
14.
In order to exploit the efficient computing power of many integrated cores on heterogeneous cluster, a multi-level and multi-granularity collaborative parallel computing method is proposed for finite element structural mechanical analysis. Computing tasks are divided into three levels: inter-node parallelism, inter-device parallelism and inter-core parallelism. Through mapping decomposablecomput- ing jobs to different hardware layers of heterogeneous MIC system, the proposed method not only effectively resolves the load balancing problem between CPU and MIC devices, but also significantly reduces the communication overheads of the system. Different engineering simulation case experiments for large scale parallel computing were conducted on “Tianhe 2” supercomputer. Up to 39000 CPU+MIC cores were employed and the finite element size of the analysis was more than 100 million units. Test results show that the proposed method can achieve good speedup and parallel computing efficiency in large scale parallel computing of finite element structural analysis. The optimized adaptation of finite element structural analysis and heterogeneous MIC computing platform is realized, which can provide reference for parallel porting and performance optimization of similar applications.  相似文献   

15.
并行构件技术的出现提高了并行软件的开发效率,但现有的并行构件技术缺乏对异构多核平台的支持.为了提高并行构件程序在异构平台上的执行性能,扩展CCA(通用构件体系结构)并行构件模型支持CCA异构并行构件,提出了一种异构的CCA并行构件模型.使用管理者—工人模式调度CCA异构并行构件内的计算任务到异构多核平台上加速执行.在CCA构件工具包的基础上实现了支持扩展CCA并行构件模型的编译系统和运行时框架.在CELL BE和GPU两种异构多核处理器上进行的实验证明了提出的方法比原始的CCA构件程序具有较优的性能.提出的并行构件模型应用在并行程序开发中可以提高并行程序的性能.  相似文献   

16.
可扩展性是设计并行计算系统和并行算法所要考虑的一个重要性能指标。分析了等效率、等速度、平均延迟和等并行计算开销比几种并行系统可扩展性模型的特征,提出了一种新的更有效的可扩展性度量标准。通过实验结果分析,该模型能很好地评测并行计算系统的可扩展性。  相似文献   

17.
传统的并行计算的性能评价模型是加速比,文中讨论了加速比的缺点和不足,在此基础上提出了一种新的优化并行计算的性能评价模型(我们称之为优化加速比)。利用优化加速比分析了NAS基准测试程序MG和FT在IBM SP2(66mhz/wn)上的性能。  相似文献   

18.
根据交通网络仿真的并行特征采用域分解方法设计交通并行仿真系统的框架,把交通网络分为几个子网,集群系统的每个节点机分别负责其中的一个子网,提出基于车辆数负载的网络分割算法来平衡各子网的负载量,并分析子网之间的通信机理.同时,在基于MPI 的并行计算平台上实现设计的并行仿真系统.通过实例表明,提出的并行算法能大大提高交通网络仿真的速度和效率.  相似文献   

19.
采用VMware构建虚拟并行计算网   总被引:11,自引:0,他引:11  
杨少春 《计算机工程与设计》2006,27(14):2546-2547,2623
基于并行技术的发展和并行程序开发的需要,提出了一种采用VMware虚拟机软件在一台普通PC机上模拟并行计算网络的方法。该方法的原理是在VMware上安装多个Lmux操作系统模拟多台独立的计算机,在进行并行环境的设置后使其成为一个和真实并行计算环境完全相同的虚拟并行网络,通过MPI程序的测试证明这种方法是可行的,且对于搭建基于Itanium架构的高性能计算平台的研究提供了一个良好的途径,并能降低研究开发资金的投入。  相似文献   

20.
针对更实际的异构集群计算环境,充分考虑处理机具有不同的计算速度、通信能力和存储容量的特性,通过允许计算和通信操作重叠执行,采取多次并行分配计算任务的方法,设计一种可分负载多轮调度算法。实验结果表明,该算法不但能获得与均匀多轮调度(UMR)算法相当的渐近最优调度时间长度,并且能够处理更大规模的应用负载,实用性更强。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号