共查询到20条相似文献,搜索用时 62 毫秒
1.
异构型计算能有效地利用多种不同的高性能计算机,以满足大型计算问题的不同计算需求。本文着重讨论了支持异构型计算的并行程序设计环境所需具备的功能,并以目前最流行的PVM和Express系统为例进行说明。 相似文献
2.
在当前主流的众核异构高性能计算机平台上开展超大规模计算流体力学(computational fluid dynamics ,CFD)应用的高效并行数值模拟仍然面临着一系列挑战性技术问题,也是该领域的热点研究问题之一.面向天河2高性能异构并行计算平台,针对高阶精度C FD流场数值模拟程序的高效并行进行了探索,重点讨论了C FD应用特点与众核异构高性能计算机平台特征相适应的性能优化策略,从任务分解、并行度挖掘、多线程优化、SIMD向量化、CPU与加速器协同优化等方面,提出一系列性能提升技术.通过在天河2高性能异构并行计算平台上进行了多个算例的数值模拟,模拟的最大C FD规模达到1228亿个网格点,共使用约59万C P U+M IC处理器核,测试结果表明移植优化后的程序性能提高2.6倍左右,且具有良好的可扩展性. 相似文献
3.
近年来,并行化洪水演进模拟技术发展迅速,在防汛减灾领域发挥重要作用.在考虑洪水演进模型的数值方法、并行模式和编程技术等因素后,选取一些有代表性的洪水演进模型,分析了同构并行和异构并行洪水演进模型涉及的技术细节,提出并行化模型开发的技术难点和解决方法.最后,提出将来并行化洪水演进模型研发的着力点:非结构网格模型的异构并行... 相似文献
4.
并行分布计算中的任务调度模型 总被引:3,自引:0,他引:3
In this paper,we first describe the concept of task scheduing in Parallel and Distributed Computing(PDC) ,then illustrate the task scheduling model in PDC and the way of calculating the execution cost and communication cost ,and lastly discuss an approach to estimate the communication contention overhead. 相似文献
5.
为了充分利用计算机处理能力,缩短心电仿真计算在系统中的计算时间,通过对心电仿真计算问题进行分析,结合当前网络计算的广泛应用,提出了在异构环境中面向较短计算时间的并行任务调度方法.文中的心电仿真计算调度算法,采用网络计算平台进行心电仿真计算的并行实现.实验结果表明,该任务调度方法能够有效的缩短应用在系统中的运行时间,取得了很好的效果. 相似文献
6.
7.
8.
在众核处理器应用中,主要难点在于异构并行应用模式和负载均衡的策略,对于计算流体力学,需要针对相关应用设计相应的方案。我们针对湍流直接数值模拟中串行程序含有部分并行度较高的子程序或函数的特点,设计了一种新的并行计算模式,给出了一种异构平台优化方案,并在中科院超级计算系统"元"上进行了测试和分析,对领域内的典型算例进行了性能测试,着重讨论了不同规模下采用offload模式的CPU和MIC异构并行的扩展性能。 相似文献
9.
10.
一种数据并行中的群通信优化策略 总被引:1,自引:0,他引:1
群通信是影响大规模数据并行系统效率的关键因素,其主要发生在程序不同阶段间的数组重分布与循环划分后的数组重映射这两种情况.在一次通信中显著影响群通信效率常被忽视的因素是消息冲突和消息长度的不一致.因为它们会导致进程间大量的空闲等待时间.然而以前的研究要么不能完全避免消息冲突,要么针对某些特殊情况.对此,提出了在数组分布为Block_Cyclic(k)情况下的一种更具有普遍适用性的通信调度策略CSS.通过证明表明该策略能使一个通信步内的消息互不冲突且消息长度尽量相等.从而最小化通信调度生成时间和实际通信时间.最后的测试结果也表明,与传统的通信优化算法和MPI_Alltoallv实现相比,CSS策略使得通信效率得以明显提高. 相似文献
11.
一种面向异构计算的结构化并行编程框架 总被引:1,自引:0,他引:1
随着人工智能时代的到来,异构计算在深度学习、科学计算等领域发挥着越来越重要的作用。目前异构计算系统在应用上的瓶颈之一在于缺少高效的软件开发框架,已有的OpenCL、CUDA等支持GPU、DSP及FPGA的编程框架基于C/C++语言和传统的并行编程方法,导致软件开发效率较低,软件推理和调试困难,难以灵活处理计算设备之间的协作和调度。提出一种面向异构计算平台的基于脚本语言的结构化并行编程框架,提供结构化的并行编程接口,支持计算任务到异构计算设备的映射,便于并行程序的推理和验证。设计并实现了基于遗传算法的结构化调度算法,充分利用异构计算系统的计算能力,提高了异构计算系统的软件开发效率。实验结果表明,提出的编程框架在CPU+GPU平台上实现了相对于单处理器1.5到2.5倍的加速比。 相似文献
12.
时域有限差分(FDTD)法是求解电磁学中麦克斯韦方程组的重要方法之一,一直以来获得了广泛的使用,但是应用于电大尺寸目标仿真时存在巨大的耗时问题。为解决这一问题,利用图形处理器(GPU)的并行处理特性,结合计算统一设备架构(CUDA),以低通滤波器为算例,实现了时域卷积理想匹配层(CPML)吸收边界的三维FDTD高性能加速计算,目标网格数达5百万。实验在Fermi架构的Quadro 4000和Tesla M2050两款GPU上实测,误差均在10~(-4)范围内,相对于同时期的CPU分别可获得36和55倍以上的加速,结果表明该方法具有精度高、效率高、通用性和实用性强等特点。 相似文献
13.
14.
In order to exploit the efficient computing power of many integrated cores on heterogeneous cluster, a multi-level and multi-granularity collaborative parallel computing method is proposed for finite element structural mechanical analysis. Computing tasks are divided into three levels: inter-node parallelism, inter-device parallelism and inter-core parallelism. Through mapping decomposablecomput- ing jobs to different hardware layers of heterogeneous MIC system, the proposed method not only effectively resolves the load balancing problem between CPU and MIC devices, but also significantly reduces the communication overheads of the system. Different engineering simulation case experiments for large scale parallel computing were conducted on “Tianhe 2” supercomputer. Up to 39000 CPU+MIC cores were employed and the finite element size of the analysis was more than 100 million units. Test results show that the proposed method can achieve good speedup and parallel computing efficiency in large scale parallel computing of finite element structural analysis. The optimized adaptation of finite element structural analysis and heterogeneous MIC computing platform is realized, which can provide reference for parallel porting and performance optimization of similar applications. 相似文献
15.
并行构件技术的出现提高了并行软件的开发效率,但现有的并行构件技术缺乏对异构多核平台的支持.为了提高并行构件程序在异构平台上的执行性能,扩展CCA(通用构件体系结构)并行构件模型支持CCA异构并行构件,提出了一种异构的CCA并行构件模型.使用管理者—工人模式调度CCA异构并行构件内的计算任务到异构多核平台上加速执行.在CCA构件工具包的基础上实现了支持扩展CCA并行构件模型的编译系统和运行时框架.在CELL BE和GPU两种异构多核处理器上进行的实验证明了提出的方法比原始的CCA构件程序具有较优的性能.提出的并行构件模型应用在并行程序开发中可以提高并行程序的性能. 相似文献
16.
可扩展性是设计并行计算系统和并行算法所要考虑的一个重要性能指标。分析了等效率、等速度、平均延迟和等并行计算开销比几种并行系统可扩展性模型的特征,提出了一种新的更有效的可扩展性度量标准。通过实验结果分析,该模型能很好地评测并行计算系统的可扩展性。 相似文献
17.
传统的并行计算的性能评价模型是加速比,文中讨论了加速比的缺点和不足,在此基础上提出了一种新的优化并行计算的性能评价模型(我们称之为优化加速比)。利用优化加速比分析了NAS基准测试程序MG和FT在IBM SP2(66mhz/wn)上的性能。 相似文献
18.
19.
采用VMware构建虚拟并行计算网 总被引:11,自引:0,他引:11
杨少春 《计算机工程与设计》2006,27(14):2546-2547,2623
基于并行技术的发展和并行程序开发的需要,提出了一种采用VMware虚拟机软件在一台普通PC机上模拟并行计算网络的方法。该方法的原理是在VMware上安装多个Lmux操作系统模拟多台独立的计算机,在进行并行环境的设置后使其成为一个和真实并行计算环境完全相同的虚拟并行网络,通过MPI程序的测试证明这种方法是可行的,且对于搭建基于Itanium架构的高性能计算平台的研究提供了一个良好的途径,并能降低研究开发资金的投入。 相似文献