期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

PFACC: An OpenACC-like programming model for irregular nested parallelism

Ming Hsiang Huang Wuu Yang 《Software》2020,50(10):1877-1904

OpenACC is a directive-based programming model which allows programmers to write graphic processing unit (GPU) programs by simply annotating parallel loops. However, OpenACC has poor support for irregular nested parallel loops, which are natural choices to express nested parallelism. We propose PFACC, a programming model similar to OpenACC. PFACC directives can be used to annotate parallel loops and to guide data movement between different levels of memory hierarchy. Parallel loops can be arbitrarily nested or be placed inside functions that would be (possibly recursively) called in other parallel loops. The PFACC translator translates C programs with PFACC directives into CUDA programs by inserting runtime iteration-sharing and memory allocation routines. The PFACC runtime iteration-sharing routine is a two-level mechanism. Thread blocks dynamically organize loop iterations into batches and execute the batches in a depth-first order. Different thread blocks share iterations among one another with an iteration-stealing mechanism. PFACC generates CUDA programs with reasonable memory usage because of the depth-first execution order. The two-level iteration-sharing mechanism is implemented purely in software and fits well with the CUDA thread hierarchy. Experiments show that PFACC outperforms CUDA dynamic parallelism in terms of performance and code size on most benchmarks. 相似文献

2.

在Intel Knights Corner和NVIDIA Kepler架构上OpenACC的性能可移植性分析

王一超秦强施忠伟林新华《计算机科学》2015,42(1):75-78

OpenACC是一套基于指导语句方式的并行编程语言标准.编程者可以通过在代码中添加符合该标准的指导语句,经OpenACC编译器的编译,将串行代码并行化地移植到加速器或者协处理器上,进而获得异构加速器所带来的加速效果.OpenACC与CUDA和OpenCL这类异构并行编程技术的不同之处在于,它的目的是使编程者在应用移植过程中不需要考虑加速器或协处理器的底层硬件架构,从而降低编程难度.同时它也具有仅需维护一套代码便可在不同硬件平台上运行的优良跨平台性.因此,OpenACC是一个值得研究的并行编程标准.如今的异构加速硬件设备呈现出多元化趋势.在2013年11月的Top500榜单上排名第一的“天河二号”使用了48000块构建在IntelKnights Corner架构之上的协处理器.与此同时,发布不久的NVIDIA公司最新的Kepler架构GPU产品由于多年来的GPU市场积累也迅速形成了可观的用户群体.对于并非追求性能极限的应用移植者而言,寻求应用性能和移植简易性之间的平衡是相当重要的议题.只需要编写一套代码便可运行在这两种硬件平台上的OpenACC正迎合了用户在移植简易性上的需求.解决了移植的简易性之后,同一个应用在不同硬件平台上的性能表现便成了用户最想了解的问题.通过实验和构建性能模型向读者展示使用OpenACC移植的应用在Intel Knights Corner和NVIDIA Kepler架构硬件上的性能可移植性. 相似文献

3.

熔盐堆堆芯流体力学计算的GPU并行方法研究

胡传伟鄂彦志邹杨徐洪杰《核技术》2017,40(11)

使用计算流体力学(Computational Fluid Dynamics,CFD)数值方法对熔盐堆堆芯的流动和热传导等相关物理问题进行模拟求解,需要大量的计算时间。利用图形处理器(Graphics Processing Unit,GPU)加速技术对开源CFD软件Code_Saturne进行二次开发,研究求解熔盐堆堆芯流场的GPU并行算法。采用OpenACC语言在GPU上实现了向量运算、矩阵向量相乘等基本线性代数运算,从而实现预处理共轭梯度法(Preconditioned Conjugate Gradients,PCG)的GPU并行算法,并使用该算法求解压力状态方程。模拟了方腔驱动流模型及带下降段的熔盐堆堆芯模型的流场分布。结果表明,GPU加速后的软件与原版软件的结果一致,但计算时间更少,证明了GPU算法的正确性及有效的加速性。相似文献

4.

Acceleration of Lattice Boltzmann Simulation via OpenACC

Shuhao Guo Jie Wu 《哈尔滨工业大学学报(英文版)》2018,25(5):44-52

基于OpenACC的格子波尔兹曼加速模拟

郭书豪^{1, 2},吴杰^{1, 2}

（1. 南京航空航天大学机械结构力学与控制国家重点实验室,南京 210016;2. 南京航空航天大学空气动力学系,南京 210016）

创新点说明：

本文研究了流体动力学问题数值模拟中串行码的并行加速问题。为求解流场,采用格子波尔兹曼方法（LBM）,并用OpenACC（Open Accelerator）应用编程接口执行程序加速。通过并行计算密集的循环、减少一些无意义的数据传输,基于LBM的串行代码得到了明显的加速。针对几个标准的流体动力学问题,通过OpenACC编程模型进行模拟来实现性能和计算效率的评估。优化后,与原代码版本相比,加入OpenACC的代码能得到合理的加速比。

研究目的：

利用OpenACC对串行的LBM代码进行并行加速。

研究方法：

主要利用OpenACC的导语,对现有的LBM串行代码进行注释,随后在GPU环境下运行。

结果：

通过模拟方腔流、静止的圆柱绕流以及圆柱的涡激震荡问题,验证的OpenACC对LBM串行代码并行化的可行性。

结论：

OpenACC能简单有效地提高LBM串行代码的计算速度。

关键词：OpenACC;格子波尔兹曼方法;并行计算

相似文献

5.

面向异构多核处理器的的循环分块

李雁冰赵荣彩赵博黄品丰《计算机工程与设计》2015,36(1):168-173

将OpenACC编程模型用于异构多核处理器时,由于异构多核处理器加速设备内存有限,操作大量数据的代码不能获得很好的加速。针对这一问题,在OpenACC中引入循环分块子句,对循环进行分块处理,使每个循环块使用的数据能够存储在设备内存中;提出面向异构多核处理器的循环分块子句生成算法,并在基于Open64的"源-源"自动并行化系统Auto-ACC中进行实现。测试结果表明,在异构多核处理器上,扩展的循环分块子句及所提生成算法能够对程序进行明显的加速。相似文献

6.

Parallel optimization of Tend_lin application onthe Sunway TaihuLight supercomputer

JIANG Shang-zhi TANG Sheng-lin GAO Xi-ran HUA Rong CHEN Li LIU Ying 《计算机工程与科学》2021,42(10):1842

相似文献

7.

MATLAB与OpenACC结合实现中值滤波算法并行优化

黄伟建王月兴黄远《河北工程大学学报(自然科学版)》2019,36(2):101-104

针对当前基于CUDA的中值滤波并行加速算法存在的编程复杂,图像数据提取和显示环节实现繁琐等问题提出了利用MATLAB和OpenACC结合的并行算法。该算法采用MATLAB实现图像的提取并转换成数组文件,之后利用OpenACC实现串行代码到并行代码的转换并处理MATLAB转换的数组文件,最后通过MATLAB将滤波后的数据显示成图像。通过仿真实验进行中值滤波算法的加速实验,结果表明:提出的算法在大量减少代码转换工作量的情况下加速效果较串行程序提升明显,且与CUDA加速效果相当。相似文献

8.

一种基于国产异构众核处理器的C++智能源码转换框架

俞茂学贾东宁魏志强许佳立马广浩《计算机工程与科学》2021,43(6):997-1005

国产异构众核处理器是我国打破国际技术壁垒,在高性能计算领域取得突破的关键环节.围绕国产超算的软件生态环境建设,采用智能源码转换的方法盘活海量多核架构的遗产代码是加速软件研发效率,推动领域发展的重要途径.针对国产运算核心不支持C++编译的现状,基于开源的ANTLR语言翻译工具,提出了一种面向异构众核处理器的智能化C++语言向C语言转换的辅助框架.该框架聚焦面向对象语言的关键特征,基于抽象语法树,实现了基类和继承类、函数定义、基于标签法的模板实例化以及部分STL库的C语言转换,建立了待转换代码的自动化标注体系,极大地提高了C++代码的转换和移植效率.通过对可衡量的并行计算基准应用BableStream进行自动转换和移植测试,证实了该转换框架的有效性. 相似文献

9.

基于国产十亿亿次超算系统的近连续过渡流区N-S/DSMC耦合算法并行优化研究

徐金秀李中华孙俊李志辉郑岩《计算机工程与科学》2019,41(4):590-597

过渡流区气动问题的数值模拟一直是空气动力学领域的难点。首先介绍了在已有 N-S解算器和 DSMC方法研究基础上,采用 MPC耦合技术建立N-S/DSMC 耦合算法,把 DSMC 方法和 N-S 方法的应用范围拓展到近连续过渡流区。然后详述了基于国家超级计算无锡中心的国产十亿亿次超级计算机开展的耦合算法多级并行优化技术,并首次实现了耦合算法的众核并行。测试表明,本文的进程级优化技术取得了超线性加速比;众核级优化受制于原算法特点和系统特点没有取得预期效果,但进行了探讨和分析,为 N-S/DSMC 耦合算法的众核并行提供了研究和分析依据,为过渡流区高超声速气动特性数值模拟研究提供了有效的途径。相似文献

10.

一种基于OpenACC的遥感影像正射纠正快速实现方法

莫德林戴晨光张振超胡玲《影像技术》2014,(2):47-49,23

利用CUDA语言移植旧程序时需要重新设计算法,花费较多的时间,效率不高。针对这一问题,本文在分析正射纠正算法并行性的基础上,提出一种基于OpenACC的遥感影像正射纠正快速实现方法,并与基于CUDA的正射纠正方法进行对比。通过正射纠正实验表明,OpenACC能通过对源代码的较小改动将其移植到GPU中,获得一定的加速比,其可移植性好,代码开发效率较高。相似文献