首页 | 本学科首页   官方微博 | 高级检索  
文章检索
  按 检索   检索词:      
出版年份:   被引次数:   他引次数: 提示:输入*表示无穷大
  收费全文   10篇
  免费   0篇
  国内免费   1篇
综合类   2篇
一般工业技术   1篇
原子能技术   1篇
自动化技术   7篇
  2021年   2篇
  2020年   1篇
  2019年   3篇
  2018年   1篇
  2017年   1篇
  2015年   2篇
  2014年   1篇
排序方式: 共有11条查询结果,搜索用时 109 毫秒
1.
Ming Hsiang Huang  Wuu Yang 《Software》2020,50(10):1877-1904
OpenACC is a directive-based programming model which allows programmers to write graphic processing unit (GPU) programs by simply annotating parallel loops. However, OpenACC has poor support for irregular nested parallel loops, which are natural choices to express nested parallelism. We propose PFACC, a programming model similar to OpenACC. PFACC directives can be used to annotate parallel loops and to guide data movement between different levels of memory hierarchy. Parallel loops can be arbitrarily nested or be placed inside functions that would be (possibly recursively) called in other parallel loops. The PFACC translator translates C programs with PFACC directives into CUDA programs by inserting runtime iteration-sharing and memory allocation routines. The PFACC runtime iteration-sharing routine is a two-level mechanism. Thread blocks dynamically organize loop iterations into batches and execute the batches in a depth-first order. Different thread blocks share iterations among one another with an iteration-stealing mechanism. PFACC generates CUDA programs with reasonable memory usage because of the depth-first execution order. The two-level iteration-sharing mechanism is implemented purely in software and fits well with the CUDA thread hierarchy. Experiments show that PFACC outperforms CUDA dynamic parallelism in terms of performance and code size on most benchmarks.  相似文献   
2.
OpenACC是一套基于指导语句方式的并行编程语言标准.编程者可以通过在代码中添加符合该标准的指导语句,经OpenACC编译器的编译,将串行代码并行化地移植到加速器或者协处理器上,进而获得异构加速器所带来的加速效果.OpenACC与CUDA和OpenCL这类异构并行编程技术的不同之处在于,它的目的是使编程者在应用移植过程中不需要考虑加速器或协处理器的底层硬件架构,从而降低编程难度.同时它也具有仅需维护一套代码便可在不同硬件平台上运行的优良跨平台性.因此,OpenACC是一个值得研究的并行编程标准.如今的异构加速硬件设备呈现出多元化趋势.在2013年11月的Top500榜单上排名第一的“天河二号”使用了48000块构建在IntelKnights Corner架构之上的协处理器.与此同时,发布不久的NVIDIA公司最新的Kepler架构GPU产品由于多年来的GPU市场积累也迅速形成了可观的用户群体.对于并非追求性能极限的应用移植者而言,寻求应用性能和移植简易性之间的平衡是相当重要的议题.只需要编写一套代码便可运行在这两种硬件平台上的OpenACC正迎合了用户在移植简易性上的需求.解决了移植的简易性之后,同一个应用在不同硬件平台上的性能表现便成了用户最想了解的问题.通过实验和构建性能模型向读者展示使用OpenACC移植的应用在Intel Knights Corner和NVIDIA Kepler架构硬件上的性能可移植性.  相似文献   
3.
使用计算流体力学(Computational Fluid Dynamics,CFD)数值方法对熔盐堆堆芯的流动和热传导等相关物理问题进行模拟求解,需要大量的计算时间。利用图形处理器(Graphics Processing Unit,GPU)加速技术对开源CFD软件Code_Saturne进行二次开发,研究求解熔盐堆堆芯流场的GPU并行算法。采用OpenACC语言在GPU上实现了向量运算、矩阵向量相乘等基本线性代数运算,从而实现预处理共轭梯度法(Preconditioned Conjugate Gradients,PCG)的GPU并行算法,并使用该算法求解压力状态方程。模拟了方腔驱动流模型及带下降段的熔盐堆堆芯模型的流场分布。结果表明,GPU加速后的软件与原版软件的结果一致,但计算时间更少,证明了GPU算法的正确性及有效的加速性。  相似文献   
4.

基于OpenACC的格子波尔兹曼加速模拟

郭书豪1, 2,吴杰1, 2

(1. 南京航空航天大学 机械结构力学与控制国家重点实验室,南京 210016;2. 南京航空航天大学 空气动力学系,南京 210016)

创新点说明:

本文研究了流体动力学问题数值模拟中串行码的并行加速问题。为求解流场,采用格子波尔兹曼方法(LBM),并用OpenACC(Open Accelerator)应用编程接口执行程序加速。通过并行计算密集的循环、减少一些无意义的数据传输,基于LBM的串行代码得到了明显的加速。针对几个标准的流体动力学问题,通过OpenACC编程模型进行模拟来实现性能和计算效率的评估。优化后,与原代码版本相比,加入OpenACC的代码能得到合理的加速比。

研究目的:

利用OpenACC对串行的LBM代码进行并行加速。

研究方法:

主要利用OpenACC的导语,对现有的LBM串行代码进行注释,随后在GPU环境下运行。

结果:

通过模拟方腔流、静止的圆柱绕流以及圆柱的涡激震荡问题,验证的OpenACC对LBM串行代码并行化的可行性。

结论:

OpenACC能简单有效地提高LBM串行代码的计算速度。

关键词:OpenACC;格子波尔兹曼方法;并行计算

  相似文献   
5.
OpenACC编程模型用于异构多核处理器时,由于异构多核处理器加速设备内存有限,操作大量数据的代码不能获得很好的加速。针对这一问题,在OpenACC中引入循环分块子句,对循环进行分块处理,使每个循环块使用的数据能够存储在设备内存中;提出面向异构多核处理器的循环分块子句生成算法,并在基于Open64的"源-源"自动并行化系统Auto-ACC中进行实现。测试结果表明,在异构多核处理器上,扩展的循环分块子句及所提生成算法能够对程序进行明显的加速。  相似文献   
6.
7.
针对当前基于CUDA的中值滤波并行加速算法存在的编程复杂,图像数据提取和显示环节实现繁琐等问题提出了利用MATLAB和OpenACC结合的并行算法。该算法采用MATLAB实现图像的提取并转换成数组文件,之后利用OpenACC实现串行代码到并行代码的转换并处理MATLAB转换的数组文件,最后通过MATLAB将滤波后的数据显示成图像。通过仿真实验进行中值滤波算法的加速实验,结果表明:提出的算法在大量减少代码转换工作量的情况下加速效果较串行程序提升明显,且与CUDA加速效果相当。  相似文献   
8.
国产异构众核处理器是我国打破国际技术壁垒,在高性能计算领域取得突破的关键环节.围绕国产超算的软件生态环境建设,采用智能源码转换的方法盘活海量多核架构的遗产代码是加速软件研发效率,推动领域发展的重要途径.针对国产运算核心不支持C++编译的现状,基于开源的ANTLR语言翻译工具,提出了一种面向异构众核处理器的智能化C++语言向C语言转换的辅助框架.该框架聚焦面向对象语言的关键特征,基于抽象语法树,实现了基类和继承类、函数定义、基于标签法的模板实例化以及部分STL库的C语言转换,建立了待转换代码的自动化标注体系,极大地提高了C++代码的转换和移植效率.通过对可衡量的并行计算基准应用BableStream进行自动转换和移植测试,证实了该转换框架的有效性.  相似文献   
9.
过渡流区气动问题的数值模拟一直是空气动力学领域的难点。首先介绍了在已有 N-S解算器和 DSMC方法研究基础上,采用 MPC耦合技术建立N-S/DSMC 耦合算法,把 DSMC 方法和 N-S 方法的应用范围拓展到近连续过渡流区。然后详述了基于国家超级计算无锡中心的国产十亿亿次超级计算机开展的耦合算法多级并行优化技术,并首次实现了耦合算法的众核并行。测试表明,本文的进程级优化技术取得了超线性加速比;众核级优化受制于原算法特点和系统特点没有取得预期效果,但进行了探讨和分析,为 N-S/DSMC 耦合算法的众核并行提供了研究和分析依据,为过渡流区高超声速气动特性数值模拟研究提供了有效的途径。  相似文献   
10.
利用CUDA语言移植旧程序时需要重新设计算法,花费较多的时间,效率不高。针对这一问题,本文在分析正射纠正算法并行性的基础上,提出一种基于OpenACC的遥感影像正射纠正快速实现方法,并与基于CUDA的正射纠正方法进行对比。通过正射纠正实验表明,OpenACC能通过对源代码的较小改动将其移植到GPU中,获得一定的加速比,其可移植性好,代码开发效率较高。  相似文献   
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号