期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

李正夫王希诚郭权《计算机应用研究》2013,30(3):814-816

针对分子对接中生成评分网格需要花费很多的计算时间这一问题, 提出了一种基于统一计算设备架构（CUDA）的评分网格生成并行算法。该算法把传统计算方法中三维计算空间中的一维通过在图形处理单元（GPU）上进行并行处理, 使得总生成时间得到了降低, 提高了评分网格的生成效率。实验结果表明, 借助于GPU的浮点计算能力, 提出的并行算法对比传统的计算方法可以显著缩短评分网格的生成时间, 为评分网格的生成提供一种新的方式。相似文献

2.

一种单GPU程序向多GPU移植的模板化技术

李建江李兴钢路川樊少明《计算机研究与发展》2010,47(12)

图形处理器(GPU)作为一种高度并行化的处理器架构,已得到越来越多的重视,目前已诞生了以NVIDIA CUDA为代表的各种GPU通用计算技术,同时多GPU并行计算也已有了实际的应用.多GPU并行计算涉及GPU与CPU两者之间的协调和交互,对程序员有着更高的要求.为此,提出一种基于模板的源代码生成技术,通过模板转化来支持单GPU程序的并行化移植.最后通过一个实例表明使用提出的CUDA源代码移植框架能够自动生成与手写程序等价的代码,可以显著降低多GPU下CUDA程序的开发代价,提高CUDA应用程序员的生产效率. 相似文献

3.

一种基于OPENACC的GPU加速实现高斯模糊算法

曾文权胡玉贵何拥军林敏《微机发展》2013,(7):147-150

针对使用底层API进行GPU加速时存在的编码复杂以及效率低下等缺陷,文中试图利用基于中间层的OPENACC加速技术对传统的串行代码进行改写,从而达到改善开发效率,简化代码之目的。文中以传统的串行高斯模糊算法为处理对象,在其中添加OPENACC指令,提出基于OPENACC指令的GPU加速算法,并对算法流程进行了分析和说明。通过与原生CUDA和串行高斯的结果对比之后,发现随着处理像素数量的增加,串行高斯性能呈指数变化,而CUDA和OPENAC则呈线性变化。结果表明,该算法能在不改变原有非并行代码结构的基础上,通过增加高效的OPENACC指令即可获得与CUDA近似的图像处理质量和处理性能,且较CUDA具有更高的代码开发效率。相似文献

4.

一种基于OPENACC的GPU加速实现高斯模糊算法 总被引：1，自引：0，他引：1

曾文权胡玉贵何拥军林敏《计算机技术与发展》2013,23(7)

针对使用底层API进行GPU加速时存在的编码复杂以及效率低下等缺陷,文中试图利用基于中间层的OPENACC加速技术对传统的串行代码进行改写,从而达到改善开发效率,简化代码之目的.文中以传统的串行高斯模糊算法为处理对象,在其中添加OPENACC指令,提出基于OPENACC指令的GPU加速算法,并对算法流程进行了分析和说明.通过与原生CUDA和串行高斯的结果对比之后,发现随着处理像素数量的增加,串行高斯性能呈指数变化,而CUDA和OPENAC则呈线性变化.结果表明,该算法能在不改变原有非并行代码结构的基础上,通过增加高效的OPENACC指令即可获得与CUDA近似的图像处理质量和处理性能,且较CUDA具有更高的代码开发效率. 相似文献

5.

三维网格模型的图像化表示

肖雄杨战军朱杰《计算机与数字工程》2015,43(4)

为使三维网格模型能被GPU进行渲染,提出了一种适用于GPU的针对零亏格的三角网格模型的绘制框架.传统的方法生成几何图像一般是从原始网格逐步切割至平面域,但是这样会产生复杂接缝的问题.论文通过对参数化后的球面进行映射,从而间接生成几何图像,避免了对原始网格进行复杂的切割.首先,将已经球面参数化后的球面信息映射至立方体,立方体平铺开即构成一个二维几何图像;然后,将二维纹理信息传输至GPU,利用GPU来还原三角网格模型.此文采用OpenGL和CUDA相结合的方式来实现最终效果,实验结果表明该绘制框架是可行的,参数化效果和还原效果较好. 相似文献

6.

基于非结构网格隐式算法的GPU加速研究

陈龙徐添豪田书玲《计算机系统应用》2018,27(5):238-243

针对非结构网格隐式算法在GPU上的加速效果不佳的问题,通过分析GPU的架构及并行模式,研究并实现了基于非结构网格格点格式的隐式LU-SGS算法的GPU并行加速.通过采用RCM和Metis网格重排序（重组）方法,优化非结构网格的数据局部性,改善非结构网格的隐式算法在GPU上的并行加速效果.通过三维机翼算例验证了本文实现的正确性及效率.结果表明两种网格重排序（重组）方法分别得到了63%和69%的加速效果提高.优化后的LU-SGS隐式GPU并行算法获得了相较于CPU串行算法27倍的加速比,充分说明了本文方法的高效性. 相似文献

7.

非结构有限体积CFD计算的网格重排序优化

张勇张曦万云博何先耀赵钟卢宇彤《计算机工程与科学》2022,44(10):1721-1729

网格重排序是提升流体力学CPU和GPU并行计算效率的重要手段之一。对于非结构网格,由于其数据存储无规律,数据的间接访问会导致访存延迟,尤其是在GPU并行计算时,数据的间接访问将引起内存的非对齐访问,放大了访存延迟的影响。对此,采用Reverse Cuthill-Mckee网格重排序方法优化了非结构网格的数据局部性,并设计了一种面向编号重排序方法。算例测试表明,网格重排序不影响最终计算结果。对比分析了网格重排序对非结构求解器在CPU和GPU上的性能影响：对CPU计算,可以使部分热点函数运行时间降低约20%,整体运行时间降低15%~20%;对GPU计算,大部分热点函数运行时间可降低35%~60%,程序整体运行时间降低约40%。相似文献

8.

多图形处理器上Lattice-Boltzmann方法的加速

吴亮钟诚文郑彦奎刘沙卓丛山陈效鹏《计算机辅助设计与图形学学报》2010,22(11)

为了提高计算流体领域中复杂流动现象模拟计算的高效性和准确性,充分利用图形硬件的并行性,提出一种在单机多图形处理器下基于CUDA架构的Lattice Boltzmann方法(LBM)的模拟算法.采用区域划分策略将域上的LBM网格平均分配到不同的GPU设备上,在分区边界处搭接一层网格以方便计算该处网格的迁移过程,减少GPU间的通信量,并合理地利用CUDA存储层次架构中的全局内存和纹理内存为计算网格分配设备空间;采用多线程技术,用每个线程控制不同的GPU设备,同时引入线程同步机制信号量实现线程间的数据通信同步控制,按照LBM方程组的求解过程实现模拟计算.实验结果表明,双GPU将计算加速到单GPU的1.77倍左右,同时将流场计算网格规模从单GPU下的4160×4160扩大到双GPU下的6144×6144. 相似文献

9.

基于CUDA并行处理的海面航迹仿真

石书浩徐永志吕品郑昌文《计算机仿真》2012,29(12)

实时海面航迹仿真对仿真效果的真实性和实时性都有较高要求,在仿真区域较大、粒度较细的情况下,二者往往难以兼顾.针对以上问题,提出一种基于CUDA并行处理的海面航迹仿真方法,采用海面网格和水波粒子虚实相结合的方法来生成海面航迹,并将所有核心计算和渲染在GPU中并行执行.实验结果表明,CUDA方法能够充分发挥GPU并行处理能力,大幅降低内存和显存通信,在保证仿真效果真实度较高的情况下,显著提升实时仿真效率. 相似文献

10.

面向CPU-GPU架构的源到源自动映射方法

下载免费PDF全文

朱正东刘袁魏洪昌颜康王寅峰董小社《计算机工程与应用》2015,51(21):41-47

针对GPU上应用开发移植困难的问题,提出了一种串行计算源程序到并行计算源程序的映射方法。该方法从串行源程序中获得可并行化循环的层次信息,建立循环体结构与GPU线程的对应关系,生成GPU端核心函数代码;根据变量引用读写属性生成CPU端控制代码。基于该方法实现了一个编译原型系统,完成了C语言源程序到CUDA源程序的自动生成。对原型系统在功能和性能方面的测试结果表明,该系统生成的CUDA源程序与C语言源程序在功能上一致,其性能有显著提高,在一定程度上解决了计算密集型应用向CPU-GPU异构多核系统移植困难的问题。相似文献

11.

基于GPU的GRAPES数值预报系统中RRTM模块的并行化研究

郑芳许先斌向冬冬王卓薇徐鸣《计算机科学》2012,39(106):370-374

GRAPES(Global and Regional Assimilation and Prediction System)是由中国气象科学研究院自主研究开发的中国新一代数值天气预报系统,由于其处理的数据量非常庞大以及对实时性的要求较高,因此一直是并行计算领域研究的热点。首次运用GPU(图形处理器)通用计算及CUDA技术对CRAPES_Meso。模式中物理过程的RRTM(快速辐射传输模式)长波辐射模块进行并行化处理。在性能分析的基础上,针对GPU体系结构的特点,从代码优化、存储器优化、编译选项等方面对程序性能进行优化,并取得了14X倍的加速比。经过测试表明,长波辐射RRTM模块在GPU上并行计算过程正确、稳定而且有效,并为GRAPES系统未来在GPU平台上的并行化发展奠定了一定的基础。相似文献

12.

基于MPI+CUDA异步模型的并行矩阵乘法

刘青昆马名威阎慰椿《计算机应用》2011,31(12):3327-3330

矩阵乘法在科学计算领域中起着重要的作用,不同结构模型能够改善并行矩阵乘的性能。现有的MPI+CUDA同步模型中,主机端需要进入等待状态,直到设备端完成任务后才能继续工作,这显然浪费时间。针对上述问题,提出一种基于MPI+CUDA异步模型的并行矩阵乘法。该模型避免了主机端进入等待状态,并采用CUDA流技术解决数据量超过GPU内存问题。通过分析异步模型的加速比和效率,实验结果表明,此方法显著提高了并行效率和大型矩阵乘法的运算速度,充分发挥了节点间分布式存储和节点内共享内存的优势,是一种有效可行的并行策略。相似文献

13.

Massively parallel Wang–Landau sampling on multiple GPUs

Junqi Yin D.P. Landau 《Computer Physics Communications》2012,183(8):1568-1573

Wang–Landau sampling is implemented on the Graphics Processing Unit (GPU) with the Compute Unified Device Architecture (CUDA). Performances on three different GPU cards, including the new generation Fermi architecture card, are compared with that on a Central Processing Unit (CPU). The parameters for massively parallel Wang–Landau sampling are tuned in order to achieve fast convergence. For simulations of the water cluster systems, we obtain an average of over 50 times speedup for a given workload. 相似文献

14.

基于GPU的分子动力学模拟并行化及实现

费辉张云泉王可许亚武《计算机科学》2011,38(9):276-278

分子动力学模拟作为获得液体、固体性质的重要计算手段,广泛应用于化学、物理、生物、医药、材料等众多领域。模拟体系的复杂性和精确性的需求,使得计算量巨大,耗费时间长。并行计算是加速大规模分子动力学模拟的霍要途径。GPU以几百GFlops甚至上I}Flops的运算能力,为分子动力学模拟等的计算密集型应用提供了新的加速方案。提出了一种基于GPU的分子动力学模拟并行算法—oApT-AD,并在OpenCL和CUDA框架下加以实现。,r}能测试显示,在Tesla C1060显卡上,该算法在OpcnCL框架下的实现相对于CPU的串行实现,最高达到120倍加遥比。通过对比发现,该算法在CUDA上的性能与()pcnCI、基本相当。同时,该算法还可以扩展到两块及以上的GPU上,具有良好的可扩展性。相似文献

15.

异构平台下格子Boltzmann方法实现及性能分析

张丹丹徐莹徐磊《计算机科学》2012,39(4):296-298,303

对CPU+GPU异构平台下的多种并行编程模式进行了研究,并针对格子Boltzmann方法实现了CUDA,MPI+CUDA,MPI+OpenMP+CUDA多级并行算法。结果表明,算法具有较好的加速性能;提出的根据计算量比例参数调节CPU和GPU之间负载均衡的方法,对于在异构平台上实现多级并行处理及资源的有效利用具有一定的参考和应用价值。相似文献

16.

基于CUDA的快速大整数乘法

下载免费PDF全文

许亮王震《计算机工程与应用》2013,49(16):221-224

针对快速傅里叶变换下的快速大整数乘法,给出了一种基于CUDA架构的GPU并行化加速的实现方法。通过分析整数快速乘法中的每一步骤,分别给出各步骤的并行化实现方法,并采用数据压缩等策略,对算法进行优化。实验表明该方法有效地提高了算法效率,随着数据规模的增长,可获得18倍以上的加速比。相似文献

17.

基于CUDA的多模式匹配技术

张光斌谢维盛吴鸿伟《信息网络安全》2011,(9):126-128

文章以经典的多模式匹配算法-AC算法为例,通过对CUDA特性的分析,提出了基于CUDA的并行模型,设计了适合CUDA并行技术的AC匹配算法。实验结果表明,基于CUDA的AC匹配算法较CPU上获得了22倍的加速比,有效提高了入侵检测系统的性能。相似文献

18.

特征点检测DoG并行算法

下载免费PDF全文

朱超吴素萍《计算机工程与应用》2020,56(10):36-43

特征点检测被广泛应用于目标识别、跟踪及三维重建等领域。针对三维重建算法中特征点检测算法运算量大、耗时多的特点,对高斯差分（Difference-of-Gaussian,DoG）算法进行改进,提出特征点检测DoG并行算法。基于OpenMP的多核CPU、CUDA及OpenCL架构的GPU并行环境,设计实现DoG特征点检测并行算法。对hallFeng图像集在不同实验平台进行对比实验,实验结果表明,基于OpenMP的多核CPU的并行算法表现出良好的多核可扩展性,基于CUDA及OpenCL架构的GPU并行算法可获得较高加速比,最高加速比可达96.79,具有显著的加速效果,且具有良好的数据和平台可扩展性。相似文献

19.

Designing fast LTL model checking algorithms for many-core GPUs

Jiří BarnatAuthor Vitae Petr BauchAuthor VitaeLuboš BrimAuthor Vitae Milan Češka 《Journal of Parallel and Distributed Computing》2012

Recent technological developments made various many-core hardware platforms widely accessible. These massively parallel architectures have been used to significantly accelerate many computation demanding tasks. In this paper, we show how the algorithms for LTL model checking can be redesigned in order to accelerate LTL model checking on many-core GPU platforms. Our detailed experimental evaluation demonstrates that using the NVIDIA CUDA technology results in a significant speedup of the verification process. Together with state space generation based on shared hash-table and DFS exploration, our CUDA accelerated model checker is the fastest among state-of-the-art shared memory model checking tools. 相似文献

20.

GPU accelerated novel particle filtering method

Subhra Kanti Das Chandan Mazumdar Kumardeb Banerjee 《Computing》2014,96(8):749-773

In this paper, a graphics processor unit (GPU) accelerated particle filtering algorithm is presented with an introduction to a novel resampling technique. The aim remains in the mitigation of particle impoverishment as well as computational burden, problems which are commonly associated with classical (systematic) resampled particle filtering. The proposed algorithm employs a priori-space dependent distribution in addition to the likelihood, and hence is christened as dual distribution dependent (D3) resampling method. Simulation results exhibit lesser values for root mean square error (RMSE) in comparison to that for systematic resampling. D3 resampling is shown to improve particle diversity after each iteration, thereby affecting the overall quality of estimation. However, computational burden is significantly increased owing to few excessive computations within the newly formulated resampling framework. With a view to obtaining parallel speedup we introduce a CUDA version of the proposed method for necessary acceleration by GPU. The GPU programming model is detailed in the context of this paper. Implementation issues are discussed along with illustration of empirical computational efficiency, as obtained by executing the CUDA code on Quadro 2000 GPU. The GPU enabled code has a speedup of 3 and 4 over the sequential executions of systematic and D3 resampling methods respectively. Performance both in terms of RMSE and running time have been elaborated with respect to different selections for threads per block towards effective implementations. It is in this context that, we further introduce a cost to performance metric (CPM) for assessing the algorithmic efficiency of the estimator, involving both quality of estimation and running time as comparative factors, transformed into a unified parameter for assessment. CPM values for estimators obtained from all such different choices for threads per block have been determined and a final value for the chosen parameter is resolved for generation of a holistic effective estimator. 相似文献