首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 78 毫秒
1.
本文介绍了GPU并行计算的优越性,并对基于GPU平台的开发框架和编程环境CUDA给予概述;在CUDA环境中开发DCT算法代码,实现了DCT算法代码从CPU平台向GPU平台的移植;并通过对比两个计算平台上DCT算法的计算耗时,分析了GPU计算平台的优越性。  相似文献   

2.
针对现代优化算法在处理相对复杂问题中所面临的求解时间复杂度较高的问题,引入基于GPU的并行处理解决方法。首先从宏观角度阐释了基于计算统一设备架构CUDA的并行编程模型,然后在GPU环境下给出了基于CUDA架构的5种典型现代优化算法(模拟退火算法、禁忌搜索算法、遗传算法、粒子群算法以及人工神经网络)的并行实现过程。通过对比分析在不同环境下测试的实验案例统计结果,指出基于GPU的单指令多线程并行优化策略的优势及其未来发展趋势。  相似文献   

3.
一种基于OPENACC的GPU加速实现高斯模糊算法   总被引:1,自引:0,他引:1  
针对使用底层API进行GPU加速时存在的编码复杂以及效率低下等缺陷,文中试图利用基于中间层的OPENACC加速技术对传统的串行代码进行改写,从而达到改善开发效率,简化代码之目的.文中以传统的串行高斯模糊算法为处理对象,在其中添加OPENACC指令,提出基于OPENACC指令的GPU加速算法,并对算法流程进行了分析和说明.通过与原生CUDA和串行高斯的结果对比之后,发现随着处理像素数量的增加,串行高斯性能呈指数变化,而CUDA和OPENAC则呈线性变化.结果表明,该算法能在不改变原有非并行代码结构的基础上,通过增加高效的OPENACC指令即可获得与CUDA近似的图像处理质量和处理性能,且较CUDA具有更高的代码开发效率.  相似文献   

4.
基于GPU的并行优化技术*   总被引:2,自引:2,他引:2  
针对标准并行算法难以在图形处理器(GPU)上高效运行的问题,以累加和算法为例,基于Nvidia公司统一计算设备架构(CUDA)GPU介绍了指令优化、共享缓存冲突避免、解循环优化和线程过载优化四种优化方法。实验结果表明,并行优化能有效提高算法在GPU上的执行效率,优化后累加和算法的运算速度相比标准并行算法提高了约34倍,相比CPU串行实现提高了约70倍。  相似文献   

5.
张硕  何发智  周毅  鄢小虎 《计算机应用》2016,36(12):3274-3279
基于统一计算设备架构(CUDA)对图形处理器(GPU)下的并行粒子群优化(PSO)算法作改进研究。根据CUDA的硬件体系结构特点,可知Block是串行执行的,线程束(Warp)才是流多处理器(SM)调度和执行的基本单位。为了充分利用Block中线程的并行性,提出基于自适应线程束的GPU并行PSO算法:将粒子的维度和线程相对应;利用GPU的Warp级并行,根据维度的不同自适应地将每个粒子与一个或多个Warp相对应;自适应地将一个或多个粒子与每个Block相对应。与已有的粗粒度并行方法(将每个粒子和线程相对应)以及细粒度并行方法(将每个粒子和Block相对应)进行了对比分析,实验结果表明,所提出的并行方法相对前两种并行方法,CPU加速比最多提高了40。  相似文献   

6.
针对目前图像处理算法日益复杂,对CPU的性能要求越来越高,而传统的基于CPU的图像处理方法无法满足需求的情况,本文对基于统一计算设备架构(CUDA)的图形处理器(GPU)在图形处理方面的算法进行研究和实现。通过充分利用GPU突出的并行处理能力,采用CUDA技术,利用C++语言实现相关算法。研究并设计高斯模糊处理算法、彩色负片处理算法、透明合并处理算法的GPU并行运算流程,并通过与CPU实现相同效果的性能的对比,证明基于GPU图像处理算法的高效性。  相似文献   

7.
近年来,统一计算设备架构(CUDA)的提出和图形处理器(GPU)快速提升的并行处理能力和数据传输能力,使得基于CUDA的GPU通用计算迅速成为一个研究热点。针对含有大规模分子动力学模拟的热力学量提取效率低下的问题,提出了分子动力学模拟的热力学量提取的新方法,利用CUDA设计了并行算法,实现了利用GPU加速分子动力学模拟的热力学量提取。实验结果表明,与基于CPU的算法相比, GPU可以提高速度500倍左右。  相似文献   

8.
徐启迪  刘争红  郑霖 《计算机应用》2022,42(12):3841-3846
随着通信技术的发展,通信终端逐渐采用软件的方式来兼容多种通信制式和协议。针对以计算机中央处理器(CPU)作为运算单元的传统软件无线电架构,无法满足高速无线通信系统如多进多出(MIMO)等宽带数据的吞吐率要求问题,提出了一种基于图形处理器(GPU)的低密度奇偶校验(LDPC)码译码器的加速方法。首先,根据GPU并行加速异构计算在GNU Radio 4G/5G物理层信号处理模块中的加速表现的理论分析,采用了并行效率更高的分层归一化最小和(LNMS)算法;其次,通过使用全局同步策略、合理分配GPU内存空间以及流并行机制等方法减少了译码器的译码时延,同时配合GPU多线程并行技术对LDPC码的译码流程进行了并行优化;最后,在软件无线电平台上对提出的GPU加速译码器进行了实现与验证,并分析了该并行译码器的误码率性能和加速性能的瓶颈。实验结果表明,与传统的CPU串行码处理方式相比,CPU+GPU异构平台对LDPC码的译码速率可提升至原来的200倍左右,译码器的吞吐量可以达到1 Gb/s以上,特别是在大规模数据的情况下对传统译码器的译码性有着较大的提升。  相似文献   

9.
随着数据采集设备的发展,数字地形分析中高分辨率数字高程模型(DEM)图像越来越普遍。目前已经存在一系列的曲线结构提取算法由于计算复杂度较高,因此在针对高分辨率DEM图像提取地形特征线时效率较低。提出一种在图形处理器(GPU)上加速Steger曲线结构提取算法的策略,利用图形处理器上计算统一设备架构(CUDA)的高度并行性来加速算法中计算密集的Hessian矩阵生成模块以及图像特征点提取模块,对于百万像素级的DEM图像该算法可以获得5倍以上的加速比。  相似文献   

10.
陈颖  林锦贤  吕暾 《计算机应用》2011,31(3):851-855
随着图形处理器(GPU)性能的大幅度提升以及可编程性的发展,已经有许多算法成功地移植到GPU上.LU分解和Laplace算法是科学计算的核心,但计算量往往很大,由此提出了一种在GPU上加速计算的方法.使用Nvidia公司的统一计算设备架构(CUDA)编程模型实现这两个算法,通过对CPU与GPU进行任务划分,同时利用GP...  相似文献   

11.
基于LLE算法的人脸识别方法*   总被引:1,自引:0,他引:1  
探讨了局部线性嵌入(LLE)算法的推导过程,提出了一种基于LLE算法的人脸识别方法,并实验分析了该方法在ORL和UMIST人脸数据库中的识别效果.  相似文献   

12.
龙建武  王雪梅 《计算机应用研究》2023,40(11):3467-3471+3484
现有全局优化算法都使用不同范数约束输出图像梯度来实现图像平滑,但会牺牲图像中的弱结构信息来达到较好的平滑性能,导致输出图像出现颜色失真和细节模糊的情况。针对上述问题,提出一种基于LLE的边缘保持图像平滑算法(edge preserving image smoothing algorithm based on LLE,Ep-LLE),引入局部线性嵌入(LLE)的思想作为优化函数的正则化项并采用L2范数进行惩罚。该方法利用图像局部区域内像素存在的相互关系,通过约束局部相似以实现图像平滑任务。最后通过各个算法的实验对比验证,基于LLE的边缘保持图像平滑算法能在实现图像边缘保持平滑的同时,保留图像局部结构特征,并有效避免区域内颜色一致导致的边缘阶梯状现象,避免图像颜色失真。  相似文献   

13.
The Journal of Supercomputing - Optimization methods allow looking for an optimal value given a specific function within a constrained or unconstrained domain. These methods are useful for a wide...  相似文献   

14.
15.
针对传统的环境光遮挡算法中不能自适应的问题,提出了基于GPU自适应的环境遮挡算法.该算法充分利用了GPU并行计算技术和离屏渲染技术,快速计算出适合所载入场景的自适应步长;并将传统环境遮挡采样方法和抖动采样的思想相结合,对采样方法进行了改进;同时也简化了传统环境光遮挡算法中最终遮挡值的计算.实验结果表明,该方法不局限于特定场景,不需要对场景进行预处理,可以准确高效的计算环境光的遮挡情况,并且实现实时绘制.  相似文献   

16.
针对双向相似性计算在CPU下串行计算效率低下,无法满足实际需求的问题,利用该计算中数据独立性的特点,应用CUDA编程模型实现基于GPU加速的图像双向相似性计算。与CPU相比,在392x300的分辨率实验下,该算法在GPU上可获得超过1200倍的加速比。  相似文献   

17.
为了更好地模拟素描画中线条的轻重变化和明暗变化,提出了一种改进的素描风格渲染算法。将渲染过程分为轮廓线绘制、纹理绘制和色调调整三个部分;在轮廓线染绘制过程中采用多重采样来辨识轮廓线,利用卡方分布和紊乱场来模拟生成素描化线条绘制;在纹理渲染绘制中,利用模型的切线和副法线生成多个方向场,通过对白噪声纹理的线性卷积( LIC)生成素描化纹理;通过牛顿插值法重新计算了输出曲线解决多重渲染混合后绘制效果偏灰问题。实验结果显示改进后素描风格渲染算法具有更高的渲染效率和更好的渲染效果。算法能够较好地实现素描风格的渲染效果,并可广泛适用于影视游戏开发中。  相似文献   

18.
针对传统光线投射算法计算量大、速度慢、在没有硬件加速情况下难以实时重建的问题,提出了一种基于GPU编程的快速计算重采样点值的光线投射算法。首先,设计一个GPU程序确定投射光线的终点与方向;其次,采用加速度步长采样方法确定重采样点的位置并利用快速复合插值方法计算重采样点的颜色值;最后,采用不透明度提前截止法进一步加速重建过程。实验结果表明,该方法计算复杂度低、执行效率高。在保证重建图像质量的同时,与现有基于CPU的光线投射算法相比,重建速度提高6倍,与基于GPU的传统光线投射算法相比,速度提高2倍。  相似文献   

19.
针对传统光线投射算法采样效率低、绘制精度差等缺点,提出一种新的体绘制算法,所给算法采用新的采样合成函数,并结合经典的Blinn-Phong光照模型,采用不透明度提前截止判断光线终止。整个过程使用Cg语言编写顶点程序和片段程序来实现。实验结果表明算法既可以增强传统光线投射算法的绘制效果,也可以加快算法的速度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号