首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
基于CUDA的高速FFT计算*   总被引:1,自引:0,他引:1  
针对快速傅里叶算法FFT在图形图像处理和科学计算领域的重要作用,提出了一种基于CUDA的高速FFT计算方法,在分析GPU硬件平台执行模式及FFT算法并行性特征的基础上,采用多线程并行的映射方法实现算法,并从存储层次优化算法。实验结果表明该算法的高效性,优化后的FFT加速比能达到CUFFT库加速比的2-6倍。  相似文献   

2.
CUDA架构下H.264快速去块滤波算法   总被引:1,自引:0,他引:1  
刘虎  孙召敏  陈启美 《计算机应用》2010,30(12):3252-3254
针对H.264/AVC视频编码标准中去块滤波器运算复杂度高、耗时巨大这一难题,提出了一种基于NVIDIA计算统一设备架构(CUDA)平台的H.264并行快速去块滤波算法,介绍了CUDA平台硬件结构特点与软件开发流程,根据图形处理器(GPU)的并发结构特点,对BS判定与滤波计算进行了并行优化,降低了算法复杂度,利用共享内存提高了数据访问速率,实现了去块滤波器的并行处理。实验结果表明,在图像质量基本不变的情况下,GPU算法能够明显提高运算速度,平均加速比在20倍左右,取得了良好的效果。  相似文献   

3.
RSA算法的CUDA高效实现技术   总被引:1,自引:1,他引:0       下载免费PDF全文
CUDA(Compute Unified Device Architecture)作为一种支持GPU通用计算的新型计算架构,在大规模数据并行计算方面得到了广泛的应用。RSA算法是一种计算密集型的公钥密码算法,给出了基于CUDA的RSA算法并行化高效实现技术,其关键为引入大量独立并发的Montgomery模乘线程,并给出了具体的线程组织、数据存储结构以及基于共享内存的性能优化实现技术。根据RSA算法CUDA实现方法,在某款GPU上测试了RSA算法的运算性能和吞吐率。实验结果表明,与RSA算法的通用CPU实现方式相比,CUDA实现能够实现超过40倍的性能加速。  相似文献   

4.
基于GPU的现代并行优化算法   总被引:2,自引:2,他引:0  
针对现代优化算法在处理相对复杂问题中所面临的求解时间复杂度较高的问题,引入基于GPU的并行处理解决方法。首先从宏观角度阐释了基于计算统一设备架构CUDA的并行编程模型,然后在GPU环境下给出了基于CUDA架构的5种典型现代优化算法(模拟退火算法、禁忌搜索算法、遗传算法、粒子群算法以及人工神经网络)的并行实现过程。通过对比分析在不同环境下测试的实验案例统计结果,指出基于GPU的单指令多线程并行优化策略的优势及其未来发展趋势。  相似文献   

5.
快速傅里叶变换(fast Fourier transform,FFT)是用于计算离散傅里叶变换(discrete Fourier transform,DFT)或其逆运算的快速算法,在工程、科学和数学领域的应用非常广泛,例如信号分解、数字滤波、图像处理等。因此,在实际应用中对FFT算法进行细粒度优化是非常重要的。研究了FFT算法常用的分解策略以及FFT算法在大规模集群系统上的并行实现,并提出了相关的优化策略。在此基础上,对多种FFT算法在不同平台上进行了性能评估,并分析了各算法的实现、优缺点及其在大规模计算时的可扩展性。实验结果表明,相关研究有助于对现有的FFT算法进行进一步的优化,以及指导如何在大规模CPU+GPU的异构系统上根据不同需求选择实现性能更优的FFT算法。  相似文献   

6.
快速福利叶变换在图像处理领域,尤其是在图像复原算法中作为常用的计算工具,将时域计算转变为频域计算,在工程应用中有着非常重要的意义。采取多线程分块以及并行的映射方法,可以使FFT算法最大程度并行。针对OpenCL的存储层次特点和算法层次的优化,在AMD GPU平台上取得了明显的加速效果。优化后的算法性能比具有相同处理能力的CPU平台提高了7倍,比具有相同处理能力的CUDA提高了4倍。  相似文献   

7.
基于CUDA的并行粒子群优化算法的设计与实现   总被引:1,自引:0,他引:1  
针对处理大量数据和求解大规模复杂问题时粒子群优化(PSO)算法计算时间过长的问题, 进行了在显卡(GPU)上实现细粒度并行粒子群算法的研究。通过对传统PSO算法的分析, 结合目前被广泛使用的基于GPU的并行计算技术, 设计实现了一种并行PSO方法。本方法的执行基于统一计算架构(CUDA), 使用大量的GPU线程并行处理各个粒子的搜索过程来加速整个粒子群的收敛速度。程序充分使用CUDA自带的各种数学计算库, 从而保证了程序的稳定性和易写性。通过对多个基准优化测试函数的求解证明, 相对于基于CPU的串行计算方法, 在求解收敛性一致的前提下, 基于CUDA架构的并行PSO求解方法可以取得高达90倍的计算加速比。  相似文献   

8.
为利用统一计算设备架构(CUDA)强大的并行处理能力实现快速图像融合,提出一种适用于并行运算的图像融合算法,包括高斯滤波、直方图均衡、基于小波变换的图像融合。通过CUDA编程对以上算法进行实现,并将其与对应的CPU程序相比较,实验结果表明,图形处理单元(GPU)执行效率比CPU高出一个数量级,并且随着数据量的增加,GPU的加速比还会增大。  相似文献   

9.
快速傅里叶变换(FFT)在数字信号处理领域得到广泛应用,采用ASIC实现FFT变换可以实现系统高性能、低功耗、小型化。提出了FFT处理器芯片电路设计与实现方法。该芯片采用基4算法、流水线结构及16路并行运算等方法提高了处理速度,在系统时钟为80MHz的情况下,完成4096点复数FFT运算只需25μs。  相似文献   

10.
ADC采样交流波形是嵌入式系统的一项重要应用,当采集到的电压波形并非标准函数波形(如正弦波、三角波等)的畸变波形时,不能直接通过简化数学公式或平均响应法求得其均方根值;为得到任意波形的均方根值,首先需要求出该波形的频率(或周期);在传统算法中,需要进行FFT(快速傅里叶变换),该算法需要大量内存空间和较高时间复杂度,且只能进行2N个点运算,精度和分辨率受限;因单片机片上资源有限,该算法并不适合多路实时运算;为改进以上不足,设计了一种峰值(谷值)查找算法,该算法拥有O(n)时间复杂度,实时性好;通过该算法寻找采样波形中三个峰值点,确定波形的其中一个周期,进而计算得到均方根值;相比FFT算法,本算法运行速度提升93倍,空间复杂度降低为FFT的1/300,且在实际应用中运行稳定可靠,平均误差低于0.6%。  相似文献   

11.
Graph Cuts一直是应用于图像处理领域的一种重要方法。近些年特别在CUDA出现后,图像处理器逐渐成为能够编程的高层次多核心并行处理器。在GPU高性能计算平台上并行实现基于压入与重标记算法的Graph Cuts能够提高算法的运算性能,对于扩大Graph Cuts在图像处理领域的应用范围很有研究价值。首先将压入与重标记算法在GPU上进行并行化,通过CUDA的纹理内存技术来优化和改进并行化地压入与重标记算法的Graph Cuts。最后经实验证实,改进使算法性能得到有效提高。  相似文献   

12.
快速傅里叶变换(FFT)在科学和工程领域有着广泛的应用。在网格环境下进行并行FFT计算可以提高运算速度,促进FFT的应用。在介绍了网格计算发展状况的基础上,详细阐述了基于网格的分布式并行计算。实验以FFT算法为背景,在Globus Toolkit 4平台下实现了并行FFT计算,并对实验数据作了分析,说明了基于网格的并行FFT计算的可行性。最后指出网格资源调度对并行计算的重要性。  相似文献   

13.
针对快速傅里叶变换下的快速大整数乘法,给出了一种基于CUDA架构的GPU并行化加速的实现方法。通过分析整数快速乘法中的每一步骤,分别给出各步骤的并行化实现方法,并采用数据压缩等策略,对算法进行优化。实验表明该方法有效地提高了算法效率,随着数据规模的增长,可获得18倍以上的加速比。  相似文献   

14.
针对海洋模拟仿真中真实性和实时性难以均衡的难题,提出一种基于频谱统计模型和Perlin噪声模型对海浪建模,应用快速傅里叶变换(FFT)生成高度场并与Perlin噪声高度场线性混合的方法。把在屏幕空间生成的高度场网格点通过算法投射到世界空间生成合适的网格,利用统一计算设备架构(CUDA)高效的并行计算能力把复杂的模型数据转移到图形处理器(GPU)中进行处理。实验结果表明,该方法在保持场景真实性的同时,有效降低了计算复杂度,提高了绘制实时性。  相似文献   

15.
基于通用GPU并行计算技术,结合遥感图像数据融合处理特点,利用NVIDIA公司的CUDA编程框架,在其GPU平台上对BROVEY变换和YIQ变换融合算法进行了并行研究与实现.实验结果表明,随着遥感图像融合算法的计算复杂度、融合处理的问题规模逐渐增加,GPU并行处理的加速性能优势也逐渐增大,GPU通用计算技术在遥感信息处理领域具有广阔的应用前景.  相似文献   

16.
为解决时域有限差分(FDTD)算法应用于电大尺寸目标仿真的巨大耗时问题,应用FDTD算法的并行特性和通用图形处理器(GPGPU)技术,实现了一种基于计算统一设备架构(CUDA)的三维FDTD并行计算方法,采用了时域卷积完全匹配层(CPML)吸收边界条件模拟开域空间,对不同网格数目标仿真计算。进一步结合FDTD算法和CUDA的特点进行了优化,当计算空间元胞数在十万数量级及以上时,优化前后GPU运算相对于同时期的CPU分别可获得10和25倍以上的加速,结果表明该方法较适合用于实际电磁问题的仿真。  相似文献   

17.
信号的频率含量在很多应用中是非常重要的,很多算法在这方面进行了研究。普通的S变换可以同时提供时间和频率信息,但需要的计算要求较高。本文介绍了一种线性时频变换方法,包括傅里叶变换(FT)、短时傅里叶变换(STFT)和S变换(ST)。它是一种离散的,可逆的,无冗余的变换算法,具有快速傅里叶变换(FFT)相同的计算复杂度。经过合理的调试和仿真,该方法有效地对非平稳信号频谱进行采样和加窗过滤,得到连续S变换频谱,说明在信号分析中具有可行性和适用性。  相似文献   

18.
针对并行处理H.264标准视频流解码问题,提出基于CPU/GPU的协同运算算法。以统一设备计算架构(CUDA)语言作为GPU编程模型,实现DCT逆变换与帧内预测在GPU中的加速运算。在保持较高计算精度的前提下,结合CUDA混合编程,提高系统的计算性能。利用NIVIDIA提供的CUDA语言,在解码过程中使DCT逆变换和帧内预测在GPU上并行实现,将并行算法与CPU单机实现进行比较,并用不同数量的视频流验证并行解码算法的加速效果。实验结果表明,该算法可大幅提高视频流的编解码效率,比CPU单机的平均计算加速比提高10倍。  相似文献   

19.
采用傅里叶变换算法计算菲涅尔衍射相位时,在相位未解包裹的情况下,接收面上提取的相位分布曲线会出现跳变,如果进行解包裹,必然会导致错误的结果。研究发现用傅里叶变换算法进行衍射计算导致接收面上相位跳变的原因,是因为快速傅里叶变换(FFT)对矩阵标注索引的方式与离散傅里叶变换(DFT)有所区别,从而导致计算结果的相位与真实相位有差异。本文提出在FFT运算前后分别进行一次倒谱的方法矫正这种相位跳变,并仿真利用单次FFT进行二维矩孔的菲涅尔衍射,用2次倒谱矫正接收面上的相位跳变,结果证明了该矫正方法的可行性。  相似文献   

20.
基于GPU的位并行多模式串匹配研究   总被引:1,自引:0,他引:1       下载免费PDF全文
赵光南  吴承荣 《计算机工程》2011,37(14):265-267
图形处理器(GPU)具有较强的单一运算能力及高度并行的体系结构。根据上述特点,选择基于位并行技术的多模式串匹配算法M-BNDM,将其移植到GPU上加以实现和优化。通过对需要处理的数据进行预处理,将串匹配的过程简化为更适合CUDA计算数据的位操作。对基于CUDA架构的并行串匹配算法的性能影响因子进行分析。实验结果表明,与同等CPU算法相比,该算法能够获得约十几倍的加速比。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号