共查询到17条相似文献,搜索用时 140 毫秒
1.
2.
由于稳定性条件的要求和采用Yee 元胞体离散的方式求解Maxwell 方程,用FDTD 计算目标电磁散射时需要消耗大量的计算资源,计算往往需要较长时间。采用并行技术是提高计算效率的有效途径,本文基于计算统一架构CUDA 模型,给出了利用图形处理器(GPU)实现二维FDTD 并行计算的实现方法。给出了二维Mur 边界和PEC 边界的数值算例,计算结果表明,采用GPU 计算大大的提高了计算效率。 相似文献
3.
近几年图形处理器GPU的通用计算能力发展迅速,现在已经发展成为具有巨大并行运算能力的多核处理器,而CUDA架构的推出突破了传统GPU开发方式的束缚,把GPU巨大的通用计算能力解放了出来.本文利用GPU来加速AES算法,即利用GPU作为CPU的协处理器,将AES算法在GPU上实现,以提高计算的吞吐量.最后在GPU和CPU... 相似文献
4.
视频转码是个复杂的过程,它需要对已经压缩过的码流进行解析,然后经过处理转换成满足解码终端要求的目标格式码流.为了提高视频转码的效率并降低视频转码的计算复杂度,根据视频转码的要求和图形处理器的并行结构,提出了一种利用GPU强大的并行计算能力来加速视频转码的算法.该算法将视频转码过程中耗时最多、最复杂的运动估计和模式选择过程转移到GPU上并行执行.在开发GPU通用计算能力的时候,采用NVIDIA公司的CUDA(统一计算设备架构)计算平台.实验结果证明,该算法可以有效提高视频转码的速度和效率. 相似文献
5.
为快速地去除或减少DSA(Digital Subtraction Angiography)图像的噪声,对比评价KNN(K Nearest Neighbors)算法对高斯噪声、泊松噪声、斑点噪声、椒盐噪声4种噪声去除或减少的效果,帮助医生快速准确地为病人诊断疾病.提出的算法主要贡献在于构建了基于GPU(Graphics Processing Unit)的加速方法,使传统图像去噪的运算速度得到大幅提升.基于图像降质、图像还原过程建模,使用KNN算法对4种噪声去除或减少,并对算法做并行化处理,利用GPU加速实现去噪的过程.通过实验得出,KNN算法能较好地去除或减少高斯噪声、泊松噪声来还原DSA图像,使用CUDA(Compute Unified Device Architecture)编写可在GPU上运行的程序,利用GPU对1 024×1 024像素的24位深度的DSA图像去噪,平均渲染帧率能达到190.53 f/s(帧/秒),较传统CPU(Central Processing Unit)串行,平均处理速度提高70.86倍.使用GPU加速能够快速地处理数据量较大、计算密集的DSA噪声图像,实现有效并且快速的高斯噪声去除,帮助医生精、准、快地诊断疾病. 相似文献
6.
提出了一种基于GPU 的液晶大气湍流模拟器实时波面生成的计算方法,为了让液晶空间光调制器进行大气湍流类比。依据液晶湍流模拟器高分辨率、高精度的特性讨论CUDA 的算法。此外,建立一种基于GPU 波面生成的模型并进一步对其优化。最后给出使用CPU 和GPU 后的结果并进行类比。结果表明:采用231 项Zernike 系数生成分辨率为256256 的波前所需时间少于2 ms,与传统的采用CPU 生成的方法相比速度提升两个量级,满足实时波面生成的要求。 相似文献
7.
合成孔径雷达(SAR)成像处理的运算量较大,在基于中央处理器(Central Processing Unit, CPU)的工作站或服务器上一般需要耗费较长的时间,无法满足实时性要求。借助于通用并行计算架构(CUDA)编程架构,该文提出一种基于图形处理器(GPU)的SAR 成像处理算法实现方案。该方案解决了GPU 显存不足以容纳一景SAR 数据时数据处理环节与内存/显存间数据传输环节的并行化问题,并能够支持多GPU 设备的并行处理,充分利用了GPU设备的计算资源。在NVIDIA K20C 和INTEL E5645 上的测试表明,与传统基于GPU 的SAR 成像处理算法相比,该方案能够达到数十倍的速度提升,显著降低了处理设备的功耗,提高了处理设备的便携性,能够达到每秒约36兆采样点的实时处理速度。 相似文献
8.
一种基于GPU的高效合成孔径雷达信号处理器 总被引:1,自引:1,他引:0
随着合成孔径雷达(SAR)应用的不断扩展,其所需要处理的数据量也在不断增加,传统的SAR信号处理器的处理速度成为其应用扩展的瓶颈。为了应对这些挑战,需要高效的SAR信号处理器来加快计算速度。文章利用图形处理器(GPU)这一新颖高效的的计算平台进行SAR信号处理,利用GPU通用并行计算,使用CUDA实现SAR成像算法,充分发挥其计算能力。实验结果表明,其处理速度是基于CPU的传统SAR信号处理器的10倍以上。它为解决在未来SAR信号处理中可能出现的问题提供了一种可靠的方法。 相似文献
9.
协议特征识别技术中用到了一种重要的LCS算法,它是一种字符串比对算法,提取出字符串中的最长连续公共子串。然而,通过理论分析和实验表明:这个查找过程是一个时间复杂度较高的运算过程,如果输入的数据分组比较大,那么运行的时间将会非常长,为此不得不控制输入数据分组的大小和数量,这严重限制了所采用样本集的大小。提出了基于GPU对LCS运算实现加速的方法。在此基础上搭建和配置了CUDA平台,在此平台下研究并实现了LCS算法的并行性。通过对LCS算法在CUDA下并行性的研究,有效地加快了LCS算法的运行速度。实验结果表明,GPU下LCS算法的运行效率比CPU有了显著的提高。 相似文献
10.
11.
12.
图像融合是图像理解和计算机视觉领域中的一项重要课题。随着图像规模的增大,图像融合面临着处理速度的挑战。最近几年,GPU面向通用计算应用得到了快速发展。本文基于GPU编程模型和硬件特性,深入研究了基于边缘强度的图像融合算法,提出了该算法的并行模型。实验结果表明,该方法有效地综合了源图像中的重要信息,融合图像边界清晰,得到较好视觉效果和较优的评价指标,执行速度与CPU上相比提高了3个数量级。 相似文献
13.
Voronoi图栅格生成算法GPU并行实现 总被引:1,自引:0,他引:1
针对矢量法生成Voronoi图计算与存储复杂的缺点,重点分析研究了Voronoi图的栅格生成方法。对不同的栅格生成算法的复杂性和效率进行了比较分析,并针对以往方法速度较慢的问题,提出一种CUDA平台下GPU并行栅格扫描的方法。该方法利用GPU的多线程特性,将各个栅格的计算分散到不同的线程中并行处理。相比其他栅格生成方法,该方法不需要考虑栅格的规模,能够以几乎线性的时间完成Voronoi图的生成,极大地提高了生成速度。 相似文献
14.
随着X线探测板数据采集速度的快速发展,研究者开始利用C臂机采集投影数据并重建断层图像,用于手术导航或者放射治疗.但是普通PC的重建速度慢,很难匹配硬件数据采集速度,限制了其在实时临床环境中的应用.本文提出一种基于CUDA(Compute Unified Device Architecture)架构的改进FDK算法,利用GPU(Graphic Porcessing Unit)显卡的并行计算能力实现了实时CT重建,并通过B样条插值提高重建图像的质量,在实时临床环境中具有很好的应用价值. 相似文献
15.
16.
Floyd—Warshall算法是图论中APSP(All—Pair Shortest Paths)问题的经典算法,为了加快计算速度,提出使用GPU通用计算来实现。文章先从算法的原理入手,层层深入,提出了可以在GPU上运行的并行F—W算法。之后,又根据矩阵分块的原理和GPU共享存储器的使用,实现了改进的GPU并行F—W算法。通过大量测试实验,得到了该GPU并行程序相对于传统CPU并行程序产生超过百倍的加速比的结论。 相似文献
17.
《Journal of Visual Communication and Image Representation》2014,25(7):1566-1573
GPUs can provide powerful computing ability especially for data parallel applications, such as video/image processing applications. However, the complexity of GPU system makes the optimization of even a simple algorithm difficult. Different optimization methods on a GPU often lead to different performances. The matrix–vector multiplication routine for general dense matrices (GEMV) is an important kernel in video/image processing applications. We find that the implementations of GEMV in CUBLAS or MAGMA are not efficient, especially for small or fat matrix. In this paper, we propose a novel register blocking method to optimize GEMV on GPU architecture. This new method has three advantages. First, instead of using only one thread, we use a warp to compute an element of vector y so that the method can exploit the highly parallel GPU architecture. Second, the register blocking method is used to reduce the requirement of off-chip memory bandwidth. At last, the memory access order is elaborately arranged for the threads in one warp so that coalesced memory access is ensured. The proposed optimization methods for GEMV are comprehensively evaluated on different matrix sizes. The performance of the register blocking method with different block sizes is also evaluated in the experiment. Experiment results show that the new method can achieve very high speedup for small square matrices and fat matrices compared to CUBLAS or MAGMA, and can also achieve higher performance for large square matrices. 相似文献