期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

利用CUDA实现的基于GPU的SAR成像算法 总被引：3，自引：0，他引：3

柳彬王开志刘兴钊郁文贤《信息技术》2009,(11):62-65

高速发展的图形处理器（Graphics Processing Unit,GPU）为高效合成孔径雷达（Synthetic Aperture Radar,SAR）成像算法提供了具有发展前景的新型运算平台。与CPU相比,利用GPU进行通用计算具有成本低、性能高的特点。提出利用CUDA实现的基于GPU的SAR成像算法,与传统的基于CPU的成像算法相比,有两位数以上的效率提升,为应对SAR信号处理领域新的挑战提供具有前景的研究方向。相似文献

2.

基于GPU 的二维FDTD 并行计算

彭欢魏兵付彦明《微波学报》2012,28(S2):13-16

由于稳定性条件的要求和采用Yee 元胞体离散的方式求解Maxwell 方程,用FDTD 计算目标电磁散射时需要消耗大量的计算资源,计算往往需要较长时间。采用并行技术是提高计算效率的有效途径,本文基于计算统一架构CUDA 模型,给出了利用图形处理器（GPU）实现二维FDTD 并行计算的实现方法。给出了二维Mur 边界和PEC 边界的数值算例,计算结果表明,采用GPU 计算大大的提高了计算效率。相似文献

3.

基于GPU的AES算法实现

商凯胡艳《电子技术》2011,38(5):9-11

近几年图形处理器GPU的通用计算能力发展迅速,现在已经发展成为具有巨大并行运算能力的多核处理器,而CUDA架构的推出突破了传统GPU开发方式的束缚,把GPU巨大的通用计算能力解放了出来.本文利用GPU来加速AES算法,即利用GPU作为CPU的协处理器,将AES算法在GPU上实现,以提高计算的吞吐量.最后在GPU和CPU... 相似文献

4.

基于GPU的视频转码技术研究

黄兴宋建新《电视技术》2012,36(1):26-29

视频转码是个复杂的过程,它需要对已经压缩过的码流进行解析,然后经过处理转换成满足解码终端要求的目标格式码流.为了提高视频转码的效率并降低视频转码的计算复杂度,根据视频转码的要求和图形处理器的并行结构,提出了一种利用GPU强大的并行计算能力来加速视频转码的算法.该算法将视频转码过程中耗时最多、最复杂的运动估计和模式选择过程转移到GPU上并行执行.在开发GPU通用计算能力的时候,采用NVIDIA公司的CUDA(统一计算设备架构)计算平台.实验结果证明,该算法可以有效提高视频转码的速度和效率. 相似文献

5.

基于KNN的DSA图像去噪及GPU的快速实现

王光磊裴晨辉苑昊王斌刘秀玲《电视技术》2016,40(6):10-16

为快速地去除或减少DSA(Digital Subtraction Angiography)图像的噪声,对比评价KNN(K Nearest Neighbors)算法对高斯噪声、泊松噪声、斑点噪声、椒盐噪声4种噪声去除或减少的效果,帮助医生快速准确地为病人诊断疾病.提出的算法主要贡献在于构建了基于GPU(Graphics Processing Unit)的加速方法,使传统图像去噪的运算速度得到大幅提升.基于图像降质、图像还原过程建模,使用KNN算法对4种噪声去除或减少,并对算法做并行化处理,利用GPU加速实现去噪的过程.通过实验得出,KNN算法能较好地去除或减少高斯噪声、泊松噪声来还原DSA图像,使用CUDA(Compute Unified Device Architecture)编写可在GPU上运行的程序,利用GPU对1 024×1 024像素的24位深度的DSA图像去噪,平均渲染帧率能达到190.53 f/s(帧/秒),较传统CPU(Central Processing Unit)串行,平均处理速度提高70.86倍.使用GPU加速能够快速地处理数据量较大、计算密集的DSA噪声图像,实现有效并且快速的高斯噪声去除,帮助医生精、准、快地诊断疾病. 相似文献

6.

基于GPU 的液晶大气湍流模拟器的波面生成计算

下载免费PDF全文

孔悦徐熙平倪小龙《红外与激光工程》2014,43(9):3061-3065

提出了一种基于GPU 的液晶大气湍流模拟器实时波面生成的计算方法,为了让液晶空间光调制器进行大气湍流类比。依据液晶湍流模拟器高分辨率、高精度的特性讨论CUDA 的算法。此外,建立一种基于GPU 波面生成的模型并进一步对其优化。最后给出使用CPU 和GPU 后的结果并进行类比。结果表明：采用231 项Zernike 系数生成分辨率为256256 的波前所需时间少于2 ms,与传统的采用CPU 生成的方法相比速度提升两个量级,满足实时波面生成的要求。相似文献

7.

基于NVIDIA GPU 的机载SAR 实时成像处理算法CUDA 设计与实现

下载免费PDF全文

孟大地胡玉新石涛孙蕊李晓波《雷达学报》2013,2(4):481-491

合成孔径雷达(SAR)成像处理的运算量较大,在基于中央处理器(Central Processing Unit, CPU)的工作站或服务器上一般需要耗费较长的时间,无法满足实时性要求。借助于通用并行计算架构(CUDA)编程架构,该文提出一种基于图形处理器(GPU)的SAR 成像处理算法实现方案。该方案解决了GPU 显存不足以容纳一景SAR 数据时数据处理环节与内存/显存间数据传输环节的并行化问题,并能够支持多GPU 设备的并行处理,充分利用了GPU设备的计算资源。在NVIDIA K20C 和INTEL E5645 上的测试表明,与传统基于GPU 的SAR 成像处理算法相比,该方案能够达到数十倍的速度提升,显著降低了处理设备的功耗,提高了处理设备的便携性,能够达到每秒约36兆采样点的实时处理速度。相似文献

8.

一种基于GPU的高效合成孔径雷达信号处理器 总被引：1，自引：1，他引：0

俞惊雷柳彬王开志刘兴钊郁文贤《太赫兹科学与电子信息学报》2010,8(4):415-419

随着合成孔径雷达（SAR）应用的不断扩展,其所需要处理的数据量也在不断增加,传统的SAR信号处理器的处理速度成为其应用扩展的瓶颈。为了应对这些挑战,需要高效的SAR信号处理器来加快计算速度。文章利用图形处理器（GPU）这一新颖高效的的计算平台进行SAR信号处理,利用GPU通用并行计算,使用CUDA实现SAR成像算法,充分发挥其计算能力。实验结果表明,其处理速度是基于CPU的传统SAR信号处理器的10倍以上。它为解决在未来SAR信号处理中可能出现的问题提供了一种可靠的方法。相似文献

9.

基于GPU的LCS算法加速机制研究与实现

张常志牟澄黄小红马严《通信学报》2013,34(Z2):9-13

协议特征识别技术中用到了一种重要的LCS算法,它是一种字符串比对算法,提取出字符串中的最长连续公共子串。然而,通过理论分析和实验表明：这个查找过程是一个时间复杂度较高的运算过程,如果输入的数据分组比较大,那么运行的时间将会非常长,为此不得不控制输入数据分组的大小和数量,这严重限制了所采用样本集的大小。提出了基于GPU对LCS运算实现加速的方法。在此基础上搭建和配置了CUDA平台,在此平台下研究并实现了LCS算法的并行性。通过对LCS算法在CUDA下并行性的研究,有效地加快了LCS算法的运行速度。实验结果表明,GPU下LCS算法的运行效率比CPU有了显著的提高。相似文献

10.

基于GPU的宽带信号干涉仪测向算法实现

苗峻窦修全郭海召《信息技术》2023,(8):112-118+124

在应用干涉仪算法测向时,需要对多个接收信号进行逐一处理,而且测向精度往往与本地样本库数据量正相关,因此当需对大量信号进行高精度测向时,常规的计算平台难以保证算法的实时性。针对以上问题,提出一种优化的干涉仪算法,能够在降低样本库数据量的同时保持较高的测向精度,并探索了一种基于GPU并行计算的算法实现方式。经计算机仿真验证,基于GPU实现的优化算法,可将执行速度提升至CPU平台的十余倍。相似文献

11.

DVCPRO HD并行解码算法的研究与实现

王祥远王兴东宋利《信息技术》2009,(7):72-74

DVCPRO HD标准广泛应用于广播电影电视前端的视频压缩,在普通的PC平台上每帧解码耗时需80到100ms,经过汇编优化后城需40到60ms,在优化比较好的情况下能达到实时解码播放的需求.GPU具有强大的并行处理能力,而DVCPRO HD的视频单元间耦合性小,适应于并行处理.充分利用GPU的并行性和强大的浮点运算功能,在CUDA开发环境下对其进行并行解码优化,可远远超过实时解码的要求. 相似文献

12.

基于边缘强度匹配的图像融合并行算法的研究

吴粉侠李红《电子设计工程》2014,(23):168-171

图像融合是图像理解和计算机视觉领域中的一项重要课题。随着图像规模的增大,图像融合面临着处理速度的挑战。最近几年,GPU面向通用计算应用得到了快速发展。本文基于GPU编程模型和硬件特性,深入研究了基于边缘强度的图像融合算法,提出了该算法的并行模型。实验结果表明,该方法有效地综合了源图像中的重要信息,融合图像边界清晰,得到较好视觉效果和较优的评价指标,执行速度与CPU上相比提高了3个数量级。相似文献

13.

Voronoi图栅格生成算法GPU并行实现 总被引：1，自引：0，他引：1

屠文森汪佳佳《现代电子技术》2015,(4):66-68,72

针对矢量法生成Voronoi图计算与存储复杂的缺点,重点分析研究了Voronoi图的栅格生成方法。对不同的栅格生成算法的复杂性和效率进行了比较分析,并针对以往方法速度较慢的问题,提出一种CUDA平台下GPU并行栅格扫描的方法。该方法利用GPU的多线程特性,将各个栅格的计算分散到不同的线程中并行处理。相比其他栅格生成方法,该方法不需要考虑栅格的规模,能够以几乎线性的时间完成Voronoi图的生成,极大地提高了生成速度。相似文献

14.

基于CUDA架构与B样条的实时锥束CT重建算法

秦安桂叶晨冯前进陈武凡《电路与系统学报》2010,15(4)

随着X线探测板数据采集速度的快速发展,研究者开始利用C臂机采集投影数据并重建断层图像,用于手术导航或者放射治疗.但是普通PC的重建速度慢,很难匹配硬件数据采集速度,限制了其在实时临床环境中的应用.本文提出一种基于CUDA(Compute Unified Device Architecture)架构的改进FDK算法,利用GPU(Graphic Porcessing Unit)显卡的并行计算能力实现了实时CT重建,并通过B样条插值提高重建图像的质量,在实时临床环境中具有很好的应用价值. 相似文献

15.

基于GPU的数学形态学运算并行加速研究

张聪邢同举罗颖张静孙强《电子设计工程》2011,19(19):141-143,146

数学形态学运算是一种高度并行的运算,其计算量大而又如此广泛地应用于对实时性要求较高的诸多重要领域。为了提高数学形态学运算的速度,提出了一种基于CUDA架构的GPU并行数学形态学运算。文章详细描述了GPU硬件架构和CUDA编程模型,并给出了GPU腐蚀并行运算的详细实现过程以及编程过程中为充分利用GPU资源所需要注意的具体问题。实验结果表明,GPU并行数学形态学运算速度可达到几个数量级的提高。相似文献

16.

基于GPU的并行APSP问题的研究

张凌洁赵英《电子设计工程》2012,20(17):15-18,22

Floyd—Warshall算法是图论中APSP（All—Pair Shortest Paths）问题的经典算法,为了加快计算速度,提出使用GPU通用计算来实现。文章先从算法的原理入手,层层深入,提出了可以在GPU上运行的并行F—W算法。之后,又根据矩阵分块的原理和GPU共享存储器的使用,实现了改进的GPU并行F—W算法。通过大量测试实验,得到了该GPU并行程序相对于传统CPU并行程序产生超过百倍的加速比的结论。相似文献

17.

Highly parallel GEMV with register blocking method on GPU architecture

《Journal of Visual Communication and Image Representation》2014,25(7):1566-1573

GPUs can provide powerful computing ability especially for data parallel applications, such as video/image processing applications. However, the complexity of GPU system makes the optimization of even a simple algorithm difficult. Different optimization methods on a GPU often lead to different performances. The matrix–vector multiplication routine for general dense matrices (GEMV) is an important kernel in video/image processing applications. We find that the implementations of GEMV in CUBLAS or MAGMA are not efficient, especially for small or fat matrix. In this paper, we propose a novel register blocking method to optimize GEMV on GPU architecture. This new method has three advantages. First, instead of using only one thread, we use a warp to compute an element of vector y so that the method can exploit the highly parallel GPU architecture. Second, the register blocking method is used to reduce the requirement of off-chip memory bandwidth. At last, the memory access order is elaborately arranged for the threads in one warp so that coalesced memory access is ensured. The proposed optimization methods for GEMV are comprehensively evaluated on different matrix sizes. The performance of the register blocking method with different block sizes is also evaluated in the experiment. Experiment results show that the new method can achieve very high speedup for small square matrices and fat matrices compared to CUBLAS or MAGMA, and can also achieve higher performance for large square matrices. 相似文献