首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 78 毫秒
1.
商凯  胡艳 《电子技术》2011,38(5):9-11
近几年图形处理器GPU的通用计算能力发展迅速,现在已经发展成为具有巨大并行运算能力的多核处理器,而CUDA架构的推出突破了传统GPU开发方式的束缚,把GPU巨大的通用计算能力解放了出来.本文利用GPU来加速AES算法,即利用GPU作为CPU的协处理器,将AES算法在GPU上实现,以提高计算的吞吐量.最后在GPU和CPU...  相似文献   

2.
基于GPU的高度并行Marching Cubes改进算法   总被引:1,自引:0,他引:1  
提出一种完全基于GPU(graphics processing unit)的高度并行Marching Cubes改进算法.针对Marching Cubes算法流程中数据处理阶段进行优化.首先并行遍历每个体元,以序列形式得到每体元的非空状态,再利用高效流式缩减操作获得非空体元序列以便仅针对非空体元高度并行地生成等值面三角形.实验表明,与同市场价格CPU实现相比,该算法效率最高提高到了前者的9倍以上.  相似文献   

3.
以CUDA架构为例,对传统的CPU+单GPU架构进行了分析,提出了一种CPU+多GPU异构协同计算的系统方案,对关键的CPU对多GPU的管理及多GPU间数据通信等问题做了重点讨论,从理论上进行了可行性分析,并提出了相应的优化方法.  相似文献   

4.
基于GPU的快速二维沃尔什变换研究   总被引:1,自引:1,他引:1  
提出了一种基于GPU(Graphics Processing Unit,图形处理器)CUDA(Compute Unified Device Architecture,计算统一设备架构)平台的快速二维沃尔什变换(Walsh Transform)实现方法.该方法利用GPU的并行结构和硬件特点,从算法实现、存储类型、逻辑构架设置等方面提高了沃尔什变换的运算速度.实验结果表明,随着图像分辨率的增加,沃尔什变换在GPU上运行时间远低于CPU,GPU比CPU具有更明显的加速效果.  相似文献   

5.
一种基于同态滤波的红外图像增强新方法   总被引:3,自引:3,他引:3  
针对红外图像分辨率低,对比度低,噪声大等不足,提出了一种基于同态滤波的红外图像增强新方法.这种方法首先用自适应中值滤波对红外图像进行去噪,保证噪声不被增强;然后利用同态滤波的原理,对图像细节进行增强.为了克服同态滤波结果所存在缺陷,最后联合使用限制对比度自适应直方图均衡进一步调整图像的动态范围.实验结果验证本文方法对红外图像的分辨率和对比度增强有很好的效果.  相似文献   

6.
文中采用了一种基于CPU+GPU异构并行架构体系的信号处理方案。按照雷达信号处理流程,通用处理计算机利用CPU串行代码完成核函数启动前数据准备和设备初始化工作,并控制信号处理的任务调度和负载分配,然后将数据通过PCI E总线传输至显存,利用GPU特有的单指令多线程方式,并行实现线性调频信号产生以及线性调频信号频域脉冲压缩算法,并与CPU进行比较。实验结果表明,利用计算统一设备架构技术实现的线性调频信号产生以及脉冲压缩算法取得了比CPU更高的运算效率。  相似文献   

7.
系统几何校正是星载SAR地面数据处理的基本环节,但高分辨率星载SAR数据量巨大,导致其计算时间很长,成为处理的瓶颈.为解决这一问题,文中提出了统一设备架构(CUDA)模型下的GPU+CPU系统几何校正方法,并根据算法特点对重采样步骤的并行计算结构进行优化改进.最后,利用真实卫星影像进行了验证实验,结果表明该步骤获得了10倍的加速比,且图像的定位精度没有发生明显改变,可以更好地满足高时效应用需求.  相似文献   

8.
统一计算设备架构(CUDA,ComputeUnifiedDeviceArchitecture)是并行计算中重要的研究与应用领域,如何将串行程序重构为并行程序以及如何将并行程序的速度最大化都成为研究的重点。前期搭建了单机单卡和单机多卡的实验环境,并在此平台上重构了一系列的密码算法。为了进一步提高破解平台的破解速度和稳定性,设计并实现了一种基于GPU集群(多机多卡)的暴力破解通用平台,并且在此平台上验证了MD5暴力破解的高速性和鲁棒性,为未来设计密码分析算法和提升算法性能提供了研究基础。  相似文献   

9.
高效实现恒虚警概率检测(CFAR)是新型雷达终端信号处理系统研制的重要部分。在基于图形处理器(GPU)的软件化雷达终端架构下,采用统一计算设备架构(CUDA)技术,并根据GPU的特点对算法实现进行优化,实现了高效的软件化CFAR算法,相比CPU软件实现大大缩短了数据处理时间,能够满足雷达信号处理对实时性的需求,同时验证了研发基于GPU的软件化雷达终端具有较高的可行性。  相似文献   

10.
为了能在PC机上处理大规模数据集问题,提出了使用CUDA架构对LP-SVM的加速实现方法。该方法针对PC机内存小的缺点,对SVM的分解算法进行改编,得到求解LP-SVM的分解算法。LP—SVM分解算法每次只需要求解一个小规模的线性规划问题,避免一次性把所有训练数据都装进内存。同时把求解线性规划中比较耗时的矩阵运算,移植到CUDA上进行,提高了求解效率。实验结果表明:LP—SVM算法在经过CUDA加速以后,算法的执行效率提高了10—35倍。  相似文献   

11.
针对在计算3D集成成像过程中耗时较多的问题,采用了一种新的硬件加速方法——GPU加速,分别在不同透镜数目和三维物体复杂度下,对CPU和GPU的运算时间进行对比。结果表明:计算复杂度大于数据拷贝时间时,GPU的整体加速效果明显,并且随着计算复杂度的提高,加速效果越来越显著。  相似文献   

12.
Because of the high data dependency between ADL (adaptive directional lifting) operations, such as interpolation, directional prediction and update, the existing CUDA-specific (Compute Unified Device Architecture) implementation of traditional rectilinear lifting-based transform is difficult to be used for ADL-based transform. This paper proposes a novel CUDA-specific method named Slice for implementation of the ADL-based wavelet transforms on GPU (Graphics Processing Unit). Compared with the previous CUDA-specific methods the proposed method makes each step handled by a different kernel to avoid unnecessary waiting time between lifting steps. Meanwhile the interpolation and decomposition including prediction and update are executed in an interleaving style for each filtered pixel. Moreover, the coalesced memory accesses are exploited to the greatest extent by coalesced reading a slice of data to the shared memory and coalesced writing them back to the global memory after being processed. The results show that the Slice method overcomes the limitation of high data dependency between the lifting steps and achieves more than 10 times speedup compared to the optimized CPU implementation for the ADL-based transform.  相似文献   

13.
在上位机进行实时目标跟踪,使用传统的CPU进行计算往往由于数据处理量大而消耗很多计算时间,影响实时性和跟踪效果。近年来,nVidia公司提出的CUDA架构利用GPU进行并行计算,极大提高了运算速度。本文在介绍CUDA架构的特性及软硬件实现原理的基础上,利用CUDA来实现上位机的实时目标跟踪,并与传统方法的计算速度进行了比较。结果表明,CUDA的应用使上位机目标跟踪的实时性得到了很大提升,可以将其应用于其它众多领域。  相似文献   

14.
随着合成孔径雷达(SAR)应用的不断扩展,其所需要处理的数据量也在不断增加,传统的SAR信号处理器的处理速度成为其应用扩展的瓶颈。为了应对这些挑战,需要高效的SAR信号处理器来加快计算速度。文章利用图形处理器(GPU)这一新颖高效的的计算平台进行SAR信号处理,利用GPU通用并行计算,使用CUDA实现SAR成像算法,充分发挥其计算能力。实验结果表明,其处理速度是基于CPU的传统SAR信号处理器的10倍以上。它为解决在未来SAR信号处理中可能出现的问题提供了一种可靠的方法。  相似文献   

15.
This paper proposes new models of GPU energy consumption from the perspectives of hardware architects and graphics programmers by performing an architecture-independent analysis of the classical graphics rendering pipeline which is still in widespread use today. The detailed analysis includes graphics rendering workload, memory bandwidth and energy consumption . Although the models are derived from classical 3D pipeline, they are extensible to programmable pipelines. There are many factors that affect the performance and energy consumption of 3D graphics rendering, such as the number of textures, vertex sharing, level of details, and rendering algorithms. The proposed models are validated by our simulation study and used to guide our 3D graphics hardware design and 3D graphics programming in order to optimize performance and energy consumption of our GPU prototypes which have been successfully fabricated in SMIC 0.13 μm CMOS technology.  相似文献   

16.
随着数据传输安全的普及和认证信息细粒化程度的提高,基于公钥密码学的签名运算使用越来越频繁,其处理速度逐渐成为制约各种高并发安全应用的瓶颈问题。为此,该文提出一种基于图形处理器(GPU)的高吞吐量SM2数字签名计算方案。首先,通过GPU底层指令优化基础运算的计算过程,构建高效的基础运算模块;进而,结合GPU的平台特性,优化基于费马小定理的模逆算法,缩短SM2推荐素数的加法链,大幅提升模逆处理速度;同时,按需使用倍点运算和重复倍点算法,避免线程束分化现象,并有效减少未知点乘运算的计算量。理论分析和实验测试结果表明该方案可有效地提升SM2签名和验签算法的处理速度,在RTX3090单卡上实现了7.609$ \times {10^7}$次/s的签名吞吐量和3.46$ \times {10^6}$次/s的验签吞吐量。  相似文献   

17.
矩量法(MOM)在求解电磁场散射问题时,当未知量数目比较大时,其内存占用和计算时间非常大.基于最佳一致逼近理论构造了高阶矩量法,并引入了计算统一设备架构(CUDA)技术,在图形处理器(GPU)上实现了并行加速计算二维电磁散射问题.实例结果表明,在与快速多极子算法(FMM)相对比下,该方法在较低剖分的情况下,具有很高的计算精度,并且在阻抗矩阵填充和矩矢相乘时的速度大大提升,适用于电大尺寸目标的散射问题.  相似文献   

18.
外部计算机断层成像(CT)重建主要用于重建管状物(如管道)的管壁截面图像,具有重要的实际意义。外部CT重建算法中,带子区域平均图像总变差最小的凸集投影(SA-TVM-POCS)重建数值算法可以得到高质量的CT图像,可用于管道的无损检测。但由于在实现过程中计算量较大,阻碍了其在一些时间要求较高环境中的应用。计算机统一设备架构(Computer Unified Device Architecture, CUDA)是近几年发展起来的解决高强度计算的有效工具之一,该文利用CUDA的高强度并行计算性能,提高外部CT问题SA-TVM-POCS算法的速度,从而增加该算法的应用范围;为充分利用CUDA其高强度数据级并行计算能力,该文改进了SA-TVM-POCS算法的实现过程以适应CUDA的并行计算架构。实验结果表明,该文方法可以在重建图像质量没有下降的情况下,加速比达到20倍以上;所以,利用CUDA可以加快SA-TVM-POCS算法的计算速度。  相似文献   

19.
在许多信息处理过程中,如对信号的过滤、检测、预测等,都要广泛地用到滤波器,数字滤波器是数字信号处理中使用最广泛的一种方法,实现方法主要有IIR滤波器和FIR滤波器两种。本文对直接型的FIR滤波器进行了优化和实现。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号