期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

王艳梅史晓华于湛麟《电子测试》2013,(12):51-55,42

Speeded Up Robust Feature（SURF）算法是在计算机视觉领域得到广泛应用的一种图像兴趣点检测和匹配方法。开放计算语言（OpenCL）提供了一个在异构体系结构上,包括GPU,CPU及其他类型处理器,编写并行程序的框架。本文介绍了如何在通用GPU和OpenCL平台上,对SURF算法进行优化与实现。本文对其中一些优化方法,例如kernel线程的配置,局部内存的使用方法等,进行了详细的对比和讨论。最终实现的OpenCL版本的算法在NVidiaGTX260平台上获得了比原始的CPU版本在IntelDual—CoreE54002．7G处理器上至少21倍的加速。相似文献

2.

基于GPU的MD5破解技术研究与实现

兰天吉庆兵于飞张李军《通信技术》2013,(12):62-65

统一计算设备架构（CUDA,ComputeUnifiedDeviceArchitecture）是并行计算中重要的研究与应用领域,如何将串行程序重构为并行程序以及如何将并行程序的速度最大化都成为研究的重点。前期搭建了单机单卡和单机多卡的实验环境,并在此平台上重构了一系列的密码算法。为了进一步提高破解平台的破解速度和稳定性,设计并实现了一种基于GPU集群（多机多卡）的暴力破解通用平台,并且在此平台上验证了MD5暴力破解的高速性和鲁棒性,为未来设计密码分析算法和提升算法性能提供了研究基础。相似文献

3.

基于GPU的MTD性能优化

杨千禾袁子乔扈月松《火控雷达技术》2021,50(1):86-93

为了解决传统雷达信号处理机在研发阶段面临的调试困难,计算能力受硬件限制及程序复用性差等问题,本文提出了使用GPU作为雷达计算核心的方案.在使用GPU实现雷达信号处理算法的过程中,动目标检测(MTD)部分的优化效果远低于脉冲压缩和恒虚警检测.经过分析,MTD过程中的矩阵转置与向量点乘占据了算法的大量时间.本文从GPU的数... 相似文献

4.

图形处理器上的快速傅里叶变换

邓劲《现代电子技术》2007,30(10):151-154

随着图形处理器(GPU)性能的突飞猛进,以及GPU可编程特性的发展,人们开始将GPU应用到通用计算领域(GPGPU)。目前国内在这方面的研究还相对较少。使用改进的按频率划分(DIF)算法,结合相关研究的新进展,在GPU上实现了快速傅里叶变换(FFT),讨论和分析GPU在GPGPU中的应用技巧和技术原理,比较GPU与CPU在GPGPU设计中的差异以及性能表现。对GPGPU设计具有指导作用。相似文献

5.

同态滤波的一种GPU提速实现方法

张楠王建立王德俊《微电子学与计算机》2011,28(1)

为了提高光照不均图像的增强速率,提出了基于GPU平台的同态滤波并行算法.根据同态滤波算法的并行性,利用CUDA软硬件体系架构,实现了同态滤波算法向GPU上的移植.利用多幅不同分辨率图像作为测试数据,对比CPU和GPU方案的计算效率.实验结果表明,GPU实现方案大幅度提升了计算效率. 相似文献

6.

基于通用GPU计算的分析与实现

曹譞《中国电子商情》2009,(11)

根据GPU和CPU在硬件组成以及数据处理的区别引入了通用GPU计算的概念.通过计算流体粒子模拟的实际数学模型来详细介绍了通用GPU计算的实现方式,并且给出了具体程序的设计算法,最终使用计算数据测试验证通用GPU计算对与离散型大规模数据计算的高效性. 相似文献

7.

基于GPU的分类并行算法的研究与实现

王坤《电子设计工程》2014,(18)

分析了KNN算法在GPU上实现并行计算的可能性,提出了通过使用CUDA实现KNN算法的方案,在研究了GPU对存储访问的机制后,通过设计合理的数据以及对算法的改进,避免存储体冲突的产生,提高了算法的健壮性。研究结果证明该方法在GPU上的并行运算速度明显要快于CPU,有着很好的加速比。相似文献

8.

后向投影成像算法的GPU优化方法研究

下载免费PDF全文

班阳阳张劲东陈家瑞邱晓燕《雷达科学与技术》2014,12(6):659-665

合成孔径雷达(SAR)成像算法能够通过图形处理器(GPU)加速来实现处理速度的显著提升。针对后向投影(BP)成像算法的GPU加速,分析了BP算法的并行化和并行处理方法,提出了一种适合GPU加速的BP成像方案;通过研究GPU设计中的多流异步执行技术、数据传输模式和计算速度与精度,进一步提出一种针对BP成像的GPU优化成像方案。通过仿真数据和实测数据在Tesla C2075上的测试结果表明,与GPU非优化方案的实现相比,该方案有了近一倍的速度提升。相似文献

9.

基于GPU的AES算法实现

商凯胡艳《电子技术》2011,38(5):9-11

近几年图形处理器GPU的通用计算能力发展迅速,现在已经发展成为具有巨大并行运算能力的多核处理器,而CUDA架构的推出突破了传统GPU开发方式的束缚,把GPU巨大的通用计算能力解放了出来.本文利用GPU来加速AES算法,即利用GPU作为CPU的协处理器,将AES算法在GPU上实现,以提高计算的吞吐量.最后在GPU和CPU... 相似文献

10.

GPU计算液晶自适应光学波前重构的并行性研究 总被引：1，自引：2，他引：1

李大禹胡立发穆全全宣丽《液晶与显示》2007,22(5):572-575

研究了图形处理器(GPU)计算液晶自适应波前重构的并行性。介绍了液晶自适应光学的Zernike模式波前重构算法,论述了GPU的通用架构和GPU实现波前重构的方法。在此基础上提出了利用GPU拥有的RGBA4个颜色通道进行并行计算,进一步加快计算速度,最后给出了实验结果。结果表明:在GPU计算波前重构时,利用RGBA颜色通道的并行计算,将计算速度提高了3倍多。相似文献

11.

基于GPU 的宽带干涉仪测向算法实现

蒋林鸿何子述程婷贾可新《现代雷达》2012,34(1):35-39

相关干涉仪算法具有实现简单和精度高等优点,但将其运用于宽带测向时存在运算量较大等问题,文中针对该问题提出一种基于GPU的宽带干涉仪测向算法实现,利用CUDA技术对传统相关算法进行改进,使之能够适应于GPU平台并充分发挥图形处理器强大的浮点运算能力及其出色的并行执行性,进而使算法在执行速度上能获得极大提升。算法中采用向量1范数并通过插值拟合得到来波方向的精确估计,仿真结果表明,算法在满足实时性要求的同时也能够保证较高精度。相比于CPU平台,算法的GPU实现能够获得很高的时间加速比。相似文献

12.

基于GPU加速的地震图像重建技术

许盼兮张东孙尽尧《半导体光电》2013,34(5):852-857

针对目前地层层析成像算法中正演算法存在计算量大、计算速度慢的问题,以图像处理器(GPU)为核心,研究并实现了一种基于GPU平台的时域有限差分(FDTD)正演算法。CUDA是一种由NVIDIA推出的GPU通用并行计算架构,也是目前较为成熟的GPU并行运算架构。而FDTD正演算法本身在算法特性上满足并行的要求,二者的结合将极大地加速程序的计算速度。在基于标准Marmousi速度模型的正演模拟中,程序速度提升30倍,而GPU正演图像与CPU正演结果误差小于千分之一。算例表明CUDA可以大大加速目前的FDTD正演算法,并且随着GPU硬件自身的发展和计算架构的不断改进,加速效果还将进一步提升,这将有利于后续波形反演工作的进展。相似文献

13.

基于GPU并行计算的OMP算法

谈继魁方勇霍迎秋《电视技术》2015,39(15):42-45

重建算法在压缩感知理论中有着重要的作用,经典的正交匹配追踪(OMP)重建算法在每次迭代中对已选择的原子进行正交化处理以加速算法的收敛速度,但同时增加了算法的计算复杂度。针对这一问题,提出了一种基于图形处理单元(GPU)并行计算的OMP算法,重点对算法中复杂度高的投影和矩阵求逆部分在GPU平台上进行并行设计。实验结果表明基于GPU的并行OMP算法相对于其串行算法加速比可以达到30~44倍,有效地提高了算法的计算效率,拓宽了该算法的应用范围。相似文献

14.

基于GPU的SAR方位向信号分解的高效实现方法

下载免费PDF全文

张相广吴长朋高叶盛王开志郁文贤《太赫兹科学与电子信息学报》2012,10(1):98-102

提出了一种基于图形处理器(GPU)的SAR方位向信号分解的高效实现方法。SAR方位向信号可以通过四参数Chirplet分解方法来分解。此方法的关键难题是计算量过大,计算量主要由2部分组成:构建Chirp原子库,以及SAR方位向信号在过完备库上分解的计算量。与传统的CPU相比,GPU更加适用于密集型和大量数据并行化的计算。提出将算法的核心部分移植到GPU上进行并行计算,充分挖掘其运算潜能。结果表明:该方法与传统的基于CPU的算法相比有两位数以上的效率提升。相似文献

15.

一种基于图形处理器的高吞吐量SM2数字签名计算方案

朱辉黄煜坤王枫为杨晓鹏李晖《电子与信息学报》2022,44(12):4274-4283

随着数据传输安全的普及和认证信息细粒化程度的提高,基于公钥密码学的签名运算使用越来越频繁,其处理速度逐渐成为制约各种高并发安全应用的瓶颈问题。为此,该文提出一种基于图形处理器(GPU)的高吞吐量SM2数字签名计算方案。首先,通过GPU底层指令优化基础运算的计算过程,构建高效的基础运算模块;进而,结合GPU的平台特性,优化基于费马小定理的模逆算法,缩短SM2推荐素数的加法链,大幅提升模逆处理速度;同时,按需使用倍点运算和重复倍点算法,避免线程束分化现象,并有效减少未知点乘运算的计算量。理论分析和实验测试结果表明该方案可有效地提升SM2签名和验签算法的处理速度,在RTX3090单卡上实现了7.609×10⁷次/s的签名吞吐量和3.46×10⁶次/s的验签吞吐量。相似文献

16.

快速互信息匹配及GPU实现 总被引：1，自引：1，他引：0

田斐崔玉连《电光与控制》2010,17(2)

针对模板匹配中速度和精度不能兼顾的问题,提出了一种基于GPU的互信息配准方法。为了算法不至于太复杂而不能在GPU下运行,首先将图像二值化,使得GPU每个线程用到的临时变量减少到4个,然后利用GPU逐像素计算模板和焊缝图像的互信息。将所提算法应用到焊缝定位系统中,通过GPU来执行简化后的互信息计算,基于CUDA的实验表明,所提出的算法可以完成每秒约30帧的图像焊缝定位。相似文献