首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 125 毫秒
1.
马歌  肖汉 《现代电子技术》2014,(20):103-106
Prewitt算法是数字图像分割中最常用的边缘检测算法。采用传统CPU上的串行方法实现该算法需要较大的计算量、耗时较长,因此,通过GPU对其进行性能加速有着重要的意义。然而由于GPU硬件体系结构的差异性,跨平台移植是一件非常困难的工作。针对上述问题,提出了一种基于OpenCL异构框架的Prewitt图像边缘检测并行算法。实验结果表明,该并行算法比CPU上的串行算法运行速度快,加速比可达30倍,有效地提高了大规模数据处理的效率,可移植性好,具有较高的应用价值。  相似文献   

2.
商凯  胡艳 《电子技术》2011,38(5):9-11
近几年图形处理器GPU的通用计算能力发展迅速,现在已经发展成为具有巨大并行运算能力的多核处理器,而CUDA架构的推出突破了传统GPU开发方式的束缚,把GPU巨大的通用计算能力解放了出来.本文利用GPU来加速AES算法,即利用GPU作为CPU的协处理器,将AES算法在GPU上实现,以提高计算的吞吐量.最后在GPU和CPU...  相似文献   

3.
文中采用了一种基于CPU+GPU异构并行架构体系的信号处理方案。按照雷达信号处理流程,通用处理计算机利用CPU串行代码完成核函数启动前数据准备和设备初始化工作,并控制信号处理的任务调度和负载分配,然后将数据通过PCI E总线传输至显存,利用GPU特有的单指令多线程方式,并行实现线性调频信号产生以及线性调频信号频域脉冲压缩算法,并与CPU进行比较。实验结果表明,利用计算统一设备架构技术实现的线性调频信号产生以及脉冲压缩算法取得了比CPU更高的运算效率。  相似文献   

4.
为了改善人工蜂群算法对于大规模数据、高复杂度问题的执行效率,采用开放计算语言(OpenCL )并行编程模型,提出一种基于图形处理器(GPU )加速的并行人工蜂群算法.将每只采蜜蜂映射到 OpenCL 的一个工作组,跟随蜂采用局部轮盘赌选择,使得人工蜂群算法在 GPU 中加速执行.实验结果表明,并行人工蜂群算法取得了较好的优化效果,提高了算法的运算速度.  相似文献   

5.
研究了一种利用图形处理单元(GPU)加速数字全息图再现的算法。该算法充分利用GPU强大的并行计算能力,有效地缩短了数字全息图再现时间。比较了GPU加速运算和中央处理器(CPU)独立运算两种模式下,两种不同尺寸的数字全息图再现时间。结果表明,对于大小为2048 pixel×2048 pixel的数字全息图,GPU算法的再现时间可缩短至约1/15。利用该算法编写了易操作的通用软件。在高配置主机和高性能GPU硬件环境下,该软件不仅能够满足诸如数字全息显示、数字全息显微等系统实时功能的要求,还能够指导数字全息实验系统的快速搭建。  相似文献   

6.
遥感图像融合技术是有效利用多传感器、多平台、多光谱、多时相遥感数据的主要途径.针对经典的主成分分析(PCA)融合串行算法,提出一种新的基于CPU/GPU异构系统的并行PCA融合算法.实验结果表明,基于CPU/GPU异构系统CUDA架构的并行PCA融合算法充分利用GPU的并行处理能力,计算速度提高幅度明显,图像越大越复杂,提高的幅度越大,处理4096×4096图像数据时,最高能获得将近134倍的加速速率,极大的提高了PCA融合算法在实际应用中的实时性.  相似文献   

7.
采用数字波束形成算法与合成导向矢量算法相结合的测高算法,提高了测角精度和测角速率。另外,为了进一步满足系统实时性要求,提出采用基于计算统一设备架构为平台完成雷达测角的方案,该方案利用并行计算平台和异构编程模型,首先在通用处理计算机上用CPU完成预处理,并控制信号处理的任务调度和负载分配,图形处理器实现数字波束形成算法和合成导向矢量算法,并与CPU进行比较。实验结果表明,利用计算统一设备架构技术实现的测高算法取得了比CPU算法更高的运算效率。  相似文献   

8.
Speeded Up Robust Feature(SURF)算法是在计算机视觉领域得到广泛应用的一种图像兴趣点检测和匹配方法。开放计算语言(OpenCL)提供了一个在异构体系结构上,包括GPU,CPU及其他类型处理器,编写并行程序的框架。本文介绍了如何在通用GPU和OpenCL平台上,对SURF算法进行优化与实现。本文对其中一些优化方法,例如kernel线程的配置,局部内存的使用方法等,进行了详细的对比和讨论。最终实现的OpenCL版本的算法在NVidiaGTX260平台上获得了比原始的CPU版本在IntelDual—CoreE54002.7G处理器上至少21倍的加速。  相似文献   

9.
针对传统的遥感图像前期处理算法在面对海量地面数据时计算时间很难满足需求的问题,基于RPC模型的遥感成像几何校正算法的并行加速和基于SIFT特征提取的图像匹配技术的并行加速研究。针对几何校正的主要步骤及其速度瓶颈问题,提出了可采用的并行加速方法,同时结合SIFT的特点提出了并行优化加速的方案。采用基于数据划分的并行方法对遥感图像的几何校正和SIFT特征提取算法进行加速。最后利用CUDA环境,在CPU+GPU异构系统下,设计试验对两个算法优化并行提速,试验结果表明,提出的加速方案和优化算法能大幅提高遥感图像的前期处理效率。  相似文献   

10.
为了加快颗粒全息图的重建速度,提出了一种基于多线程编译框架(OpenMP)和统一计算设备架构(CUDA)并行技术的二级并行架构颗粒全息图快速重建方法。第1级并行针对重建截面,第2级并行针对像素,同时在这两个维度进行并行重建,利用OpenMP实现图片级并行,利用CUDA实现像素级并行。以煤粉颗粒全息图为测试对象,同时采用单线程重建程序和二级并行重建程序进行全息重建,比较了两种计算方式的重建结果和计算耗时。结果表明,二级并行重建结果与单线程重建结果是一致的,且可大大缩短重建耗时; 对于分辨率为5000×5000的全息图,在重建截面数为40时,可实现48.3倍的加速比。此计算架构在数字全息的颗粒场实时在线诊断中具有很好的应用前景。  相似文献   

11.
随着计算机硬件技术的高速发展,图形处理器(Graphic processing unit,GPU)通用计算已经发展到颇为成熟阶段,其并行运算速度已远远超过多核CPU。文章简介CUDA架构并验证其在图形处理中的加速能力,对比线性代数运算在CPU与GPU架构下的效率,将CUDA技术应用于智能视频监控人体检测系统中,实验验证其高效性及可行性。最后对CUDA的发展方向进行了展望。  相似文献   

12.
针对目前地层层析成像算法中正演算法存在计算量大、计算速度慢的问题,以图像处理器(GPU)为核心,研究并实现了一种基于GPU平台的时域有限差分(FDTD)正演算法。CUDA是一种由NVIDIA推出的GPU通用并行计算架构,也是目前较为成熟的GPU并行运算架构。而FDTD正演算法本身在算法特性上满足并行的要求,二者的结合将极大地加速程序的计算速度。在基于标准Marmousi速度模型的正演模拟中,程序速度提升30倍,而GPU正演图像与CPU正演结果误差小于千分之一。算例表明CUDA可以大大加速目前的FDTD正演算法,并且随着GPU硬件自身的发展和计算架构的不断改进,加速效果还将进一步提升,这将有利于后续波形反演工作的进展。  相似文献   

13.
分布式全息孔径数字成像技术是利用数字全息记录各子孔径的复振幅信息,通过孔径间相位拼接实现综合成像的一种主动成像技术。在远距离成像中,大气湍流引入的子孔径内高阶相位误差和子孔径间低阶相位误差,以及孔径间的位置失配误差,都会影响成像质量。随机并行梯度下降算法(SPGD)是一种无波前探测优化控制算法,具有可以并行、快速收敛、高效可靠等优点,可用于校正系统孔径内高阶和孔径间低价相位误差。但是SPGD算法需要多次迭代,运算量巨大,难以满足实时性要求。文章基于GPU平台,对高、低阶相位误差校正进行了并行加速处理,运算速度较CPU平台分别提升26.42倍和36.47倍。此外,采用AKZAE算法校正各子孔径间的位置失配误差,完成了各子孔径复振幅的拼接,最终实现了分布式四孔径的综合成像。  相似文献   

14.
在地基太阳观测中,光线在穿越大气层时会受到大气湍流的影响而导致图像扭曲、变形以致质量下降。为了消除或降 低大气湍流的影响,事后图像处理技术被用来获得高分辨力的太阳图像。基于斑点干涉法和斑点掩模的事后重建算 法可以获得高分辨力的图像,但由于计算复杂度高,难以满足实时性的要求。在讨论了算法原理的基础上, 使用CUDA并行计算架构实现了太阳斑点重建算法并行化。实验结果表明,在GPU环境下,一张TiO通 道2304 pixel$\times$1984 pixel像素大小的图像,可以在70 s内完成重建,相比运行在CPU上的串行程序,加速比可达7以上。  相似文献   

15.
王瑞  梁华  蔡宣平 《现代电子技术》2010,33(15):41-43,46
传统SIFT算法的优化和实现都是针对常用处理器(CPU)提出的,处理速度慢,实时性很难得到保证。通过实现基于NVIDIA公司CUDA架构图形处理器(GPU)的SIFT特征提取算法,优化了数据存储结构,提高了数据访问效率。实验结果表明,基于GPU的SIFT特征提取算法充分利用GPU的并行处理能力,计算速度提高幅度明显,图像越大越复杂,提高的幅度越大,处理1600×1200图像时甚至可达近15倍的加速比,极大地提高了SIFT算法在实际应用中的实时性。  相似文献   

16.
This paper presents a hardware acceleration platform for image reconstruction in digital holographic imaging. The hardware accelerator executes a computationally demanding reconstruction algorithm which transforms an interference pattern captured on a digital image sensor into visible images. Focus in this work is to maximize computational efficiency, and to minimize the external memory transfer overhead, as well as required internal buffering. The paper presents an efficient processing datapath with a fast transpose unit and an interleaved memory storage scheme. The proposed architecture results in a speedup with a factor 3 compared with the traditional column/row approach for calculating the two-dimensional FFT. Memory sharing between the computational units reduces the on-chip memory requirements with over 50%. The custom hardware accelerator, extended with a microprocessor and a memory controller, has been implemented on a custom designed FPGA platform and integrated in a holographic microscope to reconstruct images. The proposed architecture targeting a 0.13 µm CMOS standard cell library achieves real-time image reconstruction with 20 frames per second.  相似文献   

17.
针对多模式合成孔径雷达(SAR)成像处理中存在的计算效率不足问题,提出了一种基于GPU的多模式SAR统一成像并行加速方法。为充分利用GPU的显存资源,提高算法的运算效率,利用共享内存对矩阵转置、矩阵相乘等部分进行大规模数据并行计算。实验结果表明,该算法大幅度提升了多模式SAR成像的计算效率,最高加速比达到55.62,解决了GPU显存空间利用率较低的问题。  相似文献   

18.

In this paper, we present a high data rate implementation of a digital predistortion (DPD) algorithm on a modern mobile multicore CPU containing an on-chip GPU. The proposed implementation is capable of running in real-time, thanks to the execution of the predistortion stage inside the GPU, and the execution of the learning stage on a separate CPU core. This configuration, combined with the low complexity DPD design, allows for more than 400 Msamples/s sample rates. This is sufficient for satisfying 5G new radio (NR) base station radio transmission specifications in the sub-6 GHz bands, where signal bandwidths up to 100 MHz are specified. The linearization performance is validated with RF measurements on two base station power amplifiers at 3.7 GHz, showing that the 5G NR downlink emission requirements are satisfied.

  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号