首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 0 毫秒
1.
童炜  刘铎 《通信技术》2011,44(4):1-4,9
随着图形处理器(GPU)的处理能力的不断增强,图形处理器越来越多地被应用于计算密集型的数据运算处理中。JPEG图像压缩算法中的部分步骤存在典型的并行特性,针对大分辨率图像JPEG压缩串行顺序执行时间开销较大的问题,利用CUDA的并行计算和图形硬件的可编程性,可实现对JPEG图像压缩的加速,同时结合GPGPU硬件结构可实现JPEG压缩程序程序的优化设计。通过程序测试实验,与串行程序比较加速比在20以上。  相似文献   

2.
根据二维空间内目标作匀速直线运动和匀速圆周运动的特点,在建立目标运动模型和观测模型的基础上采用基于交互多模算法(IMM)的卡尔曼滤波器对机动目标进行跟踪。但由于IMM算法存在大量的递归与矩阵运算,所以实时性降低,这也是工程上难以实现的原因。通过CUDA对算法进行加速实现,在不影响算法性能的基础上实时性大大提高。仿真结果表明,利用该架构实现的IMM算法不仅能够对匀速直线运动和匀速圆周运动的目标进行实时跟踪,而且在运动模型发生变化时,实时性也得到很大提升,滤波误差也比较小。  相似文献   

3.
为了提高光照不均图像的增强速率,提出了基于GPU平台的同态滤波并行算法.根据同态滤波算法的并行性,利用CUDA软硬件体系架构,实现了同态滤波算法向GPU上的移植.利用多幅不同分辨率图像作为测试数据,对比CPU和GPU方案的计算效率.实验结果表明,GPU实现方案大幅度提升了计算效率.  相似文献   

4.
针对机载MIMO雷达杂波模型运算量大的问题,建立了基于CUDA的模型,利用图形处理器的并行运算能力来加速运算。为了符合CUDA的通用计算架构特性,该模型在算法上优先设计并行运算,在编程上尽量引入并行线程,实现图形处理器的浮点运算、存储器以及带宽资源的有效利用。最后测试了加速效果与模型结构、数据规模的关系。实验结果表明,...  相似文献   

5.
CUDA并行计算的应用研究   总被引:3,自引:0,他引:3  
统一设备架构(CUDA)是NVIDIA公司提出的一个基于GPU通用计算的开发环境,它针对GPU多处理单元的特性,通过并行计算提高大规模运算的速度.根据CUDA技术的特点,提出了基于CUDA的并行图像锐化、中值滤波和字符搜索算法,并论述其关键技术和基本执行流程.试验结果表明,提出的方法相对于CPU方法在运算速度上有不同程度的提高和下降.这同时体现了CUDA的优势和局限性,为其更复杂的应用提供了参考和依据.  相似文献   

6.
在上位机进行实时目标跟踪,使用传统的CPU进行计算往往由于数据处理量大而消耗很多计算时间,影响实时性和跟踪效果。近年来,nVidia公司提出的CUDA架构利用GPU进行并行计算,极大提高了运算速度。本文在介绍CUDA架构的特性及软硬件实现原理的基础上,利用CUDA来实现上位机的实时目标跟踪,并与传统方法的计算速度进行了比较。结果表明,CUDA的应用使上位机目标跟踪的实时性得到了很大提升,可以将其应用于其它众多领域。  相似文献   

7.
随着计算机硬件技术的高速发展,图形处理器(Graphic processing unit,GPU)通用计算已经发展到颇为成熟阶段,其并行运算速度已远远超过多核CPU。文章简介CUDA架构并验证其在图形处理中的加速能力,对比线性代数运算在CPU与GPU架构下的效率,将CUDA技术应用于智能视频监控人体检测系统中,实验验证其高效性及可行性。最后对CUDA的发展方向进行了展望。  相似文献   

8.
商凯  胡艳 《电子技术》2011,38(5):9-11
近几年图形处理器GPU的通用计算能力发展迅速,现在已经发展成为具有巨大并行运算能力的多核处理器,而CUDA架构的推出突破了传统GPU开发方式的束缚,把GPU巨大的通用计算能力解放了出来.本文利用GPU来加速AES算法,即利用GPU作为CPU的协处理器,将AES算法在GPU上实现,以提高计算的吞吐量.最后在GPU和CPU...  相似文献   

9.
ST全资子公司、全球领先的高性能计算(HPC)技术提供商Portland Group宣布PGI CUDA C和C++编译器已正式出货,针对基于产业标准的通用64位和32位x86架构的处理器系统。CUDA是英伟达(NVIDIA)开发的并行计算架构,可利用NVIDIA GPU(图形处理器)的动态提升系统计算性能。  相似文献   

10.
采用数字波束形成算法与合成导向矢量算法相结合的测高算法,提高了测角精度和测角速率。另外,为了进一步满足系统实时性要求,提出采用基于计算统一设备架构为平台完成雷达测角的方案,该方案利用并行计算平台和异构编程模型,首先在通用处理计算机上用CPU完成预处理,并控制信号处理的任务调度和负载分配,图形处理器实现数字波束形成算法和合成导向矢量算法,并与CPU进行比较。实验结果表明,利用计算统一设备架构技术实现的测高算法取得了比CPU算法更高的运算效率。  相似文献   

11.
细粒度并行计算编程模型研究   总被引:5,自引:1,他引:4  
作为应用软件模型和计算机硬件之间的桥梁,编程模型在计算机领域的重要性不言而喻.但随着具备细粒度并行计算能力的多核心微处理器进入主流市场,与之相适应的编程模型发展却相对滞后.对细粒度的并行计算编程模型进行研究.首先,介绍3种典型的多核心微处理器体系结构;其次,介绍3个已有的细粒度并行计算编程模型;最后,探讨并行计算编程模型的必备条件.  相似文献   

12.
基于GPU的高度并行Marching Cubes改进算法   总被引:1,自引:0,他引:1  
提出一种完全基于GPU(graphics processing unit)的高度并行Marching Cubes改进算法.针对Marching Cubes算法流程中数据处理阶段进行优化.首先并行遍历每个体元,以序列形式得到每体元的非空状态,再利用高效流式缩减操作获得非空体元序列以便仅针对非空体元高度并行地生成等值面三角形.实验表明,与同市场价格CPU实现相比,该算法效率最高提高到了前者的9倍以上.  相似文献   

13.
基于CUDA的H.264去方块滤波的设计与实现   总被引:1,自引:1,他引:0  
详细分析了统一计算设备架构(CUDA)的编程模型,从并行计算角度对H.264视频编解码中的去方块滤波进行研究和优化,提出了基于CUDA加速的去方块滤波并行处理方法.通过对高清测试序列的实验表明,利用GPU并行处理能力能够明显提高视频编解码速度,并有效降低CPU资源占用率.  相似文献   

14.
以CUDA架构为例,对传统的CPU+单GPU架构进行了分析,提出了一种CPU+多GPU异构协同计算的系统方案,对关键的CPU对多GPU的管理及多GPU间数据通信等问题做了重点讨论,从理论上进行了可行性分析,并提出了相应的优化方法.  相似文献   

15.
16.
图形处理器协同运算的视频处理架构   总被引:1,自引:0,他引:1  
多媒体视频处理的任务繁重,计算量大,很多算法无法在仅使用一颗CPU的条件下达到实时处理的速度。设计一套图形处理器协同运算的视频处理架构,它采用图形处理器与中央处理器配合,共同完成视频计算的任务。这种架构可以大大加速处理速度,并减轻中央处理器的负担。  相似文献   

17.
基于GPU的快速二维沃尔什变换研究   总被引:1,自引:1,他引:1  
提出了一种基于GPU(Graphics Processing Unit,图形处理器)CUDA(Compute Unified Device Architecture,计算统一设备架构)平台的快速二维沃尔什变换(Walsh Transform)实现方法.该方法利用GPU的并行结构和硬件特点,从算法实现、存储类型、逻辑构架设置等方面提高了沃尔什变换的运算速度.实验结果表明,随着图像分辨率的增加,沃尔什变换在GPU上运行时间远低于CPU,GPU比CPU具有更明显的加速效果.  相似文献   

18.
论述了针对地面雷达,采用统一计算设备架构和数字高程模型来仿真地杂波的一种快速实现算法.为便于后面问题的阐述,介绍了统一计算设备架构的一些基本概念,以便对统一计算设备架构有初步的了解;给出利用统一计算设备架构和数字高程模型数据对地面雷达地杂波进行仿真的基本方法及仿真结果,并进行了简要的分析.仿真结果表明,由该方法得到的地杂波能够较好地反映出特定场景的地面起伏特性;而对于算法速度的分析表明,该方法与传统算法相比有了很大的提升.  相似文献   

19.
基于CUDA的DCT快速变换实现方法   总被引:4,自引:2,他引:2  
为了加快DCT快速变换的处理速度,提出了一种基于CUDA在图形处理器(GPU)上实现DCT快速变换的方法,其中主要利用DCT变换中各分块之间的独立性适合GPU并行处理架构的特点,把传统串行DCT快速变换算法映射到CUDA并行编程模型,并从线程分配,内存使用,硬件资源划分等方面进行优化,来充分利用GPU的巨大运算能力,实验表明,该方法能有效地提高D阻快速变换的速度.  相似文献   

20.
董蕾  黄方  卜栓栓  冯杰  周纪 《信息技术》2016,(4):32-36,40
压缩感知重构算法存在计算量大、运行时间过长的问题,无法满足人们对算法处理实时/准实时性要求。最近几年,GPU计算能力得到很大的提升,已成为提高算法处理速度最有效的方式之一。根据GPU的硬件特性,文中提出了基于CUDA的压缩感知重构算法的并行设计。实验结果表明:在NVIDIA K20Xm平台上运行,并行算法取得的加速比可达到100X。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号