共查询到20条相似文献,搜索用时 0 毫秒
1.
随着图形处理器(GPU)的处理能力的不断增强,图形处理器越来越多地被应用于计算密集型的数据运算处理中。JPEG图像压缩算法中的部分步骤存在典型的并行特性,针对大分辨率图像JPEG压缩串行顺序执行时间开销较大的问题,利用CUDA的并行计算和图形硬件的可编程性,可实现对JPEG图像压缩的加速,同时结合GPGPU硬件结构可实现JPEG压缩程序程序的优化设计。通过程序测试实验,与串行程序比较加速比在20以上。 相似文献
2.
根据二维空间内目标作匀速直线运动和匀速圆周运动的特点,在建立目标运动模型和观测模型的基础上采用基于交互多模算法(IMM)的卡尔曼滤波器对机动目标进行跟踪。但由于IMM算法存在大量的递归与矩阵运算,所以实时性降低,这也是工程上难以实现的原因。通过CUDA对算法进行加速实现,在不影响算法性能的基础上实时性大大提高。仿真结果表明,利用该架构实现的IMM算法不仅能够对匀速直线运动和匀速圆周运动的目标进行实时跟踪,而且在运动模型发生变化时,实时性也得到很大提升,滤波误差也比较小。 相似文献
3.
为了提高光照不均图像的增强速率,提出了基于GPU平台的同态滤波并行算法.根据同态滤波算法的并行性,利用CUDA软硬件体系架构,实现了同态滤波算法向GPU上的移植.利用多幅不同分辨率图像作为测试数据,对比CPU和GPU方案的计算效率.实验结果表明,GPU实现方案大幅度提升了计算效率. 相似文献
4.
5.
6.
在上位机进行实时目标跟踪,使用传统的CPU进行计算往往由于数据处理量大而消耗很多计算时间,影响实时性和跟踪效果。近年来,nVidia公司提出的CUDA架构利用GPU进行并行计算,极大提高了运算速度。本文在介绍CUDA架构的特性及软硬件实现原理的基础上,利用CUDA来实现上位机的实时目标跟踪,并与传统方法的计算速度进行了比较。结果表明,CUDA的应用使上位机目标跟踪的实时性得到了很大提升,可以将其应用于其它众多领域。 相似文献
7.
随着计算机硬件技术的高速发展,图形处理器(Graphic processing unit,GPU)通用计算已经发展到颇为成熟阶段,其并行运算速度已远远超过多核CPU。文章简介CUDA架构并验证其在图形处理中的加速能力,对比线性代数运算在CPU与GPU架构下的效率,将CUDA技术应用于智能视频监控人体检测系统中,实验验证其高效性及可行性。最后对CUDA的发展方向进行了展望。 相似文献
8.
近几年图形处理器GPU的通用计算能力发展迅速,现在已经发展成为具有巨大并行运算能力的多核处理器,而CUDA架构的推出突破了传统GPU开发方式的束缚,把GPU巨大的通用计算能力解放了出来.本文利用GPU来加速AES算法,即利用GPU作为CPU的协处理器,将AES算法在GPU上实现,以提高计算的吞吐量.最后在GPU和CPU... 相似文献
9.
10.
11.
细粒度并行计算编程模型研究 总被引:5,自引:1,他引:4
作为应用软件模型和计算机硬件之间的桥梁,编程模型在计算机领域的重要性不言而喻.但随着具备细粒度并行计算能力的多核心微处理器进入主流市场,与之相适应的编程模型发展却相对滞后.对细粒度的并行计算编程模型进行研究.首先,介绍3种典型的多核心微处理器体系结构;其次,介绍3个已有的细粒度并行计算编程模型;最后,探讨并行计算编程模型的必备条件. 相似文献
12.
基于GPU的高度并行Marching Cubes改进算法 总被引:1,自引:0,他引:1
提出一种完全基于GPU(graphics processing unit)的高度并行Marching Cubes改进算法.针对Marching Cubes算法流程中数据处理阶段进行优化.首先并行遍历每个体元,以序列形式得到每体元的非空状态,再利用高效流式缩减操作获得非空体元序列以便仅针对非空体元高度并行地生成等值面三角形.实验表明,与同市场价格CPU实现相比,该算法效率最高提高到了前者的9倍以上. 相似文献
13.
14.
以CUDA架构为例,对传统的CPU+单GPU架构进行了分析,提出了一种CPU+多GPU异构协同计算的系统方案,对关键的CPU对多GPU的管理及多GPU间数据通信等问题做了重点讨论,从理论上进行了可行性分析,并提出了相应的优化方法. 相似文献
15.
16.
图形处理器协同运算的视频处理架构 总被引:1,自引:0,他引:1
多媒体视频处理的任务繁重,计算量大,很多算法无法在仅使用一颗CPU的条件下达到实时处理的速度。设计一套图形处理器协同运算的视频处理架构,它采用图形处理器与中央处理器配合,共同完成视频计算的任务。这种架构可以大大加速处理速度,并减轻中央处理器的负担。 相似文献
17.
基于GPU的快速二维沃尔什变换研究 总被引:1,自引:1,他引:1
提出了一种基于GPU(Graphics Processing Unit,图形处理器)CUDA(Compute Unified Device Architecture,计算统一设备架构)平台的快速二维沃尔什变换(Walsh Transform)实现方法.该方法利用GPU的并行结构和硬件特点,从算法实现、存储类型、逻辑构架设置等方面提高了沃尔什变换的运算速度.实验结果表明,随着图像分辨率的增加,沃尔什变换在GPU上运行时间远低于CPU,GPU比CPU具有更明显的加速效果. 相似文献
18.
19.
基于CUDA的DCT快速变换实现方法 总被引:4,自引:2,他引:2
为了加快DCT快速变换的处理速度,提出了一种基于CUDA在图形处理器(GPU)上实现DCT快速变换的方法,其中主要利用DCT变换中各分块之间的独立性适合GPU并行处理架构的特点,把传统串行DCT快速变换算法映射到CUDA并行编程模型,并从线程分配,内存使用,硬件资源划分等方面进行优化,来充分利用GPU的巨大运算能力,实验表明,该方法能有效地提高D阻快速变换的速度. 相似文献