共查询到19条相似文献,搜索用时 62 毫秒
1.
在JPEG2000中有损压缩算法即Daubechies9/7离散小波变换算法的基础上,提出在GPU上并行运算的实现方案。NVIDIA新发布的CUDA软硬件体系架构结合GeForce8800GTX硬件平台,利用GPU并行运算优势,特别是密集型运算应用,可以大幅提升运算速度。实验结果表明,在当前实验平台,在运算数据量相同和结果正确的前提下,GPU(GeForce8800GTX)运算速度是CPU(Intel Core2 Duo E6320,主频1866MHz)的6~12倍,并且运算量越大、运算资源分配越合理,运算效率提升越显著。 相似文献
2.
面对互联时代海量的信息数据,图形处理器凭借极强的并行计算处理能力,通过GPU+CPU的架构为现代无线接入网设备的信号处理,提供了一种理想的技术手段。文章设计了一款基于CUDA编程接口的GPU Trace模块,用于在GPU+CPU平台架构中跟踪记录GPU的运行信息。 相似文献
3.
在分析高速译码处理技术的基础上,提出了基于GPU平台RS译码的解决方案,并基于CUDA编程环境完成了RS译码处理的研究与实现.经测试表明,本文基于GPU的RS译码处理模块在理论纠错范围内的处理速度达900Mbps以上,满足实际遥感信道的译码要求. 相似文献
4.
合成孔径雷达(SAR)成像处理的运算量较大,在基于中央处理器(Central Processing Unit, CPU)的工作站或服务器上一般需要耗费较长的时间,无法满足实时性要求。借助于通用并行计算架构(CUDA)编程架构,该文提出一种基于图形处理器(GPU)的SAR 成像处理算法实现方案。该方案解决了GPU 显存不足以容纳一景SAR 数据时数据处理环节与内存/显存间数据传输环节的并行化问题,并能够支持多GPU 设备的并行处理,充分利用了GPU设备的计算资源。在NVIDIA K20C 和INTEL E5645 上的测试表明,与传统基于GPU 的SAR 成像处理算法相比,该方案能够达到数十倍的速度提升,显著降低了处理设备的功耗,提高了处理设备的便携性,能够达到每秒约36兆采样点的实时处理速度。 相似文献
5.
6.
迭代法是求解大型线性方程组的基本方法.为了充分利用GPU(Graphics Processing Unit,图形处理器)的并行处理能力,本文改进了雅可比迭代法和高斯-塞德尔迭代法的实现过程,从而提高了求解线性方程组的速度.并研究了在不同方程组阶数和迭代次数情况下,GPU对这两种迭代算法的加速效果.实验结果表明线性方程组的阶数为500,迭代次数为100时,雅可比迭代法速度可以提高130倍以上;高斯-塞德尔迭代法速度可以提高40倍以上.最后针对相同的方程组,使用两种迭代法分别在CPU和GPU上求解,并分析了产生不同加速效果的原因. 相似文献
7.
8.
9.
在地基太阳观测中,光线在穿越大气层时会受到大气湍流的影响而导致图像扭曲、变形以致质量下降。为了消除或降
低大气湍流的影响,事后图像处理技术被用来获得高分辨力的太阳图像。基于斑点干涉法和斑点掩模的事后重建算
法可以获得高分辨力的图像,但由于计算复杂度高,难以满足实时性的要求。在讨论了算法原理的基础上,
使用CUDA并行计算架构实现了太阳斑点重建算法并行化。实验结果表明,在GPU环境下,一张TiO通
道2304 pixel$\times$1984 pixel像素大小的图像,可以在70 s内完成重建,相比运行在CPU上的串行程序,加速比可达7以上。 相似文献
10.
本文提出一种基于GPU+CPU的快速实现Canny算子的方法。首先将算子分为串行和并行两部分,高斯滤波、梯度幅值和方向计算、非极大值抑制和双阈值处理在GPU中完成,将二维高斯滤波分解为水平方向上和垂直方向上的两次一维滤波从而降低计算的复杂度;然后使用CUDA编程完成多线程并行计算以加快计算速度;最后使用共享存储器隐藏线程访问全局存储的延迟;在CPU中则使用队列FIFO完成边缘连接。仿真测试结果表明:对分辨率为1024×1024的8位图像的处理时间为122 ms,相对应单独使用CPU而言,加速比最高可达5.39倍,因此本文方法充分利用了GPU的并行性的特征和CPU的串行处理能力。 相似文献
11.
近几年图形处理器GPU的通用计算能力发展迅速,现在已经发展成为具有巨大并行运算能力的多核处理器,而CUDA架构的推出突破了传统GPU开发方式的束缚,把GPU巨大的通用计算能力解放了出来.本文利用GPU来加速AES算法,即利用GPU作为CPU的协处理器,将AES算法在GPU上实现,以提高计算的吞吐量.最后在GPU和CPU... 相似文献
12.
Voronoi图栅格生成算法GPU并行实现 总被引:1,自引:0,他引:1
针对矢量法生成Voronoi图计算与存储复杂的缺点,重点分析研究了Voronoi图的栅格生成方法。对不同的栅格生成算法的复杂性和效率进行了比较分析,并针对以往方法速度较慢的问题,提出一种CUDA平台下GPU并行栅格扫描的方法。该方法利用GPU的多线程特性,将各个栅格的计算分散到不同的线程中并行处理。相比其他栅格生成方法,该方法不需要考虑栅格的规模,能够以几乎线性的时间完成Voronoi图的生成,极大地提高了生成速度。 相似文献
13.
基于 GPU 加速的并行字符串匹配算法 总被引:1,自引:0,他引:1
在分析了经典的串行字符串匹配算法(BF ,KMP ,BM ,BDM ,Shift -And/Shift -Or ,ZZL)基础上,对ZZL算法的预处理过程进行改进,并结合GPU的单指令多线程的并行计算特点,对ZZL算法进行并行改进,以达到处理大规模数据的速度提升。 相似文献
14.
文中研究了GPU计算及其在密码分析中的应用,详细分析了各自的特点和发展现状。GPU计算发展很快,具有运算密集型和高度并行的特点。密码分析的方法非常丰富,大多数方法都需要大规模的运算,而且密码运算本身也比较简单。通过理论分析并结合实例研究,发现GPU计算非常适合用于密码分析,可以大大提高密码分析特别是穷举攻击的效率。同时,也应拓宽GPU计算在密码分析中的应用,以用于更多的密码分析手段。 相似文献
15.
视频转码是个复杂的过程,它需要对已经压缩过的码流进行解析,然后经过处理转换成满足解码终端要求的目标格式码流。为了提高视频转码的效率并降低视频转码的计算复杂度,根据视频转码的要求和图形处理器的并行结构,提出了一种利用GPU强大的并行计算能力来加速视频转码的算法。该算法将视频转码过程中耗时最多、最复杂的运动估计和模式选择过程转移到GPU上并行执行。在开发GPU通用计算能力的时候,采用NVIDIA公司的CUDA(统一计算设备架构)计算平台。实验结果证明,该算法可以有效提高视频转码的速度和效率。 相似文献
16.
随着图形处理器(GPU)的处理能力的不断增强,图形处理器越来越多地被应用于计算密集型的数据运算处理中。JPEG图像压缩算法中的部分步骤存在典型的并行特性,针对大分辨率图像JPEG压缩串行顺序执行时间开销较大的问题,利用CUDA的并行计算和图形硬件的可编程性,可实现对JPEG图像压缩的加速,同时结合GPGPU硬件结构可实现JPEG压缩程序程序的优化设计。通过程序测试实验,与串行程序比较加速比在20以上。 相似文献
17.
星图配准是星图处理应用中的一个重要步骤,因此星图配准的速度直接影响了星图处理的整体速度.近几年来,图形处理器(GPU)在通用计算领域得到快速的发展.结合GPU在通用计算领域的优势与星图配准面临的处理速度的问题,研究了基于GPU加速处理星图配准的算法.在已有配准算法的基础上,根据算法特点提出了相应的GPU并行设计模型,利用CUDA编程语言进行仿真实验.实验结果表明:相较于传统基于CPU的配准算法,基于GPU的并行设计模型同样达到了配准要求,且配准速度的加速比达到29.043倍. 相似文献
18.
19.
Satyendra Singh Yadav Paulo Alexandre Crisstomo Lopes Aleksandar Ilic Sarat Kumar Patra 《International Journal of Communication Systems》2019,32(4)
General purpose graphics processing units (GPGPUs) have gained much popularity in scientific computing to speedup computational intensive workloads. Resource allocation in terms of power and subcarriers assignment, in current wireless standards, is one of the challenging problems due to its high computational complexity requirement. The Hungarian algorithm (HA), which has been extensively applied to linear assignment problems (LAPs), has been seen to provide encouraging result in resource allocation for wireless communication systems. This paper presents a compute unified device architecture (CUDA) implementation of the HA on graphics processing unit (GPU) for this problem. HA has been implemented on a parallel architecture to solve the subcarrier assignment problem and maximize spectral efficiency. The proposed implementation is achieved by using the “Kuhn‐Munkres” algorithm with effective modifications, in order to fully exploit the capabilities of modern GPU devices. A cost matrix for maximum assignment has been defined leading to a low complexity matrix compression along with highly optimized CUDA reduction and parallel alternating path search process. All these optimizations lead to an efficient implementation with superior performance when compared with existing parallel implementations. 相似文献