期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

陈大伟卢官明《中国多媒体通信》2007,(12):45-50

在JPEG2000中有损压缩算法即Daubechies9／7离散小波变换算法的基础上，提出在GPU上并行运算的实现方案。NVIDIA新发布的CUDA软硬件体系架构结合GeForce8800GTX硬件平台，利用GPU并行运算优势，特别是密集型运算应用，可以大幅提升运算速度。实验结果表明，在当前实验平台，在运算数据量相同和结果正确的前提下，GPU（GeForce8800GTX）运算速度是CPU（Intel Core2 Duo E6320，主频1866MHz）的6～12倍，并且运算量越大、运算资源分配越合理，运算效率提升越显著。相似文献

2.

基于CUDA编程接口的GPU Trace模块设计

刘士谦《无线互联科技》2022,(2):63-64

面对互联时代海量的信息数据,图形处理器凭借极强的并行计算处理能力,通过GPU+CPU的架构为现代无线接入网设备的信号处理,提供了一种理想的技术手段。文章设计了一款基于CUDA编程接口的GPU Trace模块,用于在GPU+CPU平台架构中跟踪记录GPU的运行信息。相似文献

3.

基于GPU的RS译码处理技术研究

顾久祥杨仁忠韦宏卫《微电子学与计算机》2013,30(4)

在分析高速译码处理技术的基础上,提出了基于GPU平台RS译码的解决方案,并基于CUDA编程环境完成了RS译码处理的研究与实现.经测试表明,本文基于GPU的RS译码处理模块在理论纠错范围内的处理速度达900Mbps以上,满足实际遥感信道的译码要求. 相似文献

4.

基于NVIDIA GPU 的机载SAR 实时成像处理算法CUDA 设计与实现

下载免费PDF全文

孟大地胡玉新石涛孙蕊李晓波《雷达学报》2013,2(4):481-491

合成孔径雷达(SAR)成像处理的运算量较大,在基于中央处理器(Central Processing Unit, CPU)的工作站或服务器上一般需要耗费较长的时间,无法满足实时性要求。借助于通用并行计算架构(CUDA)编程架构,该文提出一种基于图形处理器(GPU)的SAR 成像处理算法实现方案。该方案解决了GPU 显存不足以容纳一景SAR 数据时数据处理环节与内存/显存间数据传输环节的并行化问题,并能够支持多GPU 设备的并行处理,充分利用了GPU设备的计算资源。在NVIDIA K20C 和INTEL E5645 上的测试表明,与传统基于GPU 的SAR 成像处理算法相比,该方案能够达到数十倍的速度提升,显著降低了处理设备的功耗,提高了处理设备的便携性,能够达到每秒约36兆采样点的实时处理速度。相似文献

5.

基于CUDA的图像分割并行算法设计与实现

侯广峰王媛媛郭禾《数字技术与应用》2013,(3)

图像分割技术是计算机视觉领域中对图像进行分析和模式识别的基础,无论在理论研究还是实际应用中都得到了人们的广泛重视.本文在对现有图像分割算法进行分析的基础上,针对串行图像分割算法代次数多、运算效率低的问题,提出了一种适用于CUDA架构的新型图像分割并行算法,该算法与OpenCV实现的cvBlob算法相比,该算法具有更高效率. 相似文献

6.

方程组的迭代法求解在GPU上的实现 总被引：1，自引：0，他引：1

下载免费PDF全文

赵力《电子器件》2010,33(6)

迭代法是求解大型线性方程组的基本方法.为了充分利用GPU(Graphics Processing Unit,图形处理器)的并行处理能力,本文改进了雅可比迭代法和高斯-塞德尔迭代法的实现过程,从而提高了求解线性方程组的速度.并研究了在不同方程组阶数和迭代次数情况下,GPU对这两种迭代算法的加速效果.实验结果表明线性方程组的阶数为500,迭代次数为100时,雅可比迭代法速度可以提高130倍以上;高斯-塞德尔迭代法速度可以提高40倍以上.最后针对相同的方程组,使用两种迭代法分别在CPU和GPU上求解,并分析了产生不同加速效果的原因. 相似文献

7.

GPU并行计算分析

张澳博《数字通信世界》2017,(9)

本文通过阐述GPU的基本原理和发展历程,对比CPU与GPU之间设计目的的不同,来说明GPU在高并行度计算中的优势,并介绍GPU的其他重要应用,提出将来可能的发展前景. 相似文献

8.

GPU加速在集成成像的应用

冯新凯徐胜濮怡莹姚剑敏郭太良《电视技术》2013,37(11):54-56

针对在计算3D集成成像过程中耗时较多的问题,采用了一种新的硬件加速方法——GPU加速,分别在不同透镜数目和三维物体复杂度下,对CPU和GPU的运算时间进行对比。结果表明:计算复杂度大于数据拷贝时间时,GPU的整体加速效果明显,并且随着计算复杂度的提高,加速效果越来越显著。相似文献

9.

基于GPU的太阳图像斑点重建技术实现

宣经纬饶长辉钟立波田雨《大气与环境光学学报》2020,15(2):90-100

在地基太阳观测中,光线在穿越大气层时会受到大气湍流的影响而导致图像扭曲、变形以致质量下降。为了消除或降低大气湍流的影响,事后图像处理技术被用来获得高分辨力的太阳图像。基于斑点干涉法和斑点掩模的事后重建算法可以获得高分辨力的图像,但由于计算复杂度高,难以满足实时性的要求。在讨论了算法原理的基础上, 使用CUDA并行计算架构实现了太阳斑点重建算法并行化。实验结果表明,在GPU环境下,一张TiO通道2304 pixel$\times$1984 pixel像素大小的图像,可以在70 s内完成重建,相比运行在CPU上的串行程序,加速比可达7以上。相似文献

10.

基于GPU+CPU的CANNY算子快速实现

下载免费PDF全文

唐斌龙文《液晶与显示》2016,31(7):714-720

本文提出一种基于GPU+CPU的快速实现Canny算子的方法。首先将算子分为串行和并行两部分,高斯滤波、梯度幅值和方向计算、非极大值抑制和双阈值处理在GPU中完成,将二维高斯滤波分解为水平方向上和垂直方向上的两次一维滤波从而降低计算的复杂度;然后使用CUDA编程完成多线程并行计算以加快计算速度;最后使用共享存储器隐藏线程访问全局存储的延迟;在CPU中则使用队列FIFO完成边缘连接。仿真测试结果表明：对分辨率为1024×1024的8位图像的处理时间为122 ms,相对应单独使用CPU而言,加速比最高可达5.39倍,因此本文方法充分利用了GPU的并行性的特征和CPU的串行处理能力。相似文献

11.

基于GPU的AES算法实现

商凯胡艳《电子技术》2011,38(5):9-11

近几年图形处理器GPU的通用计算能力发展迅速,现在已经发展成为具有巨大并行运算能力的多核处理器,而CUDA架构的推出突破了传统GPU开发方式的束缚,把GPU巨大的通用计算能力解放了出来.本文利用GPU来加速AES算法,即利用GPU作为CPU的协处理器,将AES算法在GPU上实现,以提高计算的吞吐量.最后在GPU和CPU... 相似文献

12.

Voronoi图栅格生成算法GPU并行实现 总被引：1，自引：0，他引：1

屠文森汪佳佳《现代电子技术》2015,(4):66-68,72

针对矢量法生成Voronoi图计算与存储复杂的缺点,重点分析研究了Voronoi图的栅格生成方法。对不同的栅格生成算法的复杂性和效率进行了比较分析,并针对以往方法速度较慢的问题,提出一种CUDA平台下GPU并行栅格扫描的方法。该方法利用GPU的多线程特性,将各个栅格的计算分散到不同的线程中并行处理。相比其他栅格生成方法,该方法不需要考虑栅格的规模,能够以几乎线性的时间完成Voronoi图的生成,极大地提高了生成速度。相似文献

13.

基于 GPU 加速的并行字符串匹配算法 总被引：1，自引：0，他引：1

谷岳谷建华《微电子学与计算机》2013,(9)

在分析了经典的串行字符串匹配算法（BF ,KMP ,BM ,BDM ,Shift -And/Shift -Or ,ZZL）基础上,对ZZL算法的预处理过程进行改进,并结合GPU的单指令多线程的并行计算特点,对ZZL算法进行并行改进,以达到处理大规模数据的速度提升。相似文献

14.

GPU计算及其在密码分析中的应用

于飞吉庆兵罗顺张李军兰天《信息安全与通信保密》2012,(12):98-100

文中研究了GPU计算及其在密码分析中的应用,详细分析了各自的特点和发展现状。GPU计算发展很快,具有运算密集型和高度并行的特点。密码分析的方法非常丰富,大多数方法都需要大规模的运算,而且密码运算本身也比较简单。通过理论分析并结合实例研究,发现GPU计算非常适合用于密码分析,可以大大提高密码分析特别是穷举攻击的效率。同时,也应拓宽GPU计算在密码分析中的应用,以用于更多的密码分析手段。相似文献

15.

基于GPU的视频转码技术研究

黄兴宋建新《电视技术》2012,36(1):26-29

视频转码是个复杂的过程,它需要对已经压缩过的码流进行解析,然后经过处理转换成满足解码终端要求的目标格式码流。为了提高视频转码的效率并降低视频转码的计算复杂度,根据视频转码的要求和图形处理器的并行结构,提出了一种利用GPU强大的并行计算能力来加速视频转码的算法。该算法将视频转码过程中耗时最多、最复杂的运动估计和模式选择过程转移到GPU上并行执行。在开发GPU通用计算能力的时候,采用NVIDIA公司的CUDA(统一计算设备架构)计算平台。实验结果证明,该算法可以有效提高视频转码的速度和效率。相似文献

16.

基于CUDA的JPEG压缩算法优化

童炜刘铎《通信技术》2011,44(4):1-4,9

随着图形处理器（GPU）的处理能力的不断增强,图形处理器越来越多地被应用于计算密集型的数据运算处理中。JPEG图像压缩算法中的部分步骤存在典型的并行特性,针对大分辨率图像JPEG压缩串行顺序执行时间开销较大的问题,利用CUDA的并行计算和图形硬件的可编程性,可实现对JPEG图像压缩的加速,同时结合GPGPU硬件结构可实现JPEG压缩程序程序的优化设计。通过程序测试实验,与串行程序比较加速比在20以上。相似文献

17.

基于GPU的星图配准算法并行程序设计 总被引：1，自引：1，他引：1

下载免费PDF全文

陈茜邱跃洪易红伟《红外与激光工程》2014,43(11):3756-3761

星图配准是星图处理应用中的一个重要步骤,因此星图配准的速度直接影响了星图处理的整体速度.近几年来,图形处理器(GPU)在通用计算领域得到快速的发展.结合GPU在通用计算领域的优势与星图配准面临的处理速度的问题,研究了基于GPU加速处理星图配准的算法.在已有配准算法的基础上,根据算法特点提出了相应的GPU并行设计模型,利用CUDA编程语言进行仿真实验.实验结果表明:相较于传统基于CPU的配准算法,基于GPU的并行设计模型同样达到了配准要求,且配准速度的加速比达到29.043倍. 相似文献

18.

基于GPU的Viterbi并行解码算法的设计与实现

李俊鹏余心乐徐伟掌《电视技术》2017,41(4)

针对GPU并行计算特征,对Viterbi解码自身做了并行处理探索,并提出使用Zero-Termination卷积码来实现基于GPU的Viterbi解码分块并行处理.设计的实现结果表明:Zero-Termination卷积码的简单而适用于GPU分块并行;误码率降低,特别是在信噪比低的情况下,Zero-Termination卷积码误码率比不损失码率的卷积码要低.同时,还实现了基于GPU的7,9,15三种不同约束长度的Viterbi解码,获得了良好的误码性能曲线及高吞吐率表现. 相似文献

19.

Hungarian algorithm for subcarrier assignment problem using GPU and CUDA

Satyendra Singh Yadav Paulo Alexandre Crisstomo Lopes Aleksandar Ilic Sarat Kumar Patra 《International Journal of Communication Systems》2019,32(4)

General purpose graphics processing units (GPGPUs) have gained much popularity in scientific computing to speedup computational intensive workloads. Resource allocation in terms of power and subcarriers assignment, in current wireless standards, is one of the challenging problems due to its high computational complexity requirement. The Hungarian algorithm (HA), which has been extensively applied to linear assignment problems (LAPs), has been seen to provide encouraging result in resource allocation for wireless communication systems. This paper presents a compute unified device architecture (CUDA) implementation of the HA on graphics processing unit (GPU) for this problem. HA has been implemented on a parallel architecture to solve the subcarrier assignment problem and maximize spectral efficiency. The proposed implementation is achieved by using the “Kuhn‐Munkres” algorithm with effective modifications, in order to fully exploit the capabilities of modern GPU devices. A cost matrix for maximum assignment has been defined leading to a low complexity matrix compression along with highly optimized CUDA reduction and parallel alternating path search process. All these optimizations lead to an efficient implementation with superior performance when compared with existing parallel implementations. 相似文献