首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 62 毫秒
1.
针对H.264压缩编码中计算量大以及最为耗时的运动估计搜索算法的特点,利用图形处理器的并行优化思想,研究基于CUDA计算平台的运动估计搜索算法GEA(全域消除算法)的并行化处理方法,并对其中的并行设计、数据处理、结果反馈等关键技术问题,进行了详细论述。最后通过实验数据对算法运行效率进行对比分析。实验结果表明GPU中的GEA搜索算法运动搜索性能较之CPU中有显著提高。  相似文献   

2.
为了进一步提高信息熵多种群遗传算法的计算效率,缩短计算时间,提出了一种基于CUDA平台的信息熵多种群遗传算法。通过分析原算法的并行因素,结合CUDA开发平台,对原算法进行适合GPU加速的并行化处理,实现了遗传算子、惩罚函数和空间收缩因子等的并行计算,有效地提高了算法效率。例题数值测试表明,在保持了快速收敛特性和计算精度的前提下,CUDA并行算法相对于原算法具有很高的加速效率。  相似文献   

3.
为解决目前已有的图像匹配算法不适用于对实时性要求很强的应用,提出了PLS(Partial Least Squares)与余弦定理相结合的并行化图像匹配算法。该算法在CUDA架构下,对图像矩阵分块,分块后每个小块图像存入共享存储器处理并提取每个小块图像特征,通过合并后图像特征采用余弦定理计算图像的相似度,从而找出匹配图像。实验表明,CUDA架构下可以实现图像的并行匹配,与CPU上串行匹配相比,时效性提高了百倍以上。  相似文献   

4.
基于CUDA的快速图像压缩   总被引:1,自引:0,他引:1  
为了进一步提高JPEG编码效率,对JPEG压缩算法进行研究,分析得出JPEG核心步骤可以并行化处理.因此,实现平台宜采用以并行计算为优势的GPU,而不是以串行计算为主的CPU.NVIDIA新推出的CUDA(计算统一设备架构)为此实现提供了软硬件环境.CUDA是基于GPU进行通用计算的开发平台,非常适合大规模的并行数据计算.在GPU流处理器架构下用CUDA技术实现编码并行化,并针对流处理器架构特点进行内存读写等方面的优化,提高了JPEG编码的速度.实验结果表明了CUDA技术在并行处理方面的优越性,JPEG编码效率得到了极大提高.  相似文献   

5.
基于CUDA的并行加速渲染算法   总被引:1,自引:1,他引:0       下载免费PDF全文
GPU可以快速有效的处理海量数据,因此在近些年成为图形图像数据处理领域的研究热点。针对现有GPU渲染中在处理含有大量相同或相似模型场景时存在资源利用率低下和带宽消耗过大的问题,在原有GPU渲染架构的基础上提出了一种基于CUDA的加速渲染方法。在该方法中,根据现有的GPU渲染模式构建对应的模型,通过模型找出其不足,从而引申出常量内存的概念;然后分析常量内存的特性以及对渲染产生的作用,从而引入基于常量内存控制的方法来实现渲染的加速,整个渲染过程可以通过渲染算法进行控制。实验结果表明,该方法对解决上述问题具有较好的效果,最终实现加速渲染。  相似文献   

6.
在流密码中,非线性反馈移位寄存器(non—linearfeedbackshiftregister,NLFsR)是一种常用的安全性较高的伪随机序列生成器。目前仍然没有一种普遍有效的数学算法,能够根据给定的序列或者序列周期,直接推导出NLFSR。提出了一种快速寻找NLFsR的编程算法。该算法基于统一计算架构(computeunifieddevicearchitecture,CUDA)和并行计算来实现,计算速度快,尤其适用于处理高次数的复杂NLFSR。并且该算法可以快速大规模地计算出NLFSR,为未来研究寻找NLFSR的数学算法提供了大量的实验数据。  相似文献   

7.
不变矩自提出以来被广泛应用于目标识别系统中进行特征描述,这需要能够实时计算不变矩值.虽然已经提出了许多不变矩的快速算法,但仍无法在单台PC机上实现不变矩的实时计算.分析了基于差分矩因子的不变矩快速算法的并行性,提出了一种基于统一计算架构(CUDA)的快速不变矩并行实现方法,并在NVIDIA Tesla C1060 GPU上实现.对所提出算法的计算性能与普通串行算法进行了对比分析.实验结果表明,所提出的并行计算方法极大地提高了不变矩的计算速度,可有效地用来进行实时特征提取.  相似文献   

8.
王平  戴宗铎 《软件学报》2002,13(8):1368-1373
对广义Legendre序列线性复杂度的分布进行了估计,发现绝大多数广义Legendre序列有大的线性复杂度.给出了一个方法以得到具有大线性复杂度的广义Legendre序列.  相似文献   

9.
利用GPGPU(General Purpose GPU)强大的并行处理能力,基于NVIDIA CUDA框架对已有的稀疏磁共振(Sparse MRI)重建算法进行了并行化改造,使其能够适应实际应用的要求。稀疏磁共振成像的重建算法包含大量的浮点运算,计算耗时严重,难以应用于实际,必须对其进行加速和优化。实验结果显示,NVIDIA GTX275 GPU使运算时间从4分多钟缩短到3.4秒左右,与Intel Q8200 CPU相比,达到了76倍的加速。  相似文献   

10.
为解决时域有限差分(FDTD)算法应用于电大尺寸目标仿真的巨大耗时问题,应用FDTD算法的并行特性和通用图形处理器(GPGPU)技术,实现了一种基于计算统一设备架构(CUDA)的三维FDTD并行计算方法,采用了时域卷积完全匹配层(CPML)吸收边界条件模拟开域空间,对不同网格数目标仿真计算。进一步结合FDTD算法和CUDA的特点进行了优化,当计算空间元胞数在十万数量级及以上时,优化前后GPU运算相对于同时期的CPU分别可获得10和25倍以上的加速,结果表明该方法较适合用于实际电磁问题的仿真。  相似文献   

11.
RSA算法的CUDA高效实现技术   总被引:1,自引:1,他引:0       下载免费PDF全文
CUDA(Compute Unified Device Architecture)作为一种支持GPU通用计算的新型计算架构,在大规模数据并行计算方面得到了广泛的应用。RSA算法是一种计算密集型的公钥密码算法,给出了基于CUDA的RSA算法并行化高效实现技术,其关键为引入大量独立并发的Montgomery模乘线程,并给出了具体的线程组织、数据存储结构以及基于共享内存的性能优化实现技术。根据RSA算法CUDA实现方法,在某款GPU上测试了RSA算法的运算性能和吞吐率。实验结果表明,与RSA算法的通用CPU实现方式相比,CUDA实现能够实现超过40倍的性能加速。  相似文献   

12.
CUDA架构下的快速图像去噪   总被引:3,自引:2,他引:3       下载免费PDF全文
图像处理通常需要较大的计算量,其中图像去噪是经常使用的一种预处理算法,研究其快速算法具有重要意义。图形处理器具有强大的并行计算能力,但大部分时间处于闲置状态。统一计算设备架构提供了一种简单易用的开发环境,可利用图形处理器进行通用计算。提出了基于统一计算设备架构的快速图像去噪算法,可以利用GPU的计算能力,加快去噪过程,显著地减少计算时间。  相似文献   

13.
为了提高垃圾收集效率,降低垃圾收集耗费时间,提出一种基于LISP2算法的并行节点复制垃圾收集算法,给出了在CUDA环境下该算法的实现。实验结果显示,该算法在CUDA环境下能有效提高垃圾收集效率。  相似文献   

14.
为提升高级加密标准(AES)的加密性能,利用显卡的通用计算能力,在统一计算设备架构(CUDA)平台上实现AES的128位、192位和256位3个版本的GPU并行算法,并提出优化的AES并行算法。在考虑块内线程数量、共享存储器容量和总块数的基础上,根据分块最优值的经验数据指导AES算法在GPU上的最优分块。实验结果表明,与未优化的AES并行算法相比,该算法的3个版本在Nvidia Geforce G210显卡上的加密速度分别提高5.28%,14.55%和12.53%,而在Nvidia Geforce GTX460显卡上的加密速度分别提高12.48%,15.40%和15.84%,且能更好地对SSL数据进行加密。  相似文献   

15.
目前已有几种CUDA加速的图像高斯滤波算法,但这些算法有的描述不清楚,也没有人对它们的性能进行详尽的比较,这给理解及应用带来了困难。描述了几种CUDA加速的图像高斯滤波算法,包括直观的实现方式、使用共享内存的分离滤波器方法、使用纹理内存的分离滤波器方法、基于CUFFT的卷积滤波以及递归高斯滤波器。强调了这些算法的核心思想,比较了它们的时间复杂度,通过实验对它们的性能进行了分析。  相似文献   

16.
基于CUDA的双三次B样条缩放方法   总被引:4,自引:2,他引:2       下载免费PDF全文
Nvidia在GeForce 8系列显卡上推出的CUDA(统一计算设备架构)技术使GPU通用计算(GPGPU)从图形硬件流水线和高级绘制语言中解放出来,开发人员无须掌握图形学编程方法即可在单任务多数据模式(SIMD)下完成高性能并行计算。研究了CUDA的设计思想和编程方式,改进了基于双三次B样条曲面的图像缩放算法,使用多个线程将计算中耗时的B样条重采样部分改造成SIMD模式,并分别采用CUDA中全局存储器和共享存储器策略在CUDA上完成图像缩放的全过程。实验结果表明,基于CUDA的B样条曲面并行插值方法成功实现了硬件加速,相对于CPU上运行的B样条缩放算法,其执行效率明显提高,易于扩展,对于大规模数据处理呈现出良好的实时处理能力。  相似文献   

17.
CUDA架构下H.264快速去块滤波算法   总被引:1,自引:0,他引:1  
刘虎  孙召敏  陈启美 《计算机应用》2010,30(12):3252-3254
针对H.264/AVC视频编码标准中去块滤波器运算复杂度高、耗时巨大这一难题,提出了一种基于NVIDIA计算统一设备架构(CUDA)平台的H.264并行快速去块滤波算法,介绍了CUDA平台硬件结构特点与软件开发流程,根据图形处理器(GPU)的并发结构特点,对BS判定与滤波计算进行了并行优化,降低了算法复杂度,利用共享内存提高了数据访问速率,实现了去块滤波器的并行处理。实验结果表明,在图像质量基本不变的情况下,GPU算法能够明显提高运算速度,平均加速比在20倍左右,取得了良好的效果。  相似文献   

18.
笪良龙  臧涛  杨廷武  刘贝 《计算机工程》2009,35(19):245-247
针对数据量庞大、复杂的三维数据场环境下航路规划速度偏低的问题,提出一种基于统一计算设备架构(CUDA)的三维数据场航路规划方法。该方法以三维水下声场为威胁模型,水下航行的潜艇为背景,运用CUDA对大规模数据场环境下对航路进行规划,对可并行计算部分与CUDA进行计算,仿真结果证明该方法可以提高规划速率、优化初始航路。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号