共查询到17条相似文献,搜索用时 62 毫秒
1.
2.
针对H.264压缩编码中计算量大以及最为耗时的运动估计搜索算法的特点,利用图形处理器的并行优化思想,研究基于CUDA计算平台的运动估计搜索算法GEA(全域消除算法)的并行化处理方法,并对其中的并行设计、数据处理、结果反馈等关键技术问题,进行了详细论述。最后通过实验数据对算法运行效率进行对比分析。实验结果表明GPU中的GEA搜索算法运动搜索性能较之CPU中有显著提高。 相似文献
3.
序列设计在信息安全,无线通信等诸多领域中有着重要应用。在流密码系统中,要求产生的随机序列具有理想的随机复杂度度量如线性复杂度,k阶相关复杂度等。其中Legendre序列具有这些理想的随机性质。实用中序列的生成速度也是很重要的考虑因素。探讨了大素数周期的Legendre序列生成的相关算法,并运用统一计算设备架构平台(CUDA)对其进行优化以加快序列的生成速度。实验结果表明,运用CUDA进行序列的并行生成,序列的生成速度有数量级的提高。 相似文献
4.
为了提高垃圾收集效率,降低垃圾收集耗费时间,提出一种基于LISP2算法的并行节点复制垃圾收集算法,给出了在CUDA环境下该算法的实现。实验结果显示,该算法在CUDA环境下能有效提高垃圾收集效率。 相似文献
5.
为解决目前已有的图像匹配算法不适用于对实时性要求很强的应用,提出了PLS(Partial Least Squares)与余弦定理相结合的并行化图像匹配算法。该算法在CUDA架构下,对图像矩阵分块,分块后每个小块图像存入共享存储器处理并提取每个小块图像特征,通过合并后图像特征采用余弦定理计算图像的相似度,从而找出匹配图像。实验表明,CUDA架构下可以实现图像的并行匹配,与CPU上串行匹配相比,时效性提高了百倍以上。 相似文献
6.
GPU可以快速有效的处理海量数据,因此在近些年成为图形图像数据处理领域的研究热点。针对现有GPU渲染中在处理含有大量相同或相似模型场景时存在资源利用率低下和带宽消耗过大的问题,在原有GPU渲染架构的基础上提出了一种基于CUDA的加速渲染方法。在该方法中,根据现有的GPU渲染模式构建对应的模型,通过模型找出其不足,从而引申出常量内存的概念;然后分析常量内存的特性以及对渲染产生的作用,从而引入基于常量内存控制的方法来实现渲染的加速,整个渲染过程可以通过渲染算法进行控制。实验结果表明,该方法对解决上述问题具有较好的效果,最终实现加速渲染。 相似文献
7.
CUDA技术方便程序员在GPU上进行通用计算,但并没有提供随机数产生的应用接口。为此,本文提出并实现在CUDA开发平台上并行产生均匀随机数算法,测试证明算法可行。在此基础上优化基本遗传算法,并在GPU上并行实现其所有操作,提高其运行速度和准确度;分析了种群大小和遗传代数对此算法加速比及准确度的影响,并与MAT-LAB工具箱进行比较。实验表明,相比MATLAB遗传算法工具箱,基于CUDA平台实现的遗传算法性能更高,准确度更好。 相似文献
8.
9.
为解决时域有限差分(FDTD)算法应用于电大尺寸目标仿真的巨大耗时问题,应用FDTD算法的并行特性和通用图形处理器(GPGPU)技术,实现了一种基于计算统一设备架构(CUDA)的三维FDTD并行计算方法,采用了时域卷积完全匹配层(CPML)吸收边界条件模拟开域空间,对不同网格数目标仿真计算。进一步结合FDTD算法和CUDA的特点进行了优化,当计算空间元胞数在十万数量级及以上时,优化前后GPU运算相对于同时期的CPU分别可获得10和25倍以上的加速,结果表明该方法较适合用于实际电磁问题的仿真。 相似文献
10.
Nvidia在GeForce 8系列显卡上推出的CUDA(统一计算设备架构)技术使GPU通用计算(GPGPU)从图形硬件流水线和高级绘制语言中解放出来,开发人员无须掌握图形学编程方法即可在单任务多数据模式(SIMD)下完成高性能并行计算。研究了CUDA的设计思想和编程方式,改进了基于双三次B样条曲面的图像缩放算法,使用多个线程将计算中耗时的B样条重采样部分改造成SIMD模式,并分别采用CUDA中全局存储器和共享存储器策略在CUDA上完成图像缩放的全过程。实验结果表明,基于CUDA的B样条曲面并行插值方法成功实现了硬件加速,相对于CPU上运行的B样条缩放算法,其执行效率明显提高,易于扩展,对于大规模数据处理呈现出良好的实时处理能力。 相似文献
11.
CUDA(Compute Unified Device Architecture)作为一种支持GPU通用计算的新型计算架构,在大规模数据并行计算方面得到了广泛的应用。RSA算法是一种计算密集型的公钥密码算法,给出了基于CUDA的RSA算法并行化高效实现技术,其关键为引入大量独立并发的Montgomery模乘线程,并给出了具体的线程组织、数据存储结构以及基于共享内存的性能优化实现技术。根据RSA算法CUDA实现方法,在某款GPU上测试了RSA算法的运算性能和吞吐率。实验结果表明,与RSA算法的通用CPU实现方式相比,CUDA实现能够实现超过40倍的性能加速。 相似文献
12.
CUDA是应用较广的GPU通用计算模型,BP算法是目前应用最广泛的神经网络模型之一。提出了用CUDA模型并行化BP算法的方法。用该方法训练BP神经网络,训练开始前将数据传到GPU,训练开始后计算隐含层和输出层的输入输出和误差,更新权重和偏倚的过程都在GPU上实现。将该方法用于手写数字图片训练练实验,与在四核CPU上的训练相比,加速比为6.12~8.17。分别用在CPU和GPU上训练得到的结果识别相同的测试集图片,GPU上的训练结果对图片的识别率比CPU上的高0.05%~0.22%。 相似文献
13.
在Gauss-Jordan消去法的基础上,给出了一种适应于CUDA架构的改进Gauss-Jordan消去并行算法。通过分析该方法的处理过程以及CUDA架构的相应限制,在CUDA的grid-block-thread三层组织结构的基础上,从算法构造的角度提出了grid-strip-group-block-thread五层结构,给出了基础行以及全局基础行等概念,并构建了适应于CUDA架构的Gauss-Jordan消去法的并行版本,在最高维数为4 000维的大规模稠密线性方程组的算例求解上与串行Gauss-Jordan消去法进行了比较,实验结果表明,该算法能够充分利用GPU的硬件特性,有效地降低了大规模稠密线性方程组的求解时间。 相似文献
14.
15.
16.
图像处理通常需要较大的计算量,其中图像去噪是经常使用的一种预处理算法,研究其快速算法具有重要意义。图形处理器具有强大的并行计算能力,但大部分时间处于闲置状态。统一计算设备架构提供了一种简单易用的开发环境,可利用图形处理器进行通用计算。提出了基于统一计算设备架构的快速图像去噪算法,可以利用GPU的计算能力,加快去噪过程,显著地减少计算时间。 相似文献
17.
为提升高级加密标准(AES)的加密性能,利用显卡的通用计算能力,在统一计算设备架构(CUDA)平台上实现AES的128位、192位和256位3个版本的GPU并行算法,并提出优化的AES并行算法。在考虑块内线程数量、共享存储器容量和总块数的基础上,根据分块最优值的经验数据指导AES算法在GPU上的最优分块。实验结果表明,与未优化的AES并行算法相比,该算法的3个版本在Nvidia Geforce G210显卡上的加密速度分别提高5.28%,14.55%和12.53%,而在Nvidia Geforce GTX460显卡上的加密速度分别提高12.48%,15.40%和15.84%,且能更好地对SSL数据进行加密。 相似文献