共查询到18条相似文献,搜索用时 203 毫秒
1.
基于CUDA架构在GPU上实现了神经网络前向传播算法,该算法利用神经网络各层内神经元计算的并行性,每层使用一个Kernel函数来并行计算该层神经元的值,每个Kernel函数都根据神经网络的特性和CUDA架构的特点进行优化。实验表明,该算法比普通的CPU上的算法快了约7倍。研究结果对于提高神经网络的运算速度以及CUDA的适用场合都有参考价值。 相似文献
2.
3.
冷连轧过程控制的轧制力模型是整个轧制过程计算机控制的基础。为提高5机架2030冷连轧系统轧制力模型的精度和适用性,提出了多输入多输出深度神经网络轧制力模型的数据预处理、建模和并行优化方法。对含有不同隐含层数和节点数的神经网络,采用不同训练算法(SCG算法和L-M算法)与不同优化方法(多线程CPU、单GPU和多线程CPU+GPU),研究了神经网络结构、训练算法和优化方法对神经网络轧制力模型的性能、训练时长、线性相关系数的影响。研究结果表明:含有2个隐含层、采用L-M算法和多线程CPU优化方法可获得综合性能最优的神经网络轧制力模型;神经网络轧制力模型的计算误差远小于在线使用的Siemens轧制力模型的计算误差。 相似文献
4.
针对双向相似性计算在CPU下串行计算效率低下,无法满足实际需求的问题,利用该计算中数据独立性的特点,应用CUDA编程模型实现基于GPU加速的图像双向相似性计算。与CPU相比,在392x300的分辨率实验下,该算法在GPU上可获得超过1200倍的加速比。 相似文献
5.
针对并行处理H.264标准视频流解码问题,提出基于CPU/GPU的协同运算算法。以统一设备计算架构(CUDA)语言作为GPU编程模型,实现DCT逆变换与帧内预测在GPU中的加速运算。在保持较高计算精度的前提下,结合CUDA混合编程,提高系统的计算性能。利用NIVIDIA提供的CUDA语言,在解码过程中使DCT逆变换和帧内预测在GPU上并行实现,将并行算法与CPU单机实现进行比较,并用不同数量的视频流验证并行解码算法的加速效果。实验结果表明,该算法可大幅提高视频流的编解码效率,比CPU单机的平均计算加速比提高10倍。 相似文献
6.
图像重映射(Remap)算法是典型的图像变化算法。在图像放缩、扭曲、旋转等领域有着广泛的应用。随着图片规模和分辨率的不断提高,对图形映射算法的性能提出了越来越高的要求。本文在充分考虑不同GPU平台硬件体系结构差异的基础上,系统研究了在OpenCL框架下图像映射(Remap)算法在不同GPU平台上的高效实现方式。并从片外内存访存优化,向量化计算,减少动态指令等多个优化角度考察了不同优化方法在不同GPU平台上对性能的影响,提出了在不同GPU平台间实现性能移植的可能性。实验结果表明,优化后的算法在不考虑数据传输时间的前提下,在AMD HD5850GPU上相对于CPU版本取得114.3~491.5倍的加速比,相对于CUDA版本(现有GPU算法的实现)得到1.01~1.86的加速比,在NIVIDIA C2050 GPU上相对CPU版本取得100.7~369.8倍的加速比,相对于CUDA版本得到0.95~1.58的加速比。有效验证了本文提出的优化方法的有效性和性能可移植性。 相似文献
7.
为提高大规模并行计算的并行效率,充分发挥CPU与GPU的功能特点,特别是体现GPU强大的运算能力,提出了用消息传递接口(MPI)将一组GPU连接起来。使GPU通用计算与计算流体力学中的LBM(latticeBoltzmannmethod)算法相结合。根据GPU通用计算与LBM算法的原理,使MPI作为计算分配的机制,CUDA(compute unified device architecture)作为主要的计算执行引擎,建立支持CUDA的GPU集群,在集群上对LBM算法中的D2Q9模型进行二维方腔流数值模拟。实验结果表明,利用GPU组模拟与CPU模拟结果一致,更充分发挥了GPU的计算能力,提高了并行效率。 相似文献
8.
9.
CUDA是一种较为简便的利用GPU进行通用计算的技术。研究了GPU上基于CUDA的几种向量点积算法,比较、分析了每种算法的性能。实验表明,GPU上最快的算法比CPU上的算法快了约7倍。 相似文献
10.
本文介绍了GPU并行计算的优越性,并对基于GPU平台的开发框架和编程环境CUDA给予概述;在CUDA环境中开发DCT算法代码,实现了DCT算法代码从CPU平台向GPU平台的移植;并通过对比两个计算平台上DCT算法的计算耗时,分析了GPU计算平台的优越性。 相似文献
11.
GPU有效地利用了数量巨大的晶体管制造大量的处理单元,适用于处理单任务多数据(SIMD)的计算任务。研究了GPU的体系结构及CUDA的编程模式,改进了基于CPU的希尔加解密方法,使用多个线程将计算中耗时的矩阵相乘部分改造成SIMD模式,并分析了线程块内线程数对加速比的影响。实验结果表明,基于GPU的并行矩阵相乘的希尔加解密方法成功实现了硬件加速,相对于CPU上运行的希尔加解密方法,其执行效率明显提高,可获取12倍以上的加速,并易于扩展,对大规模数据加密和解密处理呈现出高效的处理能力。 相似文献
12.
针对H.264压缩编码中计算量大以及最为耗时的运动估计搜索算法的特点,利用图形处理器的并行优化思想,研究基于CUDA计算平台的运动估计搜索算法GEA(全域消除算法)的并行化处理方法,并对其中的并行设计、数据处理、结果反馈等关键技术问题,进行了详细论述。最后通过实验数据对算法运行效率进行对比分析。实验结果表明GPU中的GEA搜索算法运动搜索性能较之CPU中有显著提高。 相似文献
13.
P. Yu. Izotov N. L. Kazanskiy D. L. Golovashkin S. V. Sukhanov 《Optical Memory & Neural Networks》2011,20(2):98-106
Using a convolutional neural network as an example, we discuss specific aspects of implementing a learning algorithm of pattern
recognition on the GPU graphics card using NVIDIA CUDA architecture. The training time of the neural network on a video-adapter
is decreased by a factor of 5.96 and the recognition time of a test set is decreased by a factor of 8.76 when compared with
the implementation of an optimized algorithm on a central processing unit (CPU). We show that the implementation of the neural
network algorithms on graphics processors holds promise. 相似文献
14.
CUDA(Compute Unified Device Architecture)作为一种支持GPU通用计算的新型计算架构,在大规模数据并行计算方面得到了广泛的应用。RSA算法是一种计算密集型的公钥密码算法,给出了基于CUDA的RSA算法并行化高效实现技术,其关键为引入大量独立并发的Montgomery模乘线程,并给出了具体的线程组织、数据存储结构以及基于共享内存的性能优化实现技术。根据RSA算法CUDA实现方法,在某款GPU上测试了RSA算法的运算性能和吞吐率。实验结果表明,与RSA算法的通用CPU实现方式相比,CUDA实现能够实现超过40倍的性能加速。 相似文献
15.
16.
根据三相异步电机的数学模型,提出了一种基于智能算法优化的速度观测器,以实现无速度传感器在直接转矩控制系统中的速度闭环控制。在通过BP神经网络训练得到的DTC系统的速度观测器的基础上,针对BP神经网络寻优参数多、易陷于局部极值以及初始设置对训练结果影响大等的不足,采用遗传算法对其进行优化设计。由仿真结果可知,用遗传算法优化后的BP神经网络较单纯的BP神经网络速度观测器具有更高的精度。 相似文献
17.
18.
GPU加速的图像匹配技术 总被引:1,自引:0,他引:1
厉旭杰 《计算机工程与应用》2012,48(2):173-176
传统的模板图像匹配算法,匹配速度较慢。应用GPU通用高性能编程技术实现了一种加速图像匹配算法的新方法。应用CUDA编程技术对图像匹配算法进行并行化改造。采用了四种不同的存储方案,在第四种存储方案中获得了43.5倍的加速比,并对四种不同的存储方案的性能进行了深入研究。 相似文献