期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

刘进锋郭雷《微型机与应用》2011,30(18):69-71,75

基于CUDA架构在GPU上实现了神经网络前向传播算法,该算法利用神经网络各层内神经元计算的并行性,每层使用一个Kernel函数来并行计算该层神经元的值,每个Kernel函数都根据神经网络的特性和CUDA架构的特点进行优化。实验表明,该算法比普通的CPU上的算法快了约7倍。研究结果对于提高神经网络的运算速度以及CUDA的适用场合都有参考价值。相似文献

2.

基于CUDA技术的卷积神经网络识别算法

下载免费PDF全文

张佳康陈庆奎《计算机工程》2010,36(15):179-181

针对具有高浮点运算能力的流处理器设备GPU对神经网络的适用性问题,提出卷积神经网络的并行化识别算法,采用计算统一设备架构(CUDA)技术,并定义其上的并行化数据结构,描述计算任务到CUDA的映射机制。实验结果证明,在GTX200硬件架构的GPU上实现的并行识别算法的平均浮点运算能力峰值较CPU上串行算法提高了近60倍,更适用于神经网络的相关应用。相似文献

3.

深度神经网络轧制力建模及其并行优化研究北大核心CSCD

刘翰培汪宇轩王亚琴罗小川《控制工程》2022,(8):1379-1386

冷连轧过程控制的轧制力模型是整个轧制过程计算机控制的基础。为提高5机架2030冷连轧系统轧制力模型的精度和适用性,提出了多输入多输出深度神经网络轧制力模型的数据预处理、建模和并行优化方法。对含有不同隐含层数和节点数的神经网络,采用不同训练算法(SCG算法和L-M算法)与不同优化方法(多线程CPU、单GPU和多线程CPU+GPU),研究了神经网络结构、训练算法和优化方法对神经网络轧制力模型的性能、训练时长、线性相关系数的影响。研究结果表明:含有2个隐含层、采用L-M算法和多线程CPU优化方法可获得综合性能最优的神经网络轧制力模型;神经网络轧制力模型的计算误差远小于在线使用的Siemens轧制力模型的计算误差。相似文献

4.

基于GPU加速的图像双向相似性计算

傅贤超《现代计算机》2013,(11)

针对双向相似性计算在CPU下串行计算效率低下,无法满足实际需求的问题,利用该计算中数据独立性的特点,应用CUDA编程模型实现基于GPU加速的图像双向相似性计算。与CPU相比,在392x300的分辨率实验下,该算法在GPU上可获得超过1200倍的加速比。相似文献

5.

基于GPU的H.264并行解码算法

陈鹏曹剑炜陈庆奎《计算机工程》2014,(1):283-286

针对并行处理H.264标准视频流解码问题,提出基于CPU/GPU的协同运算算法。以统一设备计算架构(CUDA)语言作为GPU编程模型,实现DCT逆变换与帧内预测在GPU中的加速运算。在保持较高计算精度的前提下,结合CUDA混合编程,提高系统的计算性能。利用NIVIDIA提供的CUDA语言,在解码过程中使DCT逆变换和帧内预测在GPU上并行实现,将并行算法与CPU单机实现进行比较,并用不同数量的视频流验证并行解码算法的加速效果。实验结果表明,该算法可大幅提高视频流的编解码效率,比CPU单机的平均计算加速比提高10倍。相似文献

6.

基于OpenCL的图像重映射算法优化研究

吴再龙张云泉龙国平徐建良贾海鹏《数据与计算发展前沿》2013,4(1):57-66

图像重映射(Remap)算法是典型的图像变化算法。在图像放缩、扭曲、旋转等领域有着广泛的应用。随着图片规模和分辨率的不断提高,对图形映射算法的性能提出了越来越高的要求。本文在充分考虑不同GPU平台硬件体系结构差异的基础上,系统研究了在OpenCL框架下图像映射(Remap)算法在不同GPU平台上的高效实现方式。并从片外内存访存优化,向量化计算,减少动态指令等多个优化角度考察了不同优化方法在不同GPU平台上对性能的影响,提出了在不同GPU平台间实现性能移植的可能性。实验结果表明,优化后的算法在不考虑数据传输时间的前提下,在AMD HD5850GPU上相对于CPU版本取得114.3～491.5倍的加速比,相对于CUDA版本(现有GPU算法的实现)得到1.01～1.86的加速比,在NIVIDIA C2050 GPU上相对CPU版本取得100.7～369.8倍的加速比,相对于CUDA版本得到0.95～1.58的加速比。有效验证了本文提出的优化方法的有效性和性能可移植性。相似文献

7.

LBM算法在GPU组中的应用

王鹏封卫兵《计算机工程与设计》2011,32(12):4237-4240

为提高大规模并行计算的并行效率,充分发挥CPU与GPU的功能特点,特别是体现GPU强大的运算能力,提出了用消息传递接口(MPI)将一组GPU连接起来。使GPU通用计算与计算流体力学中的LBM(latticeBoltzmannmethod)算法相结合。根据GPU通用计算与LBM算法的原理,使MPI作为计算分配的机制,CUDA(compute unified device architecture)作为主要的计算执行引擎,建立支持CUDA的GPU集群,在集群上对LBM算法中的D2Q9模型进行二维方腔流数值模拟。实验结果表明,利用GPU组模拟与CPU模拟结果一致,更充分发挥了GPU的计算能力,提高了并行效率。相似文献

8.

异构平台下格子Boltzmann方法实现及性能分析

张丹丹徐莹徐磊《计算机科学》2012,39(4):296-298,303

对CPU+GPU异构平台下的多种并行编程模式进行了研究,并针对格子Boltzmann方法实现了CUDA,MPI+CUDA,MPI+OpenMP+CUDA多级并行算法。结果表明,算法具有较好的加速性能;提出的根据计算量比例参数调节CPU和GPU之间负载均衡的方法,对于在异构平台上实现多级并行处理及资源的有效利用具有一定的参考和应用价值。相似文献

9.

GPU上实现的向量点积的性能分析

郭雷刘进锋《计算机工程与应用》2012,48(2):201-202

CUDA是一种较为简便的利用GPU进行通用计算的技术。研究了GPU上基于CUDA的几种向量点积算法,比较、分析了每种算法的性能。实验表明,GPU上最快的算法比CPU上的算法快了约7倍。相似文献

10.

基于GPU平台的二维离散余弦算法

刘峰施展《计算机工程与科学》2009,31(Z1)

本文介绍了GPU并行计算的优越性,并对基于GPU平台的开发框架和编程环境CUDA给予概述;在CUDA环境中开发DCT算法代码,实现了DCT算法代码从CPU平台向GPU平台的移植;并通过对比两个计算平台上DCT算法的计算耗时,分析了GPU计算平台的优越性。相似文献

11.

GPU加速希尔加解密方法的研究 总被引：1，自引：1，他引：0

下载免费PDF全文

刘丹赵广辉钟珞《计算机工程与应用》2010,46(18):49-51

GPU有效地利用了数量巨大的晶体管制造大量的处理单元,适用于处理单任务多数据（SIMD）的计算任务。研究了GPU的体系结构及CUDA的编程模式,改进了基于CPU的希尔加解密方法,使用多个线程将计算中耗时的矩阵相乘部分改造成SIMD模式,并分析了线程块内线程数对加速比的影响。实验结果表明,基于GPU的并行矩阵相乘的希尔加解密方法成功实现了硬件加速,相对于CPU上运行的希尔加解密方法,其执行效率明显提高,可获取12倍以上的加速,并易于扩展,对大规模数据加密和解密处理呈现出高效的处理能力。相似文献

12.

运动估计搜索算法的CUDA优化与实现

下载免费PDF全文

陈佐陈汉季加良《计算机工程与应用》2010,46(32):171-176

针对H.264压缩编码中计算量大以及最为耗时的运动估计搜索算法的特点,利用图形处理器的并行优化思想,研究基于CUDA计算平台的运动估计搜索算法GEA（全域消除算法）的并行化处理方法,并对其中的并行设计、数据处理、结果反馈等关键技术问题,进行了详细论述。最后通过实验数据对算法运行效率进行对比分析。实验结果表明GPU中的GEA搜索算法运动搜索性能较之CPU中有显著提高。相似文献

13.

CUDA-enabled implementation of a neural network algorithm for handwritten digit recognition

P. Yu. Izotov N. L. Kazanskiy D. L. Golovashkin S. V. Sukhanov 《Optical Memory & Neural Networks》2011,20(2):98-106

Using a convolutional neural network as an example, we discuss specific aspects of implementing a learning algorithm of pattern recognition on the GPU graphics card using NVIDIA CUDA architecture. The training time of the neural network on a video-adapter is decreased by a factor of 5.96 and the recognition time of a test set is decreased by a factor of 8.76 when compared with the implementation of an optimized algorithm on a central processing unit (CPU). We show that the implementation of the neural network algorithms on graphics processors holds promise. 相似文献

14.

RSA算法的CUDA高效实现技术 总被引：1，自引：1，他引：0

下载免费PDF全文

孙迎红童元满王志英《计算机工程与应用》2011,47(2):84-87

CUDA（Compute Unified Device Architecture）作为一种支持GPU通用计算的新型计算架构,在大规模数据并行计算方面得到了广泛的应用。RSA算法是一种计算密集型的公钥密码算法,给出了基于CUDA的RSA算法并行化高效实现技术,其关键为引入大量独立并发的Montgomery模乘线程,并给出了具体的线程组织、数据存储结构以及基于共享内存的性能优化实现技术。根据RSA算法CUDA实现方法,在某款GPU上测试了RSA算法的运算性能和吞吐率。实验结果表明,与RSA算法的通用CPU实现方式相比,CUDA实现能够实现超过40倍的性能加速。相似文献

15.

基于GPU的可见光与红外图像融合快速实现

下载免费PDF全文

闫钧华杭谊青孙思佳《计算机工程》2013,(11):249-253

为利用统一计算设备架构（CUDA）强大的并行处理能力实现快速图像融合,提出一种适用于并行运算的图像融合算法,包括高斯滤波、直方图均衡、基于小波变换的图像融合。通过CUDA编程对以上算法进行实现,并将其与对应的CPU程序相比较,实验结果表明,图形处理单元（GPU）执行效率比CPU高出一个数量级,并且随着数据量的增加,GPU的加速比还会增大。相似文献

16.

基于遗传算法优化的BP网络速度观测器的研究

下载免费PDF全文

张雯丽刘国荣张伟吴超帅《计算机工程与应用》2013,49(12):259-262

根据三相异步电机的数学模型,提出了一种基于智能算法优化的速度观测器,以实现无速度传感器在直接转矩控制系统中的速度闭环控制。在通过BP神经网络训练得到的DTC系统的速度观测器的基础上,针对BP神经网络寻优参数多、易陷于局部极值以及初始设置对训练结果影响大等的不足,采用遗传算法对其进行优化设计。由仿真结果可知,用遗传算法优化后的BP神经网络较单纯的BP神经网络速度观测器具有更高的精度。相似文献

17.

AES算法的CUDA高效实现方法

夏春林周德云张堃《计算机应用研究》2013,30(6):1907-1909

针对AES算法的ECB工作模式安全性低的弱点, 提出了一种新的ECB工作模式, 并在GPU最新统一计算设备架构(CUDA)下进行了实现。具体并行实现包括线程组织、数据存储结构以及共享内存的性能优化技术。实验结果表明这种新模式增强了AES算法的性能和安全性, 与传统CPU实现相比, 利用 CUDA能够实现显著的加速性能。相似文献

18.

GPU加速的图像匹配技术 总被引：1，自引：0，他引：1

厉旭杰《计算机工程与应用》2012,48(2):173-176

传统的模板图像匹配算法,匹配速度较慢。应用GPU通用高性能编程技术实现了一种加速图像匹配算法的新方法。应用CUDA编程技术对图像匹配算法进行并行化改造。采用了四种不同的存储方案,在第四种存储方案中获得了43.5倍的加速比,并对四种不同的存储方案的性能进行了深入研究。相似文献