首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 187 毫秒
1.
巩杰  赵烁  何虎  邓宁 《计算机工程》2022,48(3):170-174+196
深度卷积神经网络(CNN)模型中卷积层和全连接层包含大量卷积操作,导致网络规模、参数量和计算量大幅增加,部署于CPU/GPU平台时存在并行计算性能差和不适用于移动设备环境的问题,需要对卷积参数做量化处理并结合硬件进行加速设计。现场可编程门阵列(FPGA)可满足CNN并行计算和低功耗的需求,并具有高度的灵活性,因此,基于FPGA设计CNN量化方法及其加速系统。提出一种通用的动态定点量化方法,同时对网络的各个层级进行不同精度的量化,以减少网络准确率损失和网络参数的存储需求。在此基础上,针对量化后的CNN设计专用加速器及其片上系统,加速网络的前向推理计算。使用ImageNet ILSVRC2012数据集,基于VGG-16与ResNet-50网络对所设计的量化方法和加速系统进行性能验证。实验结果显示,量化后VGG-16与ResNet-50的网络规模仅为原来的13.8%和24.8%,而Top-1准确率损失均在1%以内,表明量化方法效果显著,同时,加速系统在运行VGG-16时,加速效果优于其他3种FPGA实现的加速系统,峰值性能达到614.4 GOPs,最高提升4.5倍,能耗比达到113.99 GOPs/W,最高提升4.7倍。  相似文献   

2.
针对卷积神经网络(CNN)模型中大量卷积操作,导致网络规模大幅增加,从而无法部署到嵌入式硬件平台,以及不同粒度数据与底层硬件结构不协调导致计算效率低的问题,基于项目组开发的可重构阵列处理器,面向支持多种位宽的运算单元,通过软硬件协同和可重构计算方法,采用KL(Kullback-Leibler)散度自定义量化阈值和随机取整进行截断处理的方式,寻找参数定长的最佳基点位置,设计支持多种计算粒度并行操作的指令及其卷积映射方案,并以此实现三种不同位宽的动态数据量化。实验结果表明,将权值与特征图分别量化到8 bit可以在准确率损失2%的情况下将模型压缩为原来的50%左右;将测试图像量化到三种位宽下进行硬件测试的加速比分别达到1.012、1.273和1.556,最高可缩短35.7%的执行时间和降低56.2%的访存次数,同时仅带来不足1%的相对误差,说明该方法可以在三种量化位宽下实现高效率的神经网络计算,进而达到硬件加速和模型压缩的目的。  相似文献   

3.
针对基于权重归一化方法的卷积神经网络(CNN)转换方法应用于事件流数据时准确率损失较大以及浮点网络难以在硬件上高效部署等问题,提出一种面向动态事件流的网络转换方法。首先,重构事件流数据并输入CNN进行训练,在训练过程中采用量化激活函数降低转换的准确率损失,并使用对称定点量化方法以减少参数存储量;其次,在网络转换中采用脉冲计数等价原理而非频率等价原理以更好地适应数据的稀疏性。实验结果表明,与使用传统激活函数相比,采用量化激活函数的脉冲卷积神经网络(SCNN)在N-MNIST、POKER-DVS和MNIST-DVS这三个动态事件流数据集上的识别准确率分别提高了0.29个百分点、8.52个百分点和3.95个百分点,转换损失分别降低了21.77%、100.00%和92.48%;此外,相较于基于权重归一化方法生成的高精度SCNN,所提量化SCNN在识别准确率相当的情况下可以有效节省约75%的存储空间,并且在N-MNIST和MNIST-DVS数据集上的转换损失分别降低了6.79%和46.29%。  相似文献   

4.
宋冰冰  张浩  吴子锋  刘俊晖  梁宇  周维 《软件学报》2021,32(11):3468-3481
近年来,卷积神经网络(CNN)展现了强大的性能,被广泛应用到了众多领域.由于CNN参数数量庞大,且存储和计算能力需求高,其难以部署在资源受限设备上.因此,对CNN的压缩和加速成为一个迫切需要解决的问题.随着自动化机器学习(AutoML)的研究与发展,AutoML对神经网络发展产生了深远的影响.受此启发,提出了基于参数估计和基于遗传算法的两种自动化加速卷积神经网络算法.该算法能够在给定精度损失范围内自动计算出最优的CNN加速模型,有效地解决了张量分解中,人工选择秩带来的误差问题,能够有效地提升CNN的压缩和加速效果.通过在MNIST和CIFAR-10数据集上的严格测试,与原网络相比,在MNIST数据集上准确率稍微下降了0.35%,模型的运行时间获得了4.1倍的大幅提升;在CIFAR-10数据集上,准确率稍微下降了5.13%,模型的运行时间获得了0.8倍的大幅提升.  相似文献   

5.
量化是压缩卷积神经网络、加速卷积神经网络推理的主要方法.现有的量化方法大多将所有层量化至相同的位宽,混合精度量化则可以在相同的压缩比下获得更高的准确率,但寻找混合精度量化策略是很困难的.为解决这种问题,提出了一种基于强化学习的卷积神经网络混合截断量化方法,使用强化学习的方法搜索混合精度量化策略,并根据搜索得到的量化策略混合截断权重数据后再进行量化,进一步提高了量化后网络的准确率.在ImageNet数据集上测试了ResNet18/50以及MobileNet-V2使用此方法量化前后的Top-1准确率,在COCO数据集上测试了YOLOV3网络量化前后的mAP.与HAQ, ZeroQ相比, MobileNet-V2网络量化至4位的Top-1准确率分别提高了2.7%和0.3%;与分层量化相比, YOLOV3网络量化至6位的mAP提高了2.6%.  相似文献   

6.
神经网络参数量和运算量的扩大,使得在资源有限的硬件平台上流水线部署神经网络变得更加困难。基于此,提出了一种解决深度学习模型在小型边缘计算平台上部署困难的方法。该方法基于应用于自定义数据集的深度可分离网络模型,在软件端使用迁移学习、敏感度分析和剪枝量化的步骤进行模型压缩,在硬件端分析并设计了适用于有限资源FPGA的流水线硬件加速器。实验结果表明,经过软件端的网络压缩优化,这种量化部署模型具有94.60%的高准确率,16.64 M的较低的单次推理定点数运算量和0.079 M的参数量。此外,经过硬件资源优化后,在国产FPGA开发板上进行流水线部署,推理帧率达到了366 FPS,计算能效为8.57 GOPS/W。这一研究提供了一种在小型边缘计算平台上高性能部署深度学习模型的解决方案。  相似文献   

7.
卷积神经网络(convolutional neural network, CNN)模型量化可有效压缩模型尺寸并提升CNN计算效率.然而,CNN模型量化算法的加速器设计,通常面临算法各异、代码模块复用性差、数据交换效率低、资源利用不充分等问题.对此,提出一种面向量化CNN的嵌入式FPGA加速框架FAQ-CNN,从计算、通信和存储3方面进行联合优化,FAQ-CNN以软件工具的形式支持快速部署量化CNN模型.首先,设计面向量化算法的组件,将量化算法自身的运算操作和数值映射过程进行分离;综合运用算子融合、双缓冲和流水线等优化技术,提升CNN推理任务内部的并行执行效率.然后,提出分级编码与位宽无关编码规则和并行解码方法,支持低位宽数据的高效批量传输和并行计算.最后,建立资源配置优化模型并转为整数非线性规划问题,在求解时采用启发式剪枝策略缩小设计空间规模.实验结果表明,FAQ-CNN能够高效灵活地实现各类量化CNN加速器.在激活值和权值为16 b时,FAQ-CNN的加速器计算性能是Caffeine的1.4倍;在激活值和权值为8 b时,FAQ-CNN可获得高达1.23TOPS的优越性能.  相似文献   

8.
为提高深度学习网络中公路提取性能,提出了一种基于CNN框架的公路路网自动提取方法。为进一步提高模型训练效果,设计了一种考虑公路结构的损失函数。计算损失时不仅考虑每个像素的重要程度,同时考虑公路的全局结构。通过仿真分析,所提方法准确率达到92.4%,较传统CNN方法提高13%。  相似文献   

9.
雷小康  尹志刚  赵瑞莲 《计算机应用》2020,40(10):2811-2816
针对卷积神经网络(CNN)在资源受限的硬件设备上运行功耗高及运行慢的问题,提出一种基于现场可编程门阵列(FPGA)的CNN定点计算加速方法。首先提出一种定点化方法,并且每层卷积设计不同的尺度参数,使用相对散度确定位宽的长度,以减小CNN参数的存储空间,而且研究不同量化区间对CNN精度的影响;其次,设计参数复用方法及流水线计算方法来加速卷积计算。为验证CNN定点化后的加速效果,采用了人脸和船舶两个数据集进行验证。结果表明,相较于传统的浮点卷积计算,所提方法在保证CNN精度损失很小的前提下,当权值参数和输入特征图参数量化到7-bit时,在人脸识别CNN模型上的压缩后的权重参数文件大小约为原来的22%,卷积计算加速比为18.69,同时使FPGA中的乘加器的利用率达94.5%。实验结果表明了该方法可以提高卷积计算速度,并且能够高效利用FPGA硬件资源。  相似文献   

10.
雷小康  尹志刚  赵瑞莲 《计算机应用》2005,40(10):2811-2816
针对卷积神经网络(CNN)在资源受限的硬件设备上运行功耗高及运行慢的问题,提出一种基于现场可编程门阵列(FPGA)的CNN定点计算加速方法。首先提出一种定点化方法,并且每层卷积设计不同的尺度参数,使用相对散度确定位宽的长度,以减小CNN参数的存储空间,而且研究不同量化区间对CNN精度的影响;其次,设计参数复用方法及流水线计算方法来加速卷积计算。为验证CNN定点化后的加速效果,采用了人脸和船舶两个数据集进行验证。结果表明,相较于传统的浮点卷积计算,所提方法在保证CNN精度损失很小的前提下,当权值参数和输入特征图参数量化到7-bit时,在人脸识别CNN模型上的压缩后的权重参数文件大小约为原来的22%,卷积计算加速比为18.69,同时使FPGA中的乘加器的利用率达94.5%。实验结果表明了该方法可以提高卷积计算速度,并且能够高效利用FPGA硬件资源。  相似文献   

11.
随着大型图像集的出现以及计算机硬件尤其是GPU的快速发展,在有限计算资源的嵌入式设备上部署卷积神经网络(CNN)模型成为具有挑战性的问题.电力设备过热故障可以通过采集的红外热成像进行识别.由于红外辐射在空气中传播衰落,红外测温结果低于实际温度值.本文提出一种基于嵌入式设备的高效卷积神经网络用于电力设备热故障检测,将SSD算法中的骨干网络替换为MobileNet,同时Batch Normalization与前一卷积层合并,以减少模型参数、提升推理速度、使之能够在轻量级计算平台上运行.针对红外辐射在空气中传播损失的问题,提出一种基于BP神经网络的红外测温修正单元.基于上述创新设计了一种电力设备热故障检测系统,实验以及现场应用表明,该方法具有较高的准确性以及推理速度.  相似文献   

12.
随着人工智能的快速发展,卷积神经网络(CNN)在很多领域发挥着越来越重要的作用。分析研究了现有卷积神经网络模型,设计了一种基于现场可编程门阵列(FPGA)的卷积神经网络加速器。在卷积运算中四个维度方向实现了并行化计算;提出了参数化架构设计,在三种参数条件下,单个时钟周期分别能够完成512、1024、2048次乘累加;设计了片内双缓存结构,减少片外存储访问的同时实现了有效的数据复用;使用流水线实现了完整的神经网络单层运算过程,提升了运算效率。与CPU、GPU以及相关FPGA加速方案进行了对比实验,实验结果表明,所提出的设计的计算速度达到了560.2 GOP/s,为i7-6850K CPU的8.9倍。同时,其计算的性能功耗比达到了NVDIA GTX 1080Ti GPU的3.0倍,与相关研究相比,所设计的加速器在主流CNN网络的计算上实现了较高的性能功耗比,同时不乏通用性。  相似文献   

13.
网络入侵样本数据特征间存在未知的非欧氏空间图结构关系, 深入挖掘并利用该关系可有效提升网络入侵检测方法的检测效能. 对此, 设计一种元图神经网络(Meta graph neural network, MGNN), MGNN能够对样本数据特征内部隐藏的图结构关系进行挖掘与利用, 在应对入侵检测问题时优势明显. 首先, 设计元图网络层(Meta graph network layer, MGNL), 挖掘出样本数据特征内部隐藏的图结构关系, 并利用该关系对样本数据的原始特征进行更新; 然后, 针对MGNN存在的图信息传播过程中父代信息湮灭现象提出反信息湮灭策略, 并设计了注意力损失函数, 简化MGNN中实现注意力机制的运算过程. KDD-NSL、UNSW-NB15、CICDoS2019数据集上的实验表明, 与经典深度学习算法深度神经网络 (Deep neural network, DNN)、卷积神经网络(Convolutional neural network, CNN)、循环神经网络(Recurrent neural network, RNN)、长短期记忆(Long short-term memory, LSTM)和传统机器学习算法支持向量机(Support vector machine, SVM)、决策树(Decision tree, DT)、随机森林(Random forest, RF)、K-最近邻(K-nearest neighbor, KNN)、逻辑回归(Logistic regression, LR)相比, MGNN在准确率、F1值、精确率、召回率评价指标上均具有良好效果.  相似文献   

14.
针对卷积神经网络(CNN)对运算的需求,现场可编程逻辑门阵列(FPGA)可以充分挖掘CNN内部并行计算的特性,提高运算速度.因此,本文基于FPGA开发平台,从模型优化、参数优化,硬件加速以及手写体数字识别四个方面对CNN的FPGA加速及应用进行研究.提出一种数字识别网络RLeNet,并对网络进行参数优化,卷积运算加速采...  相似文献   

15.
目前,深度学习已经在各种人体运动识别(HAR)任务中发挥了重要作用。但是,由于运动数据具有时间序列和包含肢体动作的特殊性,现有神经网络在进行卷积操作时会导致数据高度相关,并且随着网络影响到下一层,这限制了模型的识别效果。为此,提出了一种带有协方差矩阵的改进卷积神经网络用于HAR场景,通过矩阵变换搭建一种去相关的网络结构来消除相关性问题,可以在网络表现不佳时替代现有的批量归一化(BN)层用于归一化数据。在4个HAR公共数据集上进行实验,并与传统CNN和带有BN层的模型进行比较。实验结果表明,对比此前的深度学习网络,改进的神经网络有1%~2%的性能提升,验证了该方法的有效性,并将程序移植到了移动端进行实时运动识别。  相似文献   

16.
基于智能手机传感器的人体活动识别是普适计算领域的研究热点.为扩展可识别的活动种类,并提高准确率和实时性,提出了由智能手环和智能手机组建无线体域网通过深度神经网络在线识别人体活动的方法.首先,设计由智能手环和智能手机组成的无线体域网的总体框架;然后,对预处理后的传感信号,构造带有Inception结构的卷积神经网络和长短时记忆递归神经网络来分别提取时空域特征,并结合两类网络结构来融合多模态传感数据,离线进行神经网络模型训练;最后,对训练好的神经网络模型进行优化,并部署到智能手机上,在线实时识别人体活动.实验结果表明,本文方法无需手工设计特征,可自动融合各类异构传感数据,更加准确、高效地识别了更多种类的活动.  相似文献   

17.
利用神经网络进行辐射源个体识别时,训练样本的单一性会导致深度网络出现过拟合的现象,继而影响辐射源个体识别的精确性。针对该问题,本文提出一种基于PID算法的深度卷积网络结构,该结构通过在传统卷积神经网络的输出层与输入层间构建一条反馈回路,采用PID算法将网络输出错误率转化为划分训练集数据构成的概率,通过优化训练集数据构成,达到抑制过拟合的目的。将该方法应用于超短波电台识别,平均识别率达到92.59%,识别率方差约为传统算法的1/3,训练用时减少约35 min,上述指标均优于传统神经网络。实验结果表明,该算法增强了深度网络的鲁棒性,有效地抑制了过拟合现象。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号