共查询到20条相似文献,搜索用时 0 毫秒
1.
2.
深度卷积神经网络(CNN)模型中卷积层和全连接层包含大量卷积操作,导致网络规模、参数量和计算量大幅增加,部署于CPU/GPU平台时存在并行计算性能差和不适用于移动设备环境的问题,需要对卷积参数做量化处理并结合硬件进行加速设计。现场可编程门阵列(FPGA)可满足CNN并行计算和低功耗的需求,并具有高度的灵活性,因此,基于FPGA设计CNN量化方法及其加速系统。提出一种通用的动态定点量化方法,同时对网络的各个层级进行不同精度的量化,以减少网络准确率损失和网络参数的存储需求。在此基础上,针对量化后的CNN设计专用加速器及其片上系统,加速网络的前向推理计算。使用ImageNet ILSVRC2012数据集,基于VGG-16与ResNet-50网络对所设计的量化方法和加速系统进行性能验证。实验结果显示,量化后VGG-16与ResNet-50的网络规模仅为原来的13.8%和24.8%,而Top-1准确率损失均在1%以内,表明量化方法效果显著,同时,加速系统在运行VGG-16时,加速效果优于其他3种FPGA实现的加速系统,峰值性能达到614.4 GOPs,最高提升4.5倍,能耗比达到113.99 GOPs/W,最高提升4.7倍。 相似文献
3.
基于FPGA的量化推理设计了CNN加速系统;通过对主流的深度神经网络结构的运算特性分析,使用(Density-Based Spatial Clustering of Applications with Noise) DBSCAN聚类算法截取阈值的INT8量化推理方法,融合深度神经网络全连接,减少数据运算位宽和压缩网络大小,在准确率损失很小的情况下有效压缩了网络结构;基于LeNet-5、VGG-16与ResNet-50的CNN网络结构,设计出量化CNN加速系统并进行校验;实验结果表明,网络参数和输入特征数据量化精度为8-bits时,网络压缩率在25%的情况下,网络准确率的损失低于1%;在Xilinx XC7K325平台上量化推理CNN加速系统的运行频率为450 MHz,与其他相似类型的加速器比较,其GOPS性能提升2倍。 相似文献
4.
具有优越性能的卷积神经网络算法已得到广泛应用,但其参数量大、计算复杂、层间独立性高等特点也使其难以高效地部署在较低功耗和较少资源的边缘场景.为此结合该种算法的特点提出了一种基于混合架构的卷积神经网络计算加速方法,该方法选用CPU加FPGA的混合架构,对网络模型进行了压缩优化;在FPGA上通过指令控制数据流的DSP阵列结... 相似文献
5.
针对卷积神经网络(CNN)在资源受限的硬件设备上运行功耗高及运行慢的问题,提出一种基于现场可编程门阵列(FPGA)的CNN定点计算加速方法。首先提出一种定点化方法,并且每层卷积设计不同的尺度参数,使用相对散度确定位宽的长度,以减小CNN参数的存储空间,而且研究不同量化区间对CNN精度的影响;其次,设计参数复用方法及流水线计算方法来加速卷积计算。为验证CNN定点化后的加速效果,采用了人脸和船舶两个数据集进行验证。结果表明,相较于传统的浮点卷积计算,所提方法在保证CNN精度损失很小的前提下,当权值参数和输入特征图参数量化到7-bit时,在人脸识别CNN模型上的压缩后的权重参数文件大小约为原来的22%,卷积计算加速比为18.69,同时使FPGA中的乘加器的利用率达94.5%。实验结果表明了该方法可以提高卷积计算速度,并且能够高效利用FPGA硬件资源。 相似文献
6.
基于残差量化卷积神经网络的人脸识别方法 总被引:1,自引:0,他引:1
针对大规模人脸识别问题,基于残差学习的超深卷积神经网络模型能取得比其他方法更高的识别精度,然而模型中存在的海量浮点参数需要占用大量的计算和存储资源,无法满足资源受限的场合需求.针对这一问题,本文设计了一种基于网络参数量化的超深残差网络模型.具体在Face-ResNet模型的基础上,增加了批归一化层和dropout层,加深了网络层次,对网络模型参数进行了二值量化,在模型识别精度损失极小的情况下,大幅压缩了模型大小并提升了计算效率.通过理论分析与实验验证了本文设计方法的有效性. 相似文献
7.
8.
针对卷积神经网络(CNN)在资源受限的硬件设备上运行功耗高及运行慢的问题,提出一种基于现场可编程门阵列(FPGA)的CNN定点计算加速方法。首先提出一种定点化方法,并且每层卷积设计不同的尺度参数,使用相对散度确定位宽的长度,以减小CNN参数的存储空间,而且研究不同量化区间对CNN精度的影响;其次,设计参数复用方法及流水线计算方法来加速卷积计算。为验证CNN定点化后的加速效果,采用了人脸和船舶两个数据集进行验证。结果表明,相较于传统的浮点卷积计算,所提方法在保证CNN精度损失很小的前提下,当权值参数和输入特征图参数量化到7-bit时,在人脸识别CNN模型上的压缩后的权重参数文件大小约为原来的22%,卷积计算加速比为18.69,同时使FPGA中的乘加器的利用率达94.5%。实验结果表明了该方法可以提高卷积计算速度,并且能够高效利用FPGA硬件资源。 相似文献
9.
为解决卷积神经网络中卷积运算耗时长、运算复杂的问题,分析卷积运算的数据路由方式,提出一种多数据流并行卷积运算方法,实现卷积运算加速引擎的设计。通过在FPGA上进行实验验证,该设计能正确输出卷积运算的结果,相比已有加速器设计,所需寄存器数量减少30.6%,节省了逻辑资源,缩短了数据传输带来的时延,运算速度提升了7.37%,能够有效加速卷积运算完成。 相似文献
10.
为提高目前硬件运行卷积神经网络(CNN)的速度和能效,针对主流CNN网络的卷积计算设计加速模块并在FPGA上实现用于加速CNN网络的SoC系统。硬件平台采用带有ARM处理器的ZCU102 FPGA开发板,系统采用处理器和加速器的结构进行设计。加速器负责卷积计算,采用分块技术并重组卷积计算循环次序,使片上缓存的数据复用率更高,减少系统与内存之间数据的传输。支持1×1到11×11的卷积核尺寸,硬件支持的激活函数为ReLU和Leaky ReLU。处理器负责控制并处理CNN网络的其它计算,使SoC系统具有通用性和灵活性。实验结果表明,在100 MHz的工作频率下,峰值计算性能可以达到42.13 GFLOPS,相比CPU和其它FPGA计算的性能有一定提升。 相似文献
11.
随着深度相机、激光雷达等3D扫描设备的普及,用点云表示3D数据的方法越来越流行,对点云数据的分析与处理也引起了视觉研究领域的极大兴趣.一般来说,由于分布在3D几何空间中的点云是无序的,可以形成特定的结构,因此学习到的特征表示应该具备排列不变性、旋转和平移不变性、形状区分性.近年来,越来越多的研究人员基于点云的这些特性采用深度学习这一人工智能领域中的主流技术来处理分析点云数据.其中,卷积神经网络使用的卷积运算具备权重共享、局部聚合和变换不变等优点,减少了训练参数的个数,并具有较强的鲁棒性,可以有效地降低网络复杂度并提升网络性能,因此在各种2D视觉问题(如图像、视频)上的研究及应用已经相对成熟,这也引起了研究人员的高度关注并尝试将其引入到点云处理任务中.但传统的标准卷积运算往往无法直接作用于点云这种不规则数据上,一些研究人员进而对卷积运算及其卷积算子展开了深入的探索,并提出了多种卷积策略和网络以提高计算效率和算法性能.为了促进之后的研究,首先对现有点云研究中所使用的卷积方法进行了概述,包括基于投影的方法、基于体素的方法、基于晶格的方法、基于图的方法和基于点的方法.之后着重针对直接处理3D点... 相似文献
12.
13.
为解决深度卷积神经网络模型占用存储空间较大的问题,提出一种基于K-SVD字典学习的卷积神经网络压缩方法。用字典中少数原子的线性组合来近似表示单个卷积核的参数,对原子的系数进行量化,存储卷积核参数时,只须存储原子的索引及其量化后的系数,达到模型压缩的目的。在MNIST数据集上对LeNet-C5和CIFAR-10数据集上对DenseNet的压缩实验结果表明,在准确率波动不足0.1%的情况下,将网络模型占用的存储空间降低至12%左右。 相似文献
14.
针对卷积神经网络(CNN)模型中大量卷积操作,导致网络规模大幅增加,从而无法部署到嵌入式硬件平台,以及不同粒度数据与底层硬件结构不协调导致计算效率低的问题,基于项目组开发的可重构阵列处理器,面向支持多种位宽的运算单元,通过软硬件协同和可重构计算方法,采用KL(Kullback-Leibler)散度自定义量化阈值和随机取整进行截断处理的方式,寻找参数定长的最佳基点位置,设计支持多种计算粒度并行操作的指令及其卷积映射方案,并以此实现三种不同位宽的动态数据量化。实验结果表明,将权值与特征图分别量化到8 bit可以在准确率损失2%的情况下将模型压缩为原来的50%左右;将测试图像量化到三种位宽下进行硬件测试的加速比分别达到1.012、1.273和1.556,最高可缩短35.7%的执行时间和降低56.2%的访存次数,同时仅带来不足1%的相对误差,说明该方法可以在三种量化位宽下实现高效率的神经网络计算,进而达到硬件加速和模型压缩的目的。 相似文献
15.
针对卷积神经网络对手写数字识别训练在卷积核随机初始化情况下收敛速度慢和识别率低的问题,提出一种主成分分析(PCA)初始化卷积核的卷积神经网络(CNN)手写数字识别算法。算法首先选取训练样本集并将其送入CNN,在相应层对Feature Map进行全覆盖取图像块处理,然后进行分层PCA学习,将学习到的特征向量做为对应卷积层的卷积核参数进行初始化,最后再用这些卷积核对原始图像进行卷积操作。实验结果表明,与随机初始化卷积核的CNN手写数字识别算法相比,改进的算法在应用MNIST数据库训练时不仅收敛,而且在产生相同均方误差的情况下迭代次数少,识别率高。 相似文献
16.
传统的基于机器学习的恶意软件分类方法需要从恶意软件文件中提取许多特征,这给分类带来了很高的复杂性.针对这一问题,提出了一种基于卷积神经网络(CNN)的恶意软件分类方法.现有的恶意软件样本由大量字节组成,该方法首先计算恶意样本大小并对样本中字节数进行统计.然后将恶意样本大小特征和字节统计特征融合并归一化.最后对基于CNN构建的模型训练并对测试样本进行分类.实验结果表明,对比基线实验中最优的XGBoost算法,该方法不仅训练耗时短而且准确率更高. 相似文献
17.
通过CNN等基于深度特征的人脸自发式微表情识别分类方法逐渐完善,相比于传统的特征提取方法更易满足应用实时性,针对微表情持续时间短、动作幅度细微,在多卷积层叠加会丢失图像中的细微信息的问题,为了完善细节信息,充分提取微表情细微特征,提出结合空洞卷积核及人脸自动校正算法,完善CNN特征提取过程,通过自动人脸矫正适应实际应用中的实时识别分类,在CASME及CASMEⅡ微表情公开数据集上完成模型训练及测试,通过损失函数方案对比提高模型鲁棒性,CASME中准确率为70.16%,CASMEⅡ中准确率为72.26%;实时识别帧率在60 fps。该方法能有效地提高微表情识别准确率,满足实时性要求,且具有较好的鲁棒性和泛化能力。 相似文献
18.
19.
杨博涵 《数字社区&智能家居》2022,(2):82-83,93
近年来,人群密度的识别成为模式识别领域的热点问题,基于这个问题,该文提出一种基于卷积神经网络的算法,首先将数据集中的Ground-Truth数据转化为人群密度图,然后将生成的密度图送入神经网络中进行训练,得到人群密度数据.该文创新点在于采用多尺度卷积神经网络,使用多种尺度的卷积核来适应不同尺度的人头大小.通过利用具有不... 相似文献
20.
林志文;林志贤;郭太良;林珊玲 《电子技术应用》2020,(2):24-27
针对卷积神经网络(CNN)在通用CPU以及GPU平台上推断速度慢、功耗大的问题,采用FPGA平台设计了并行化的卷积神经网络推断系统。通过运算资源重用、并行处理数据和流水线设计,并利用全连接层的稀疏性设计稀疏矩阵乘法器,大大提高运算速度,减少资源的使用。系统测试使用ORL人脸数据库,实验结果表明,在100 MHz工作频率下,模型推断性能分别是CPU的10.24倍,是GPU的3.08倍,是基准版本的1.56倍,而功率还不到2 W。最终在模型压缩了4倍的情况下,系统识别准确率为95%。 相似文献