首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
随着以卷积神经网络为代表的深度学习得到广泛应用,神经网络模型中的计算量也急速增长,推动了深度学习加速器的发展。如何针对加速器硬件的体系结构特性进行加速和优化神经网络模型的性能成为研究热点。针对自主设计的多核向量加速器FT-M7004上的VGG网络模型推理和训练算法,分别提出了卷积、池化和全连接等核心算子的向量化映射方法,采用SIMD向量化、DMA双缓冲传输和权值共享等优化策略,充分发挥了向量加速器的体系结构优势,取得了较高的计算效率。实验结果表明,在FT-M7004平台上,卷积层推理和训练的平均计算效率分别达到了86.62%和69.63%;全连接层推理和训练的平均计算效率分别达到了93.17%和81.98%;VGG网络模型在FT-M7004上的推理计算效率超过GPU平台20%以上。  相似文献   

2.
余成宇    李志远    毛文宇  鲁华祥       《智能系统学报》2020,15(2):323-333
针对卷积神经网络计算硬件化实现困难的问题,之前大部分卷积神经网络加速器的设计都集中于解决计算性能和带宽瓶颈,忽视了卷积神经网络稀疏性对加速器设计的重要意义,近来少量的能够利用稀疏性的卷积神经网络加速器设计也往往难以同时兼顾计算灵活度、并行效率和资源开销。本文首先比较了不同并行展开方式对利用稀疏性的影响,分析了利用稀疏性的不同方法,然后提出了一种能够利用激活稀疏性加速卷积神经网络计算的同时,相比于同领域其他设计,并行效率更高、额外资源开销更小的并行展开方法,最后完成了这种卷积神经网络加速器的设计并在FPGA上实现。研究结果表明:运行VGG-16网络,在ImageNet数据集下,该并行展开方法实现的稀疏卷积神经网络加速器和使用相同器件的稠密网络设计相比,卷积性能提升了108.8%,整体性能提升了164.6%,具有明显的性能优势。  相似文献   

3.
黄程程  董霄霄  李钊 《计算机应用》2021,41(8):2258-2264
针对二维Winograd卷积算法中存储器带宽需求过高、计算复杂度高、设计探索周期漫长、级联的卷积存在层间计算延迟等问题,提出一种基于二维Winograd算法的双缓冲区5×5卷积层设计方法。首先使用列缓冲结构完成数据布局,以重用相邻分块之间的重叠数据,降低存储器带宽需求;然后精确搜索并复用Winograd算法加法计算过程中重复的中间计算结果,来降低加法运算量,从而减小加速器系统的能耗开销和设计面积;最后根据Winograd算法计算过程来完成6级流水线结构的设计,并实现针对5×5卷积的高效率计算。实验结果表明,这种5×5卷积的计算方法在基本不影响卷积神经网络(CNN)预测准确率的前提下,与传统卷积相比降低了83%的乘法运算量,加速倍率为5.82;该方法与级联3×3二维Winograd卷积组成5×5卷积的方法相比降低了12%的乘法运算量,降低了约24.2%的存储器带宽需求,并减少了20%的运算时间。  相似文献   

4.
为解决当前比特稀疏架构的性能瓶颈,提出高能效比特稀疏加速器设计.首先提出一种激活值编码方法和相应的电路来提高卷积神经网络的比特稀疏度,结合比特串行电路实时跳过激活值的零值比特来加速神经网络的计算;然后提出一种列共享同步机制,以解决比特稀疏架构的同步问题,并在较小的面积和功耗开销下大幅提高比特稀疏架构的计算性能.在SMIC40 nm工艺和1 GHz频率下,评估不同的比特稀疏架构在卷积神经网络上的能效.实验结果表明,与非稀疏加速器VAA和比特稀疏加速器LS-PRA相比,所提出的加速器AS-PRA分别提高了544%和179%的能效.  相似文献   

5.
包健  余红明 《计算机应用》2009,29(1):230-233
为了使得神经网络的应用符合嵌入式系统快速计算、存储量精简的要求,提出了一种定点数权值神经网络的优化方法。采用精度可调的比例数格式定点数表示神经网络的权值和阈值,用遗传算法对神经网络进行训练,并用最小二乘法对网络的非线性连续节点激励函数进行了线性离散化。将这种优化的神经网络应用于触摸屏校准。实验表明,采用该方法进行触摸屏校准比传统的校准方法具有更高的准确率。  相似文献   

6.
针对卷积神经网络中卷积层参数冗余,运算效率低的问题,从卷积神经网络训练过程中参数的统计特性出发,提出了一种基于统计分析裁剪卷积核的卷积神经网络模型压缩方法,在保证卷积神经网络处理信息能力的前提下,通过裁剪卷积层中对整个模型影响较小的卷积核对已训练好的卷积神经网络模型进行压缩,在尽可能不损失模型准确率的情况下减少卷积神经网络的参数,降低运算量.通过实验,证明了本文提出的方法能够有效地对卷积神经网络模型进行压缩.  相似文献   

7.
李小剑  谢晓尧  徐洋  张思聪 《计算机工程》2022,48(4):148-157+164
传统浅层机器学习方法在识别恶意TLS流量时依赖专家经验且流量表征不足,而现有的深度神经网络检测模型因层次结构复杂导致训练时间过长。提出一种基于CNN-SIndRNN端到端的轻量级恶意加密流量识别方法,使用多层一维卷积神经网络提取流量字节序列局部模式特征,并利用全局最大池化降维以减少计算参数。为增强流量表征,设计一种改进的循环神经网络用于捕获流量字节长距离依赖关系。在此基础上,采用独立循环神经网络IndRNN单元代替传统RNN循环单元,使用切片并行计算结构代替传统RNN的串行计算结构,并将两种类型深度神经网络所提取的特征拼接作为恶意TLS流量表征。在CTU-Maluware-Capure公开数据集上的实验结果表明,该方法在二分类实验上F1值高达0.965 7,在多分类实验上整体准确率为0.848 9,相比BotCatcher模型训练时间与检测时间分别节省了98.47%和98.28%。  相似文献   

8.
二值网络在速度、能耗、内存占用等方面优势明显,但会对深度网络模型造成较大的精度损失.为了解决上述问题,本文提出了二值网络的"分阶段残差二值化"优化算法,以得到精度更好的二值神经网络模型.本文将随机量化的方法与XNOR-net相结合,提出了两种改进算法"带有近似因子的随机权重二值化"和"确定权重二值化",以及一种全新的"分阶段残差二值化"的BNN训练优化算法,以得到接近全精度神经网络的识别准确率.实验表明,本文提出的"分阶段残差二值化"算法能够有效提升二值模型的训练精度,而且不会增加相关网络在测试过程中的计算量,从而保持了二值网络速度快、空间小、能耗低的优势.  相似文献   

9.
针对结构设计不合理的卷积神经网络导致MNIST识别的准确率低、收敛速度慢和训练参数多等问题,提出卷积神经网络结构的改进模型.改进的模型采用2次卷积、2次池化和3次全连接、采用Relu激活函数和Softmax回顾函数相结合,加入Dropout层防止过拟合,加入Flatten层优化结构.为了缩减代码量,采用API功能强大的Keras模型替代Tensorflow.对MNIST的训练集和测试集数据的准确率进行仿真实验,实验结果表明:采用改进的结构在MNIST的训练中不仅收敛速度快、训练参数少、损失率低,而且在测试集上的准确率达到99.54%、高于改进前的99.25%,对后续手写数字的研究具有重要意义.  相似文献   

10.
刘畅  陈莹 《控制与决策》2024,39(6):1840-1848
二值卷积神经网络(BNNs)由于其占用空间小、计算效率高而受到关注.但由于量化激活特征的正负部分分布不均等问题,二值网络和浮点深度神经网络(DNNs)之间存在着明显的性能差距,影响了其在资源受限平台上的部署.二值网络性能受限的主要原因是特征离散性造成的信息损失以及分布优化不当造成的语义信息消失.针对此问题,应用特征分布调整引导二值化,通过调整特征的均值方差均衡特征分布,减小离散性造成的信息损失.同时,通过分组激励与特征精调模块设计,调整优化量化零点位置,均衡二值化激活分布,最大程度保留语义信息.实验表明,所提出方法在不同骨干网络、使用不同数据集时均能取得较好效果,其中在CIFAR-10上使用ResNet-18网络量化后网络准确率仅损失0.4%,高于当前主流先进二值量化算法.  相似文献   

11.
张力  张洞明  郑宏 《计算机应用》2016,36(2):444-448
针对现有智能交通系统仅仅通过车牌信息获取车辆信息存在不准确的情况,提出一种基于联合层特征的卷积神经网络(Multi-CNN)进行车标识别。该方法将通过卷积神经网络中不同层提取的特征联合起来,一起作为全连接层的输入,训练获得分类器。通过理论分析和实验表明,与传统的卷积神经网络训练获得的分类器相比,Multi-CNN方法能够减少训练所需计算量,同时将车标识别准确率提升至98.7%。  相似文献   

12.
针对已有的卷积神经网络(Convolutional Neural Network,CNN)在人脸识别训练中出现过拟合、收敛速度慢以及识别准确率不高的问题,提出了新型的LeNet-FC卷积神经网络模型。通过增加网络层、缩小卷积核等结构改进以及采用优化的对数-修正线性单元(Logarithmic Rectified Linear Unit,L_ReLU)激活函数,该模型在人脸识别训练的准确率达到了99.85%。同时基于LeNet-FC卷积神经网络模型设计了一个人脸识别系统。该系统在ORL人脸库的仿真测试实验中识别准确率达到了96%。  相似文献   

13.
为了提高中小规模设备卷积神经网络的推理速度,提出一种基于FPGA的卷积神经网络硬件加速器设计方案。针对模型中的卷积运算单元,该硬件加速器采用输入、输出二维循环展开和循环分块的方法,设计128个并行乘法器单元。模型的输入输出接口采用双缓存设计,通过乒乓操作,降低数据传输带来的时间延迟。同时,采用16位定点量化模型中权重参数,偏置参数和输入输出特征图的像素值。实验结果表明,与通用CPU酷睿i5-4440处理器相比,在COCO数据集上准确率几乎不变的情况下,计算性能提高5.77倍。在系统时钟频率为150 MHz时,硬件加速器的计算性能达到28.88 GOPS。  相似文献   

14.
针对卷积神经网络在性耗比上的不足,提出了异构式CPU+GPU的协同计算模型,在模型计算过程中使CPU负责逻辑性强的事物处理和串行计算,使GPU执行高度线程化的并行处理任务。通过实验测试与单GPU训练、单CPU训练进行对比,结果表明异构式CPU+GPU计算模型在性耗比上更加优异。针对在卷积神经网络中Swish激活函数在反向传播求导误差梯度时涉及参数较多所导致的计算量较大,收敛速度慢,以及ReLU激活函数在[x]负区间内导数为零所导致的负梯度被置为零且神经元可能无法被激活的问题,提出了新的激活函数ReLU-Swish。通过测试训练对比并分析结果,将Swish激活函数小于零与ReLU激活函数大于零的部分组成分段函数,并且通过CIFAR-10和MNIST两个数据集进行测试对比实验。实验结果表明,ReLU-Swish激活函数在收敛速度以及模型测试训练的准确率上对比Swish激活函数及ReLU激活函数有较明显的提高。  相似文献   

15.
针对当前电力通讯网络故障诊断方法及时性差、准确率低和自我学习能力差等缺陷,提出基于改进卷积神经网络的电力通信网故障诊断方法,结合ReLU和Softplus两个激活函数的特点,对卷积神经网络原有激活函数进行改进,使其同时具备光滑性与稀疏性;采用ReLU函数作为作为卷积层与池化层的激活函数,改进激活函数作为全连接层激活函数的结构模型,基于小波神经网络模型对告警信息进行加权操作,得到不同告警类型和信息影响故障诊断和判定的权重,进一步提升故障诊断的准确率;最后通过仿真试验可以看出,改进卷积神经网络相较贝叶斯分类算法与卷积神经网络具有较高的准确率和稳定性,故障诊断准确率达到99.1%,准确率标准差0.915%,为今后电力通讯网智能化故障诊断研究提供一定的参考。  相似文献   

16.
深度卷积神经网络具有模型大、计算复杂度高的特点,难以部署到硬件资源有限的现场可编程门阵列(FPGA)中。混合精度卷积神经网络可在模型大小和准确率之间做出权衡,从而为降低模型内存占用提供有效方案。快速傅里叶变换作为一种快速算法,可将传统空间域卷积神经网络变换至频域,从而有效降低模型计算复杂度。提出一个基于FPGA的8 bit和16 bit混合精度频域卷积神经网络加速器设计。该加速器支持8 bit和16 bit频域卷积的动态配置,并可将8 bit频域乘法运算打包以复用DSP,用来提升计算性能。首先设计一个基于DSP的频域计算单元,支持8 bit和16 bit频域卷积运算,通过打包一对8 bit频域乘法以复用DSP,从而提升吞吐率。然后提出一个映射数据流,该数据流支持8 bit和16 bit计算两种形式,通过数据重用方式最大化减少冗余数据处理和数据搬运操作。最后使用ImageNet数据集,基于ResNet-18与VGG16模型对所设计的加速器进行评估。实验结果表明,该加速器的能效比(GOP与能耗的比值)在ResNet-18和VGG16模型上分别达到29.74和56.73,较频域FPGA加速器...  相似文献   

17.
针对大数据环境下并行深度卷积神经网络(DCNN)算法中存在数据冗余特征多、卷积层运算速度慢、损失函数收敛性差等问题,提出了一种基于Im2col方法的并行深度卷积神经网络优化算法IA-PDCNNOA。首先,提出基于Marr-Hildreth算子的并行特征提取策略MHO-PFES,提取数据中的目标特征作为卷积神经网络的输入,有效避免了数据冗余特征多的问题;其次,设计基于Im2col方法的并行模型训练策略IM-PMTS,通过设计马氏距离中心值去除冗余卷积核,并结合MapReduce和Im2col方法并行训练模型,提高了卷积层运算速度;最后提出改进的小批量梯度下降策略IM-BGDS,排除异常节点的训练数据对批梯度的影响,解决了损失函数收敛性差的问题。实验结果表明,IA-PDCNNOA算法在大数据环境下进行深度卷积神经网络计算具有较好的性能表现,适用于大规模数据集的并行化深度卷积神经网络模型训练。  相似文献   

18.
基于FPGA的二值卷积神经网络加速器研究大多是针对小尺度的图像输入,而实际应用主要以YOLO、VGG等大尺度的卷积神经网络作为骨干网络。通过从网络拓扑、流水线等层面对卷积神经网络硬件进行优化设计,从而解决逻辑资源以及性能瓶颈,实现输入尺度更大、网络层次更深的二值VGG神经网络加速器。采用CIFAR-10数据集对基于FPGA的VGG卷积神经网络加速器优化设计进行验证,实验结果表明系统实现了81%的识别准确率以及219.9 FPS的识别速度,验证了优化方法的有效性。  相似文献   

19.
为提升轻量级卷积神经网络在硬件平台的资源利用效率和推理速度,基于软硬件协同优化的思想,提出一种面向FPGA平台的轻量级卷积神经网络加速器,并针对网络结构的特性设计专门的硬件架构。与多级并行策略结合,设计一种统一的卷积层计算单元。为降低模型存储成本、提高加速器的吞吐量,提出一种基于可微阈值的选择性移位量化方案,使计算单元能够以硬件友好的形式执行计算。实验结果表明,在Arria 10 FPGA平台上部署的MobileNetV2加速器能够达到311 fps的推理速度,相比CPU版本实现了约9.3倍的加速比、GPU版本约3倍的加速比。在吞吐量方面,加速器能够实现98.62 GOPS。  相似文献   

20.
目前,基于卷积神经网络的Web恶意请求检测技术领域内只有针对URL部分进行恶意检测的研究,并且各研究对原始数据的数字化表示方法不同,这会造成检测效率和检测准确率较低。为提高卷积神经网络在Web恶意请求检测领域的性能,在现有工作的基础上将其他多个HTTP请求参数与URL合并,将数据集HTTP data set CSIC 2010和DEV_ACCESS作为原始数据,设计对比实验。首先采用6种数据数字向量化方法对字符串格式的原始输入进行处理;然后将其分别输入所设计的卷积神经网络,训练后可得到6个不同的模型,同时使用相同的训练数据集对经典算法HMM,SVM和RNN进行训练,得到对照组模型;最后在同一验证集上对9个模型进行评估。实验结果表明,采用多参数的Web恶意请求检测方法将词汇表映射与卷积神经网络内部嵌入层相结合对原始数据进行表示,可使卷积神经网络取得99.87%的准确率和98.92%的F1值。相比其他8个模型,所提方法在准确率上提升了0.4~7.7个百分点,在F1值上提升了0.3~13个百分点。实验充分说明,基于卷积神经网络的多参数Web恶意请求检测技术具有明显的优势,且使用词汇表映射和网络内部嵌入层对原始数据进行处理能使该模型取得最佳的检测效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号