首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 19 毫秒
1.
针对目前在中央处理器(CPU)中部署卷积神经网络速度慢、在图形处理器(GPU)中功耗高等问题,采用基于现场可编程门阵列(FPGA)平台开发的卷积神经网络识别系统,对卷积神经网络的各个环节进行算法加速。考虑到算法的计算量和逻辑资源的消耗主要集中在卷积层,提出了在特征图的通道方向进行双卷积并行模块设计。在卷积神经网络的池化层和激活函数Softmax中,设计了流式池化,并提出改进的分段查表计算Softmax函数的方法。另外,在归一化和预处理阶段也分别进行了优化。卷积神经网络识别系统选用XILINX公司的ZCU104开发平台。该平台内部包含片上系统与可编程逻辑控制器。通过自制水果数据集,分别在ZCU104、CPU和GPU上进行试验。试验结果显示,ZCU104分类的准确率达到了95.8%,识别速度约为计算机端上CPU实现同种网络模型的3倍,并且高于GPU。此外,该系统通用性高、资源占用率低,可应用在其他神经网络模型中。  相似文献   

2.
张坤宁  赵烁  何虎  邓宁  杨旭 《计算机工程》2021,47(4):153-157
为提高卷积神经网络(CNN)的计算效率和能效,以8 bit定点数据作为输入,设计一个支持激活、批标准化以及池化等CNN网络中常见计算类型的卷积加速器,优化循环计算顺序并将其与数据复用技术相结合,以提高卷积计算的效率。基于软硬件协同设计思想,构建包含RISC-V处理器和卷积加速器的SoC系统,RISC-V处理器基于开源的指令集标准,可以根据具体的设计需求扩展指令功能。将该SoC系统部署在Xilinx ZCU102开发板上,RISC-V处理器和卷积加速器分别工作在100 MHz和300 MHz频率下,测试结果表明,该加速器的算力达到153.6 GOP/s,运行VGG16网络进行图片推理计算时加速效果较好。  相似文献   

3.
深度卷积神经网络具有模型大、计算复杂度高的特点,难以部署到硬件资源有限的现场可编程门阵列(FPGA)中。混合精度卷积神经网络可在模型大小和准确率之间做出权衡,从而为降低模型内存占用提供有效方案。快速傅里叶变换作为一种快速算法,可将传统空间域卷积神经网络变换至频域,从而有效降低模型计算复杂度。提出一个基于FPGA的8 bit和16 bit混合精度频域卷积神经网络加速器设计。该加速器支持8 bit和16 bit频域卷积的动态配置,并可将8 bit频域乘法运算打包以复用DSP,用来提升计算性能。首先设计一个基于DSP的频域计算单元,支持8 bit和16 bit频域卷积运算,通过打包一对8 bit频域乘法以复用DSP,从而提升吞吐率。然后提出一个映射数据流,该数据流支持8 bit和16 bit计算两种形式,通过数据重用方式最大化减少冗余数据处理和数据搬运操作。最后使用ImageNet数据集,基于ResNet-18与VGG16模型对所设计的加速器进行评估。实验结果表明,该加速器的能效比(GOP与能耗的比值)在ResNet-18和VGG16模型上分别达到29.74和56.73,较频域FPGA加速器...  相似文献   

4.
由于传统的卷积神经网络都基于浮点运算,需要GPU等专门的浮点运算器件处理,不具便携性。于是本文提出了一种基于FPGA的int16型卷积神经网络设计,能够在FPGA的配合运算下对MINIST数据具有较好的分类识别效果,并且可以发挥FPGA的并行运算优势,提升网络的实时性。  相似文献   

5.
基于卷积神经网络的景象匹配算法较传统方法具有更高的匹配精度、更好的适应性以及更强的抗干扰能力。但是,该算法有海量的计算与存储需求,导致在边缘端部署存在巨大困难。为了提升计算实时性,文中设计并实现了一种高效的边缘端加速计算方案。在分析算法的计算特性与整体架构的基础上,基于Winograd快速卷积方法,设计了一种面向特征匹配层的专用加速器,并提出了利用专用加速器与深度学习处理器流水线式计算特征匹配层和特征提取网络的整体加速方案。在Xilinx的ZCU102开发板上进行实验发现,专用加速器的峰值算力达到576 GOPS,实际算力达422.08 GOPS,DSP的使用效率达4.5 Ope-ration/clock。加速计算系统的峰值算力达1 600 GOPS,将CNN景象匹配算法的吞吐时延降低至157.89 ms。实验结果表明,该加速计算方案能高效利用FPGA的计算资源,实现CNN景象匹配算法的实时计算。  相似文献   

6.
卷积神经网络(Convolutional Neural Network,CNN)是目前主流视觉算法不可或缺的关键部分.为提高CNN模型推理速度,学界提出了众多异构加速方法以满足不同场景下的多元加速需求.但如何在资源与能耗受限的在轨卫星上稳定高效地加速CNN仍是极具挑战的课题.为此,本文通过软硬件协同设计,着力优化微指令编码、指令级并行和运算级并行3个加速器设计的关键部分,在星上常见的Xilinx VX690T FPGA芯片上设计实现了一种微指令序列调度数据流的CNN加速器.在软件层面,本文提出一种可扩展的微指令编码格式及相应的编译方法.通过卷积循环分块和算子融合策略实现图级别优化,生成加速器可执行的微指令序列.在硬件层面,本文设计实现了一个由微控制器与逻辑运算器组成的RTL级CNN加速器.微控制器通过粗粒度流水线实现各类指令的并行执行.逻辑运算器通过DSP48E1计算资源级联所构建的计算阵列实现卷积算子的细粒度并行运算.实验结果表明,加速器设计功耗10.68W,在加速YOLOV3Tiny算法时,峰值吞吐率(Runtime Max Throughput,RMT)达到378.63 GOP/...  相似文献   

7.
8.
为解决卷积神经网络计算效率和能效较低的问题,提出并设计一种使用定点数据作为输入的卷积加速器.加速器支持动态量化的8 bits定点数据的卷积计算,通过采用分块计算的策略和改进的循环计算顺序,有效提高计算效率;支持激活、批标准化(BN)、池化和全连接等计算;基于软硬件协同设计的思路,设计包含卷积加速器和ARM处理器在内的SoC系统.提出一种将加速器进行多核扩展的方法,提高算力和移植便捷性.将加速器部署在Xilinx ZCU102开发板上,其中单核加速器的算力达到了153.6 GOP/s,在计算核数目增加到4个和8个的情况下,算力分别增至614.4 GOP/s和1024 GOP/s.  相似文献   

9.
为提高目前硬件运行卷积神经网络(CNN)的速度和能效,针对主流CNN网络的卷积计算设计加速模块并在FPGA上实现用于加速CNN网络的SoC系统。硬件平台采用带有ARM处理器的ZCU102 FPGA开发板,系统采用处理器和加速器的结构进行设计。加速器负责卷积计算,采用分块技术并重组卷积计算循环次序,使片上缓存的数据复用率更高,减少系统与内存之间数据的传输。支持1×1到11×11的卷积核尺寸,硬件支持的激活函数为ReLU和Leaky ReLU。处理器负责控制并处理CNN网络的其它计算,使SoC系统具有通用性和灵活性。实验结果表明,在100 MHz的工作频率下,峰值计算性能可以达到42.13 GFLOPS,相比CPU和其它FPGA计算的性能有一定提升。  相似文献   

10.
传统的卷积神经网络加速器及推理框架在资源约束的FPGA上部署模型时,往往面临设备种类繁多且资源极端受限、数据带宽利用不充分、算子操作类型复杂难以适配且调度不合理等诸多挑战.提出一种面向嵌入式FPGA的卷积神经网络稀疏化加速框架(sparse acceleration framework of convolutional neural network, SAF-CNN),通过软硬件协同设计的方法,从硬件加速器与软件推理框架2个角度进行联合优化.首先, SAF-CNN构建并行计算阵列,并且设计并行编解码方案,实现单周期多数据的传输,有效减少通信代价.其次,设计细粒度结构化块划分剪枝算法,于输入通道维度进行块内裁剪来获得稀疏且规则的权重矩阵,借此显著降低计算规模和DSP乘法器等资源占用.然后,提出一种兼容深度可分离卷积的输入通道维度动态拓展及运行时调度策略,实现输入通道参数灵活适配与逐通道卷积和逐点卷积的资源复用.最后,提出一种计算图重构及硬件算子融合优化方法,提升硬件执行效率.实验采用2种资源受限的低端FPGA异构平台Intel CycloneV与Xilinx ZU3EG,结果表明SAF-...  相似文献   

11.
为加快深度学习人脸检测算法MTCNN(multi-task convolution neural network)的推理速度,满足许多应用场合检测的实时性的要求,基于Xilinx FPGA ZCU102开发板设计针对MTCNN专门优化的卷积和全连接加速硬件.该加速硬件不仅适用于MTCNN网络,其它神经网络推理算法也可以...  相似文献   

12.
针对卷积神经网络(CNN)对运算的需求,现场可编程逻辑门阵列(FPGA)可以充分挖掘CNN内部并行计算的特性,提高运算速度。因此,本文基于FPGA开发平台,从模型优化、参数优化,硬件加速以及手写体数字识别四个方面对CNN的FPGA加速及应用进行研究。提出一种数字识别网络RLeNet,并对网络进行参数优化,卷积运算加速采用脉冲阵列与加法树结合的硬件结构实现,同时使用并行技术和流水线技术优化加速,并使用microblaze IP通过中断控制CNN加速器IP接收串口发送的图片数据进行预测,输出结果。最后在Xilinx Nexys 4 DDR:Artix-7开发板上实现了MNIST数据集手写体数字识别预测过程,当系统时钟为200MHz时,预测一张图片的时间为36.47us。  相似文献   

13.
随着网络音乐产业的快速发展,构筑音乐自动检索和分类系统的需求日益增加。利用计算机对音乐流派进行正确标注是实现音乐类型精准分类和保障音乐推荐系统性能的重要前提。针对卷积运算不具备提取全局表征的能力,深度卷积神经网络对音乐流派数据的全局建模能力较弱的问题,提出了一种基于视觉变换(ViT)神经网络的音乐流派自动分类方法。该方法对待分类的音频进行预处理后,利用短时傅里叶变换(STFT)转化为尺寸统一的语谱图切片,实现音乐频域特征的转换。为了避免训练过拟合,通过增加白噪声对语谱图切片集进行数据增强。然后利用所生成的语谱切片集及其增强后的数据集对所构建的ViT神经网络进行训练,从而实现音乐流派风格的自动分类。仿真结果表明,所构建的ViT网络在音乐流派分类公共数据集GTZAN上的测试识别准确率达到91.01%,比基于AlexNet、AlexNet-enhanced和VGG16等传统卷积神经网络(CNN)的音乐流派分类方法提升了1.00~5.00个百分点。  相似文献   

14.
为满足卷积神经网络业务处理的灵活性和高性能需求,提出一种基于软件定义的可重构卷积神经网络架构.该架构采用归一化处理流程实现卷积层网络的动态重构与运算模式的加速.采用AHB和AXI的双总线架构,实现卷积神经网络的流水计算.通过软件定义在FPGA上实现了不同网络结构下的数据集实时处理.实验结果表明,所设计的FPGA电路能够...  相似文献   

15.
张文烨  尚方信  郭浩 《计算机应用》2021,41(5):1299-1304
浮点数位宽的深度神经网络需要大量的运算资源,这导致大型深度神经网络难以在低算力场景(如边缘计算)上部署。为解决这一问题,提出一种即插即用的神经网络量化方法,以压缩大型神经网络的运算成本,并保持模型性能指标不显著下降。首先,基于Octave卷积将输入特征图的高频和低频成分进行分离;其次,分别对高低频分量应用不同位宽的卷积核进行卷积运算;第三,使用不同位宽的激活函数将高低频卷积结果量化至相应位宽;最后,混合不同精度的特征图来获得该层卷积结果。实验结果证实了所提方法压缩模型的有效性,在CIFAR-10/100数据集上,将模型压缩至1+8位宽时,该方法可保持准确率指标的下降小于3个百分点;在ImageNet数据集上,使用该方法将ResNet50模型压缩至1+4位宽时,其正确率指标仍高于70%。  相似文献   

16.
《微型机与应用》2019,(3):77-81
为了解决卷积神经网络硬件实现阶段的资源限制问题,提出了基于FPGA动态重构的卷积神经网络加速器设计。首先,设计了卷积神经网络加速器的整体并行策略和VLSI架构,并针对卷积神经网络的功能模块进行了流水线设计。其次,对卷积神经网络加速器进行动态重构设计,建立动态重构区域及其模块功能划分;并选用BPI Flash存储配置文件,通过内部配置端口读取配置文件对动态重构区域进行动态配置。实验结果表明,针对Lenet-5手写体识别网络,基于动态重构设计的加速器与相应的静态设计相比,使用的Slice LUTs、Slice Registers与DSP资源分别减少44%、27. 8%与71%。与基于软件平台实现作对比,系统执行时间大幅度降低。但是由于内部配置端口的带宽限制,重构配置时间延长了整个卷积网络的执行时间。  相似文献   

17.
现有软件实现方案难以满足卷积神经网络对运算性能与功耗的要求。为此,设计一种基于现场可编程门阵列(FPGA)的卷积神经网络加速器。在粗粒度并行层面对卷积运算单元进行并行化加速,并使用流水线实现完整单层运算过程,使单个时钟周期能够完成20次乘累加,从而提升运算效率。针对MNIST手写数字字符识别的实验结果表明,在75 MHz的工作频率下,该加速器可使FPGA峰值运算速度达到0.676 GMAC/s,相较通用CPU平台实现4倍加速,而功耗仅为其2.68%。  相似文献   

18.
人脸表情识别已成为人工智能领域的重要研究课题,但传统的卷积神经网络需要庞大的计算资源使得其应用受限,而二值化卷积神经网络可通过快速与或运算代替原本的浮点乘法运算,大大降低了算法对计算资源的需求。论文提出了一种基于数据增强和二值化卷积神经网络的人脸表情识别算法,通过均值估计,在FER2013数据集上达到了66.15%的识别率,超越了部分基于浮点乘积运算的卷积网络,为表情识别算法移植到小型设备中提供了可能。  相似文献   

19.
余成宇    李志远    毛文宇  鲁华祥       《智能系统学报》2020,15(2):323-333
针对卷积神经网络计算硬件化实现困难的问题,之前大部分卷积神经网络加速器的设计都集中于解决计算性能和带宽瓶颈,忽视了卷积神经网络稀疏性对加速器设计的重要意义,近来少量的能够利用稀疏性的卷积神经网络加速器设计也往往难以同时兼顾计算灵活度、并行效率和资源开销。本文首先比较了不同并行展开方式对利用稀疏性的影响,分析了利用稀疏性的不同方法,然后提出了一种能够利用激活稀疏性加速卷积神经网络计算的同时,相比于同领域其他设计,并行效率更高、额外资源开销更小的并行展开方法,最后完成了这种卷积神经网络加速器的设计并在FPGA上实现。研究结果表明:运行VGG-16网络,在ImageNet数据集下,该并行展开方法实现的稀疏卷积神经网络加速器和使用相同器件的稠密网络设计相比,卷积性能提升了108.8%,整体性能提升了164.6%,具有明显的性能优势。  相似文献   

20.
李平  戴月明  吴定会 《计算机应用》2018,38(6):1542-1546
针对单通道卷积神经网络(CNN)视角单一、不能充分学习到文本的特征信息的问题,提出双通道CNN (DCCNN)算法。首先,采用Word2Vec训练词向量,利用词向量获得句子的语义信息;其次,采用两个不同的通道进行卷积运算,一个通道为字向量,另一个通道为词向量,利用细粒度的字向量辅助词向量捕捉深层次的语义信息;最后,通过不同尺寸的卷积核,发现句子内部更高层次抽象的特征。实验结果表明,所提DCCNN算法能够准确识别文本情感极性,其正确率和F1值均达到95%以上,相比逻辑回归算法、支持向量机(SVM)算法以及CNN算法等都有显著提升。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号