首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
2.
为满足卷积神经网络业务处理的灵活性和高性能需求,提出一种基于软件定义的可重构卷积神经网络架构.该架构采用归一化处理流程实现卷积层网络的动态重构与运算模式的加速.采用AHB和AXI的双总线架构,实现卷积神经网络的流水计算.通过软件定义在FPGA上实现了不同网络结构下的数据集实时处理.实验结果表明,所设计的FPGA电路能够...  相似文献   

3.
近年来,卷积神经网络在许多领域中发挥着越来越重要的作用,然而功耗和速度是限制其应用的主要因素.为了克服其限制因素,设计一种基于FPGA平台的卷积神经网络并行加速器,以Ultra96-V2为实验开发平台,而且卷积神经网络计算IP核的设计实现采用了高级设计综合工具,使用Vivado开发工具完成了基于FPGA的卷积神经网络加...  相似文献   

4.
近年来,随着人工智能技术的发展,卷积神经网络(CNN)作为深度学习技术中的常用算法,在计算机视觉、语音识别及自然语言处理等诸多领域得到了广泛的应用.可编程门阵列(FPGA)因其高并行度和高灵活性等优势常被用于CNN的加速.基于此,本文对高性能CNN加速器的设计进行研究.文中采用DSP的级联、卷积核数据的"乒-乓"结构,...  相似文献   

5.
为满足实际应用对卷积神经网络(CNN)推理的低时延、小体积和高吞吐率等要求,设计了一个采用如下优化方法的加速器:针对外存访问带宽限制,基于设计空间探索确定循环分块因子以最大化数据重用;针对CNN计算密度高,采用循环展开技术充分挖掘四种计算并行度;内存池、乒乓缓存和动态数据量化等技术用于管理片内外存储资源.将生成加速器流...  相似文献   

6.
随着卷积神经网络得到愈加广泛的应用,针对其复杂运算的定制硬件加速器得到越来越多的重视与研究。但是,目前定制硬件加速器多采用传统的卷积算法,并且缺乏对神经网络稀疏性的支持,从而丧失了进一步改进硬件,提升硬件性能的空间。重新设计一款卷积神经网络加速器,该加速器基于Winograd稀疏算法,该算法被证明有效降低了卷积神经网络的计算复杂性,并可以很好地适应稀疏神经网络。通过硬件实现该算法,本文的设计可以在减少硬件资源的同时,获得相当大的计算效率。实验表明,相比于传统算法,该加速器设计方案将运算速度提升了近4.15倍;从乘法器利用率的角度出发,相比现有的其他方案,该方案将利用率最多提高了近9倍。  相似文献   

7.
本文基于FPGA实现了一种数据传输引擎,解决了传统直接存储器存取(DMA)带宽利用率低、无法支持三维数据的读写等问题.本文将片内缓存的功能设计在DMA,降低了数据传输引擎的设计难度.本文在Xilinx Zynq XC7045上实现了该数据传输引擎,在200 MHz的时钟频率下最高能达到4 Gbps的带宽和100%的带宽利用率.  相似文献   

8.
基于FPGA的二值卷积神经网络加速器研究大多是针对小尺度的图像输入,而实际应用主要以YOLO、VGG等大尺度的卷积神经网络作为骨干网络。通过从网络拓扑、流水线等层面对卷积神经网络硬件进行优化设计,从而解决逻辑资源以及性能瓶颈,实现输入尺度更大、网络层次更深的二值VGG神经网络加速器。采用CIFAR-10数据集对基于FPGA的VGG卷积神经网络加速器优化设计进行验证,实验结果表明系统实现了81%的识别准确率以及219.9 FPS的识别速度,验证了优化方法的有效性。  相似文献   

9.
为解决当前比特稀疏架构的性能瓶颈,提出高能效比特稀疏加速器设计.首先提出一种激活值编码方法和相应的电路来提高卷积神经网络的比特稀疏度,结合比特串行电路实时跳过激活值的零值比特来加速神经网络的计算;然后提出一种列共享同步机制,以解决比特稀疏架构的同步问题,并在较小的面积和功耗开销下大幅提高比特稀疏架构的计算性能.在SMIC 40 nm工艺和1 GHz频率下,评估不同的比特稀疏架构在卷积神经网络上的能效.实验结果表明,与非稀疏加速器VAA和比特稀疏加速器LS-PRA相比,所提出的加速器AS-PRA分别提高了544%和179%的能效.  相似文献   

10.
一种神经网络硬件实现的可重构设计   总被引:1,自引:0,他引:1  
万勇  王沁  李占才  李昂 《计算机应用》2006,26(1):202-0203
以BP网络为例,提出了一种可重构神经网络硬件实现方法。通过可重构体系结构、可重构部件的设计,可以灵活地实现不同规模、传递函数及学习方法的神经网络,从而搭建起神经网络快速硬件实现的平台。经过对一个模式识别问题的实现和测试,证明了这种设计方法的可行性。  相似文献   

11.
深度卷积神经网络具有模型大、计算复杂度高的特点,难以部署到硬件资源有限的现场可编程门阵列(FPGA)中.混合精度卷积神经网络可在模型大小和准确率之间做出权衡,从而为降低模型内存占用提供有效方案.快速傅里叶变换作为一种快速算法,可将传统空间域卷积神经网络变换至频域,从而有效降低模型计算复杂度.提出一个基于FPGA的8 bit和16 bit混合精度频域卷积神经网络加速器设计.该加速器支持8 bit和16 bit频域卷积的动态配置,并可将8 bit频域乘法运算打包以复用DSP,用来提升计算性能.首先设计一个基于DSP的频域计算单元,支持8 bit和16 bit频域卷积运算,通过打包一对8 bit频域乘法以复用DSP,从而提升吞吐率.然后提出一个映射数据流,该数据流支持8 bit和16 bit计算两种形式,通过数据重用方式最大化减少冗余数据处理和数据搬运操作.最后使用ImageNet数据集,基于ResNet-18与VGG16模型对所设计的加速器进行评估.实验结果表明,该加速器的能效比(GOP与能耗的比值)在ResNet-18和VGG16模型上分别达到29.74和56.73,较频域FPGA加速器提升1.2~6.0倍.  相似文献   

12.
现有软件实现方案难以满足卷积神经网络对运算性能与功耗的要求。为此,设计一种基于现场可编程门阵列(FPGA)的卷积神经网络加速器。在粗粒度并行层面对卷积运算单元进行并行化加速,并使用流水线实现完整单层运算过程,使单个时钟周期能够完成20次乘累加,从而提升运算效率。针对MNIST手写数字字符识别的实验结果表明,在75 MHz的工作频率下,该加速器可使FPGA峰值运算速度达到0.676 GMAC/s,相较通用CPU平台实现4倍加速,而功耗仅为其2.68%。  相似文献   

13.
大多数基于卷积神经网络(CNN)的算法都是计算密集型和存储密集型的,很难应用于具有低功耗要求的航天、移动机器人、智能手机等嵌入式领域.针对这一问题,提出一种面向CNN的高并行度现场可编程逻辑门阵列(FPGA)加速器.首先,比较研究CNN算法中可用于FPGA加速的4类并行度;然后,提出多通道卷积旋转寄存流水(MCRP)结...  相似文献   

14.
神经网络参数量和运算量的扩大,使得在资源有限的硬件平台上流水线部署神经网络变得更加困难。基于此,提出了一种解决深度学习模型在小型边缘计算平台上部署困难的方法。该方法基于应用于自定义数据集的深度可分离网络模型,在软件端使用迁移学习、敏感度分析和剪枝量化的步骤进行模型压缩,在硬件端分析并设计了适用于有限资源FPGA的流水线硬件加速器。实验结果表明,经过软件端的网络压缩优化,这种量化部署模型具有94.60%的高准确率,16.64 M的较低的单次推理定点数运算量和0.079 M的参数量。此外,经过硬件资源优化后,在国产FPGA开发板上进行流水线部署,推理帧率达到了366 FPS,计算能效为8.57 GOPS/W。这一研究提供了一种在小型边缘计算平台上高性能部署深度学习模型的解决方案。  相似文献   

15.
近年来,随着神经网络模型越来越复杂,针对卷积神经网络推理计算所需内存空间过大,限制其在嵌入式设备上部署的问题,提出一种动态多精度定点数据量化硬件结构,使用定点数代替训练后推理过程中的浮点数执行卷积运算.结果表明,采用16位动态定点量化和并行卷积运算硬件架构,与静态量化策略相比,数据准确率高达97.96%,硬件单元的面积...  相似文献   

16.
针对卷积神经网络在嵌入式系统需要耗费大量计算资源、计算复杂度高等问题,提出一种基于ZYNQ系列FPGA的加速方法。通过HLS工具对卷积神经网络加速器进行设计,提出相邻层位宽合并和权重参数重排序的策略实现数据传输的优化,利用卷积分解、并行展开充分发挥FPGA并行计算的优势。为验证卷积神经网络加速器的加速效果,将YOLO目标检测模型进行部署。实验结果表明,在PYNQ-Z2上达到了39.39GOP/s的计算性能,是intel i5-2400 CPU的3.4倍,是ARM-Cortex A9 CPU的147.5倍。在相同FPGA平台上与之前的工作相较也有更高的性能。  相似文献   

17.
针对卷积神经网络FPGA加速器的资源分配与频率设置欠佳导致吞吐量受限的问题,提出一种面向吞吐量优化的自动化设计方法.首先将加速器的设计分为并行策略和频率设计,提出总体设计流程;然后将设计空间探索建模为线段分割问题,采用遗传算法及贪心算法求解;最后根据求解出的并行策略完成加速器的结构设计,根据求解出的预期运行频率对加速器的布局布线优化,使实际频率可以达到预期.对AlexNet及VGG-16模型在目标器件AlteraDE5a-Net的设计实验结果表明,文中方法能有效地提升资源使用效率并给出合理频率设置;相比于其他卷积神经网络FPGA加速器设计方法,该方法可提升AlexNet和VGG-16的吞吐量82.95%和66.19%.  相似文献   

18.
卷积神经网络的高计算复杂性阻碍其广泛用于实时和低功耗应用,现有软件实现方案难以满足其对运算性能与功耗的要求,传统面向FPGA的卷积神经网络构造方式具有流程复杂、周期较长和优化空间较小等问题。针对该问题,根据卷积神经网络计算模式的特点,提出一种面向云端FPGA的卷积神经网络加速器的设计及其调度机制。通过借鉴基于HLS技术、引入循环切割参数和对卷积层循环重排的设计,采用模块化方式构造网络,并进行参数拓展以进一步优化加速器处理过程;通过分析系统任务和资源的特性总结调度方案,且从控制流和数据流两方面对其进行优化设计。与其他已有工作相比,提出的设计提供了一种同时具有灵活性、低能耗、高能效和高性能的解决方案,并且探讨了加速器的高效通用调度方案。实验结果表明,该加速器可在有效提高运算整速度的同时减少功耗。  相似文献   

19.
为进一步提高卷积神经网络的训练速度,减少训练成本,建立了量子门组卷积神经网络模型(Quantum Gate Convolutional Neural Network,QGCNN)。为了构建QGCNN网络结构,依据传统CNN结构的特点,给出卷积算术线路(Convolutional Arithmetic Circuit,ConvAC)的定义。用张量分解来说明ConvAC的权值系数之间的关系,为构建QGCNN提供理论依据。将QGCNN分为输入表示层、隐藏层和输出层,在此基础上实现对数据进行量子编码,利用量子门组完成数据初始化,网络参数更新等操作。将QGCNN应用到数字手写体识别中,实验结果表明,该方法在手写体识别的准确率和收敛速度上有不错的效果。  相似文献   

20.
为解决卷积神经网络在FPGA平台上进行硬件加速时存在的资源利用率低和资源受限问题,提出了一种基于FPGA动态部分重构技术和Winograd快速卷积的卷积神经网络加速器。该加速器通过运行时硬件重构对FPGA片上资源进行时分复用,采用流水线方式动态地将各个计算流水段配置到FPGA,各个流水段所对应的卷积计算核心使用Winograd算法进行定制优化,以在解决资源受限问题的同时最大程度地提升计算资源利用效率。针对该加速器架构,进一步构建了组合优化模型,用于搜索在特定FPGA硬件平台上部署特定网络模型的最优并行策略,并使用遗传算法进行设计空间求解。基于Xilinx VC709 FPGA平台对VGG-16网络模型进行部署和分析,综合仿真结果表明,所提出的设计方法能够在资源有限的FPGA上自适应地实现大型神经网络模型,加速器整体性能可以达到1?078.3?GOPS,较以往加速器的性能和计算资源利用效率可以分别提升2.2倍和3.62倍。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号