首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
在FPGA数据处理应用场合中,引入神经网络能够提高数据特征的学习能力.但是基于非嵌入式的神经网络在运算过程中通常具有显著的复杂性和稀疏性,难以直接应用于FPGA上.于是,为了提高FPGA在数据处理时的并行性和高效性,设计了基于卷积网络加速器的FPGA数据处理架构.首先对卷积网络的层进行优化设计,采用ReLU函数来加速卷...  相似文献   

2.
为满足卷积神经网络业务处理的灵活性和高性能需求,提出一种基于软件定义的可重构卷积神经网络架构.该架构采用归一化处理流程实现卷积层网络的动态重构与运算模式的加速.采用AHB和AXI的双总线架构,实现卷积神经网络的流水计算.通过软件定义在FPGA上实现了不同网络结构下的数据集实时处理.实验结果表明,所设计的FPGA电路能够...  相似文献   

3.
现有软件实现方案难以满足卷积神经网络对运算性能与功耗的要求。为此,设计一种基于现场可编程门阵列(FPGA)的卷积神经网络加速器。在粗粒度并行层面对卷积运算单元进行并行化加速,并使用流水线实现完整单层运算过程,使单个时钟周期能够完成20次乘累加,从而提升运算效率。针对MNIST手写数字字符识别的实验结果表明,在75 MHz的工作频率下,该加速器可使FPGA峰值运算速度达到0.676 GMAC/s,相较通用CPU平台实现4倍加速,而功耗仅为其2.68%。  相似文献   

4.
现有的卷积神经网络由于其结构复杂且依赖的数据集庞大,难以满足某些实际应用或者计算平台对运算性能的要求和能耗的限制。针对这些应用或计算平台,对基于ARM+FPGA平台的二值化算法进行了研究,并设计了二值神经网络,该网络减少了数据对存储单元的需求量,也降低了运算的复杂度。在ARM+FPGA平台内部实现时,通过将卷积的乘累加运算转换为XNOR逻辑运算和popcount等操作,提高了整体的运算效率,降低了对能源和资源的消耗。同时,根据二值神经网络中数据存储的特点提出了新的行处理改进算法,提高了网络的吞吐量。该实现方式在GOPS、能源和资源效率方面均优于现有的FPGA神经网络加速方法。  相似文献   

5.
卷积神经网络的高计算复杂性阻碍其广泛用于实时和低功耗应用,现有软件实现方案难以满足其对运算性能与功耗的要求,传统面向FPGA的卷积神经网络构造方式具有流程复杂、周期较长和优化空间较小等问题。针对该问题,根据卷积神经网络计算模式的特点,提出一种面向云端FPGA的卷积神经网络加速器的设计及其调度机制。通过借鉴基于HLS技术、引入循环切割参数和对卷积层循环重排的设计,采用模块化方式构造网络,并进行参数拓展以进一步优化加速器处理过程;通过分析系统任务和资源的特性总结调度方案,且从控制流和数据流两方面对其进行优化设计。与其他已有工作相比,提出的设计提供了一种同时具有灵活性、低能耗、高能效和高性能的解决方案,并且探讨了加速器的高效通用调度方案。实验结果表明,该加速器可在有效提高运算整速度的同时减少功耗。  相似文献   

6.
近年来,卷积神经网络在许多领域中发挥着越来越重要的作用,然而功耗和速度是限制其应用的主要因素.为了克服其限制因素,设计一种基于FPGA平台的卷积神经网络并行加速器,以Ultra96-V2为实验开发平台,而且卷积神经网络计算IP核的设计实现采用了高级设计综合工具,使用Vivado开发工具完成了基于FPGA的卷积神经网络加...  相似文献   

7.
随着人工智能的快速发展,卷积神经网络(CNN)在很多领域发挥着越来越重要的作用。分析研究了现有卷积神经网络模型,设计了一种基于现场可编程门阵列(FPGA)的卷积神经网络加速器。在卷积运算中四个维度方向实现了并行化计算;提出了参数化架构设计,在三种参数条件下,单个时钟周期分别能够完成512、1024、2048次乘累加;设计了片内双缓存结构,减少片外存储访问的同时实现了有效的数据复用;使用流水线实现了完整的神经网络单层运算过程,提升了运算效率。与CPU、GPU以及相关FPGA加速方案进行了对比实验,实验结果表明,所提出的设计的计算速度达到了560.2 GOP/s,为i7-6850K CPU的8.9倍。同时,其计算的性能功耗比达到了NVDIA GTX 1080Ti GPU的3.0倍,与相关研究相比,所设计的加速器在主流CNN网络的计算上实现了较高的性能功耗比,同时不乏通用性。  相似文献   

8.
深度卷积神经网络具有模型大、计算复杂度高的特点,难以部署到硬件资源有限的现场可编程门阵列(FPGA)中。混合精度卷积神经网络可在模型大小和准确率之间做出权衡,从而为降低模型内存占用提供有效方案。快速傅里叶变换作为一种快速算法,可将传统空间域卷积神经网络变换至频域,从而有效降低模型计算复杂度。提出一个基于FPGA的8 bit和16 bit混合精度频域卷积神经网络加速器设计。该加速器支持8 bit和16 bit频域卷积的动态配置,并可将8 bit频域乘法运算打包以复用DSP,用来提升计算性能。首先设计一个基于DSP的频域计算单元,支持8 bit和16 bit频域卷积运算,通过打包一对8 bit频域乘法以复用DSP,从而提升吞吐率。然后提出一个映射数据流,该数据流支持8 bit和16 bit计算两种形式,通过数据重用方式最大化减少冗余数据处理和数据搬运操作。最后使用ImageNet数据集,基于ResNet-18与VGG16模型对所设计的加速器进行评估。实验结果表明,该加速器的能效比(GOP与能耗的比值)在ResNet-18和VGG16模型上分别达到29.74和56.73,较频域FPGA加速器...  相似文献   

9.
从高分辨率遥感影像中提取并检测路网一直都是计算机视觉研究的热点和难点。目前,基于深度学习的遥感影像路网检测方法大部分都是以卷积运算为基础的卷积神经网络,而以深度可分离卷积运算为基础深度可分离卷积神经网络作为以卷积运算为基础的卷积神经网络的替代神经网络,不仅在特征提取能力上优于卷积神经网络,而且在参数量和计算量方面也低于卷积神经网络。鉴于此,该文利用深度可分离卷积运算替换卷积运算,并引入残差模块,构造了深度可分离残差网络进行遥感影像的路网自动检测的应用。实验结果表明,在RRSI和CHN6-CUG数据集上,虽然深度可分离残差网络的准确率和损失与相对应的卷积神经网络和残差网络的准确率和损失的区别不大,但是深度可分离残差网络的训练耗时时长远远低于相对应的卷积神经网络和残差网络的训练耗时时长,而且深度可分离残差网络的路网检测实际结果也优于相对应的卷积神经网络和残差网络的路网检测实际结果。  相似文献   

10.
为将参数量巨大的神经网络模型部署到资源有限、功耗要求极高的嵌入式端,以较好的速度运行,研究8 bit整型量化算法和神经网络前向推理过程在FPGA上的具体实现。通过8 bit整型量化,将模型的参数量从22.5 M缩减至5.7 M,模型参数量缩小近4倍,提高神经网络在嵌入式端部署的可行性。基于FPGA并行处理的特点,设计精简指令,优化卷积运算中输入输出和计算过程的并行处理。在实验中可以在较低功耗下加速神经网络前向推理过程。  相似文献   

11.
人脸表情识别已成为人工智能领域的重要研究课题,但传统的卷积神经网络需要庞大的计算资源使得其应用受限,而二值化卷积神经网络可通过快速与或运算代替原本的浮点乘法运算,大大降低了算法对计算资源的需求。论文提出了一种基于数据增强和二值化卷积神经网络的人脸表情识别算法,通过均值估计,在FER2013数据集上达到了66.15%的识别率,超越了部分基于浮点乘积运算的卷积网络,为表情识别算法移植到小型设备中提供了可能。  相似文献   

12.
《微型机与应用》2019,(11):96-101
近年来,卷积神经网络(CNN)在计算机视觉任务中得到了广泛的应用,可编程逻辑门阵列(FPGA)以其高性能、高能效、高灵活性等优点被广泛应用于CNN的加速。提出了一种基于FPGA的卷积神经网络加速器的设计与实现方法,以期在资源和功耗受限的平台中为CNN的计算提供加速。以VC707开发板为FPGA平台,设计了一种新的卷积神经网络Do Net,可以实现对Minist手写数据集的识别分类。测试结果表明,基于FPGA实现的Do Net对Minist数据集的识别准确率为95%,测试显示的识别时间为0. 545 ms,功耗为1. 95 W。  相似文献   

13.
针对卷积神经网络中卷积层参数冗余,运算效率低的问题,从卷积神经网络训练过程中参数的统计特性出发,提出了一种基于统计分析裁剪卷积核的卷积神经网络模型压缩方法,在保证卷积神经网络处理信息能力的前提下,通过裁剪卷积层中对整个模型影响较小的卷积核对已训练好的卷积神经网络模型进行压缩,在尽可能不损失模型准确率的情况下减少卷积神经网络的参数,降低运算量.通过实验,证明了本文提出的方法能够有效地对卷积神经网络模型进行压缩.  相似文献   

14.
针对卷积神经网络(CNN)对运算的需求,现场可编程逻辑门阵列(FPGA)可以充分挖掘CNN内部并行计算的特性,提高运算速度。因此,本文基于FPGA开发平台,从模型优化、参数优化,硬件加速以及手写体数字识别四个方面对CNN的FPGA加速及应用进行研究。提出一种数字识别网络RLeNet,并对网络进行参数优化,卷积运算加速采用脉冲阵列与加法树结合的硬件结构实现,同时使用并行技术和流水线技术优化加速,并使用microblaze IP通过中断控制CNN加速器IP接收串口发送的图片数据进行预测,输出结果。最后在Xilinx Nexys 4 DDR:Artix-7开发板上实现了MNIST数据集手写体数字识别预测过程,当系统时钟为200MHz时,预测一张图片的时间为36.47us。  相似文献   

15.
狄新凯  杨海钢 《计算机工程》2021,47(7):189-195,204
为消除卷积神经网络前向计算过程中因模型参数的稀疏性而出现的无效运算,基于现场可编程门阵列(FPGA)设计针对稀疏化神经网络模型的数据流及并行加速器。通过专用逻辑模块在输入通道方向上筛选出特征图矩阵和卷积滤波器矩阵中的非零点,将有效数据传递给由数字信号处理器组成的阵列做乘累加操作。在此基础上,对所有相关的中间结果经加法树获得最终输出特征图点,同时在特征图宽度、高度和输出通道方向上做粗颗粒度并行并寻找最佳的设计参数。在Xilinx器件上进行实验验证,结果表明,该设计实现VGG16卷积层综合性能达到678.2 GOPS,性能功耗比为69.45 GOPS/W,其性能与功耗指标较基于FPGA的稠密网络加速器和稀疏网络加速器有较大提升。  相似文献   

16.
针对卷积神经网络在嵌入式系统需要耗费大量计算资源、计算复杂度高等问题,提出一种基于ZYNQ系列FPGA的加速方法。通过HLS工具对卷积神经网络加速器进行设计,提出相邻层位宽合并和权重参数重排序的策略实现数据传输的优化,利用卷积分解、并行展开充分发挥FPGA并行计算的优势。为验证卷积神经网络加速器的加速效果,将YOLO目标检测模型进行部署。实验结果表明,在PYNQ-Z2上达到了39.39GOP/s的计算性能,是intel i5-2400 CPU的3.4倍,是ARM-Cortex A9 CPU的147.5倍。在相同FPGA平台上与之前的工作相较也有更高的性能。  相似文献   

17.
针对卷积神经网络计算资源消耗大、难以在边缘侧应用等问题,提出了一种面向FPGA (Field Programmable Gate Array)平台的基于知识蒸馏的轻量化卷积神经网络辐射源信号识别方法。该方法以信号时频图作为特征提取对象,结合改进的知识蒸馏方法对卷积神经网络进行轻量化处理,通过注意力图增强知识信息传递,并融合深度可分离卷积,进一步提高网络稀疏度。最后,将该轻量化网络在FPGA平台上进行结构优化,通过改进循环策略和流水线并行设计,加速轻量化卷积神经网络的辐射源信号识别过程。仿真结果显示,利用本文提出的轻量化卷积神经网络辐射源信号识别算法,网络参数量降低了81.8%,在信噪比不低于-12dB的条件下,信号识别准确率达到了90%以上,FPGA平台信号识别时间为86ms,平均功耗为2W,可满足边缘侧终端对信号实时检测以及低功耗的实际应用需求。  相似文献   

18.
本文提出设计了一种在ZCU102平台上加速卷积神经网络(CNN)卷积运算的方法,使用1个DSP IP实现卷积操作中1个int8类型或者unit8类型输入特征图像数据和2个int8类型卷积核参数的乘法运算。卷积运算是卷积神经网络的基本操作,提高卷积运算并行度可使卷积运算速率提升一倍。8-bit卷积神经网络量化技术是设计实现的基础,减少了处理器(PS)数据传输带宽需求。ZCU102 MPSoC的可编程逻辑(PL)资源较少,充分利用DSP IP资源可降低逻辑资源需求,提升逻辑资源利用率,增加SoC系统设计灵活性。  相似文献   

19.
根据卷积神经网络的特点,提出了深度流水的FPGA加速方案,设计了卷积层的通用卷积电路。该卷积电路可以在一个时钟周期内获得一个计算结果。理论上,该方案对于MNIST数据集,在28×28个时钟周期内可以获得一幅图片的运算结果。针对网络训练过程的前向传播阶段,在网络结构和数据集相同的情况下,对GPU,FPGA,CPU进行了在计算效率和能耗之间的比较。其中在计算效率方面,50 MHz频率的FPGA就可以相较于GPU实现近5倍的加速,相较于12核的CPU实现8倍的加速。而在功耗方面,该FPGA的实现方案只有GPU版本的26.7%。  相似文献   

20.
在实时图像处理过程中,2-D模板卷积是一种重要的操作,FPGA以其特有的全并行处理机制使得这种操作在硬件设计中得以较好的实现。本文提出了一种基于FPGA的模板卷积运算的新方案,相比传统方案,这种方案在结构上能以较少的硬件资源达到相同的流水深度。为了满足系统对实时性的要求,针对某些特定类型的模板,给出了一种简化的卷积器结构,同时,介绍了一种模板归一化除法运算的硬件实现方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号