首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
现有的卷积神经网络由于其结构复杂且依赖的数据集庞大,难以满足某些实际应用或者计算平台对运算性能的要求和能耗的限制。针对这些应用或计算平台,对基于ARM+FPGA平台的二值化算法进行了研究,并设计了二值神经网络,该网络减少了数据对存储单元的需求量,也降低了运算的复杂度。在ARM+FPGA平台内部实现时,通过将卷积的乘累加运算转换为XNOR逻辑运算和popcount等操作,提高了整体的运算效率,降低了对能源和资源的消耗。同时,根据二值神经网络中数据存储的特点提出了新的行处理改进算法,提高了网络的吞吐量。该实现方式在GOPS、能源和资源效率方面均优于现有的FPGA神经网络加速方法。  相似文献   

2.
基于嵌入式平台的复杂背景目标跟踪技术在智能视频监控设备、无人机跟踪等领域有重要作用.卷积神经网络在跟踪问题上有准确率高、鲁棒性强的优点,但基于卷积特征的算法计算复杂度高,受嵌入式平台面积和功耗的限制,实时性难以满足嵌入式平台应用场景的需求.针对基于卷积特征的跟踪算法计算复杂度高、存储参数量大的难题,率先提出一种利用FPGA实现基于卷积神经网络的复杂背景目标跟踪硬件加速架构.该方法通过利用KL相对熵对目标跟踪算法Siamese-FC进行定点量化,设计了基于通道并行的卷积层加速架构.实验结果表明,定点量化后跟踪算法相比于原算法的平均精度损失不超过4.57%,FPGA部署后前向推理耗时仅为CPU的16.15%,功耗仅为CPU的13.7%.  相似文献   

3.
针对基于嵌入式现场可编程门阵列(FPGA)平台的卷积神经网络加速器由于资源有限导致处理速度受限的问题,提出一种高性能卷积神经网络加速器.首先根据卷积神经网络和嵌入式FPGA平台的特点,设计软硬件协同操作架构;然后在存储资源和计算资源的限制下,分别提出二维直接内存存取分块和权衡数字信号处理单元与查找表使用的优化策略;最后针对人脸检测的应用,对SSD网络模型进行优化,采用软硬件流水结构,提高人脸检测系统的整体性能.在Xilinx ZC706开发板上实现此加速器,实验结果表明,该加速器可达到167.5 GOPS的平均性能和81.2帧/s的人脸检测速率,其平均性能和人脸检测速率是嵌入式GPU平台TX2的1.58倍.  相似文献   

4.
针对拓宽神经网络的结构会导致计算量增大,计算性能降低,需要针对并行的网络进行更有效的优化以及调度.通过分析FPGA平台上实现卷积神经网络的计算吞吐量和所需的带宽,在计算资源和访存带宽的限制下,采用了屋顶模型进行了设计空间的探索,提出了在不同支的卷积神经网络中使用不同的循环展开因子,从而实现同一卷积层中不同支神经网络的并...  相似文献   

5.
《微型机与应用》2019,(3):77-81
为了解决卷积神经网络硬件实现阶段的资源限制问题,提出了基于FPGA动态重构的卷积神经网络加速器设计。首先,设计了卷积神经网络加速器的整体并行策略和VLSI架构,并针对卷积神经网络的功能模块进行了流水线设计。其次,对卷积神经网络加速器进行动态重构设计,建立动态重构区域及其模块功能划分;并选用BPI Flash存储配置文件,通过内部配置端口读取配置文件对动态重构区域进行动态配置。实验结果表明,针对Lenet-5手写体识别网络,基于动态重构设计的加速器与相应的静态设计相比,使用的Slice LUTs、Slice Registers与DSP资源分别减少44%、27. 8%与71%。与基于软件平台实现作对比,系统执行时间大幅度降低。但是由于内部配置端口的带宽限制,重构配置时间延长了整个卷积网络的执行时间。  相似文献   

6.
《微型机与应用》2019,(11):96-101
近年来,卷积神经网络(CNN)在计算机视觉任务中得到了广泛的应用,可编程逻辑门阵列(FPGA)以其高性能、高能效、高灵活性等优点被广泛应用于CNN的加速。提出了一种基于FPGA的卷积神经网络加速器的设计与实现方法,以期在资源和功耗受限的平台中为CNN的计算提供加速。以VC707开发板为FPGA平台,设计了一种新的卷积神经网络Do Net,可以实现对Minist手写数据集的识别分类。测试结果表明,基于FPGA实现的Do Net对Minist数据集的识别准确率为95%,测试显示的识别时间为0. 545 ms,功耗为1. 95 W。  相似文献   

7.
针对卷积神经网络计算资源消耗大、难以在边缘侧应用等问题,提出了一种面向FPGA (Field Programmable Gate Array)平台的基于知识蒸馏的轻量化卷积神经网络辐射源信号识别方法。该方法以信号时频图作为特征提取对象,结合改进的知识蒸馏方法对卷积神经网络进行轻量化处理,通过注意力图增强知识信息传递,并融合深度可分离卷积,进一步提高网络稀疏度。最后,将该轻量化网络在FPGA平台上进行结构优化,通过改进循环策略和流水线并行设计,加速轻量化卷积神经网络的辐射源信号识别过程。仿真结果显示,利用本文提出的轻量化卷积神经网络辐射源信号识别算法,网络参数量降低了81.8%,在信噪比不低于-12dB的条件下,信号识别准确率达到了90%以上,FPGA平台信号识别时间为86ms,平均功耗为2W,可满足边缘侧终端对信号实时检测以及低功耗的实际应用需求。  相似文献   

8.
FPGA因具有较好的并行处理能力和灵活性,使其在卷积神经网络硬件加速计算中得到广泛的应用,但是传统的FPGA图像卷积实现中存在模块化设计以及空间开销较大的问题.本文提出了一种面向硬件加速的通用图像卷积开发平台.通过模块化设计,极大提高针对不同卷积核实现图像卷积开发的灵活性;另外通过图像批次处理技术,充分利用数据重复性实...  相似文献   

9.
由于传统的卷积神经网络都基于浮点运算,需要GPU等专门的浮点运算器件处理,不具便携性。于是本文提出了一种基于FPGA的int16型卷积神经网络设计,能够在FPGA的配合运算下对MINIST数据具有较好的分类识别效果,并且可以发挥FPGA的并行运算优势,提升网络的实时性。  相似文献   

10.
针对卷积神经网络在嵌入式系统需要耗费大量计算资源、计算复杂度高等问题,提出一种基于ZYNQ系列FPGA的加速方法。通过HLS工具对卷积神经网络加速器进行设计,提出相邻层位宽合并和权重参数重排序的策略实现数据传输的优化,利用卷积分解、并行展开充分发挥FPGA并行计算的优势。为验证卷积神经网络加速器的加速效果,将YOLO目标检测模型进行部署。实验结果表明,在PYNQ-Z2上达到了39.39GOP/s的计算性能,是intel i5-2400 CPU的3.4倍,是ARM-Cortex A9 CPU的147.5倍。在相同FPGA平台上与之前的工作相较也有更高的性能。  相似文献   

11.
现有软件实现方案难以满足卷积神经网络对运算性能与功耗的要求。为此,设计一种基于现场可编程门阵列(FPGA)的卷积神经网络加速器。在粗粒度并行层面对卷积运算单元进行并行化加速,并使用流水线实现完整单层运算过程,使单个时钟周期能够完成20次乘累加,从而提升运算效率。针对MNIST手写数字字符识别的实验结果表明,在75 MHz的工作频率下,该加速器可使FPGA峰值运算速度达到0.676 GMAC/s,相较通用CPU平台实现4倍加速,而功耗仅为其2.68%。  相似文献   

12.
为满足卷积神经网络业务处理的灵活性和高性能需求,提出一种基于软件定义的可重构卷积神经网络架构.该架构采用归一化处理流程实现卷积层网络的动态重构与运算模式的加速.采用AHB和AXI的双总线架构,实现卷积神经网络的流水计算.通过软件定义在FPGA上实现了不同网络结构下的数据集实时处理.实验结果表明,所设计的FPGA电路能够...  相似文献   

13.
在FPGA数据处理应用场合中,引入神经网络能够提高数据特征的学习能力.但是基于非嵌入式的神经网络在运算过程中通常具有显著的复杂性和稀疏性,难以直接应用于FPGA上.于是,为了提高FPGA在数据处理时的并行性和高效性,设计了基于卷积网络加速器的FPGA数据处理架构.首先对卷积网络的层进行优化设计,采用ReLU函数来加速卷...  相似文献   

14.
为提升轻量级卷积神经网络在硬件平台的资源利用效率和推理速度,基于软硬件协同优化的思想,提出一种面向FPGA平台的轻量级卷积神经网络加速器,并针对网络结构的特性设计专门的硬件架构。与多级并行策略结合,设计一种统一的卷积层计算单元。为降低模型存储成本、提高加速器的吞吐量,提出一种基于可微阈值的选择性移位量化方案,使计算单元能够以硬件友好的形式执行计算。实验结果表明,在Arria 10 FPGA平台上部署的MobileNetV2加速器能够达到311 fps的推理速度,相比CPU版本实现了约9.3倍的加速比、GPU版本约3倍的加速比。在吞吐量方面,加速器能够实现98.62 GOPS。  相似文献   

15.
针对目前在中央处理器(CPU)中部署卷积神经网络速度慢、在图形处理器(GPU)中功耗高等问题,采用基于现场可编程门阵列(FPGA)平台开发的卷积神经网络识别系统,对卷积神经网络的各个环节进行算法加速。考虑到算法的计算量和逻辑资源的消耗主要集中在卷积层,提出了在特征图的通道方向进行双卷积并行模块设计。在卷积神经网络的池化层和激活函数Softmax中,设计了流式池化,并提出改进的分段查表计算Softmax函数的方法。另外,在归一化和预处理阶段也分别进行了优化。卷积神经网络识别系统选用XILINX公司的ZCU104开发平台。该平台内部包含片上系统与可编程逻辑控制器。通过自制水果数据集,分别在ZCU104、CPU和GPU上进行试验。试验结果显示,ZCU104分类的准确率达到了95.8%,识别速度约为计算机端上CPU实现同种网络模型的3倍,并且高于GPU。此外,该系统通用性高、资源占用率低,可应用在其他神经网络模型中。  相似文献   

16.
随着人工智能的兴起,应用于各种场景的神经网络算法蓬勃发展。这使得以卷积神经网络为代表的各类算法的通用边缘部署加速设计成为了一大难题。对此,提出了基于数据相关性原理和Roofline模型的一般性和通用性设计准则,并据此对神经网络进行面向硬件加速的并行化设计。对卷积层、池化层和全连接层这3个最重要的部分进行了优化,基于优化后的模块可根据应用场景需求搭建各种卷积神经网络,从而实现通用性设计。以LeNet-5网络为对象,在XILINX ZC702和XILINX ZC706 FPGA平台上分别以MNIST测试集为基准验证,对各层优化后基于高层次综合构建的交互式识别系统,在XILINX ZC702平台上达到了95.09%的准确率和每幅图像4.1 ms的推理速度,在XILINX ZC706平台上达到了相同的准确率和每幅图像0.997 ms的推理速度,二者都具备了很高的处理速度。  相似文献   

17.
当前,卷积神经网络越来越多的应用于工业生产中,传统的基于CPU及GPU的神经网络平台存在体积大、能耗高等缺点,在工业生产现场部署存在困难.基于ARM的嵌入式平台虽然易于部署,但存在算力低的缺点,难以高效的实现卷积神经网络.针对此问题,本文设计并实现了一种基于Zynq平台的卷积神经网络单元,通过充分利用Zynq平台上FP...  相似文献   

18.
卷积神经网络的高计算复杂性阻碍其广泛用于实时和低功耗应用,现有软件实现方案难以满足其对运算性能与功耗的要求,传统面向FPGA的卷积神经网络构造方式具有流程复杂、周期较长和优化空间较小等问题。针对该问题,根据卷积神经网络计算模式的特点,提出一种面向云端FPGA的卷积神经网络加速器的设计及其调度机制。通过借鉴基于HLS技术、引入循环切割参数和对卷积层循环重排的设计,采用模块化方式构造网络,并进行参数拓展以进一步优化加速器处理过程;通过分析系统任务和资源的特性总结调度方案,且从控制流和数据流两方面对其进行优化设计。与其他已有工作相比,提出的设计提供了一种同时具有灵活性、低能耗、高能效和高性能的解决方案,并且探讨了加速器的高效通用调度方案。实验结果表明,该加速器可在有效提高运算整速度的同时减少功耗。  相似文献   

19.
《计算机科学与探索》2019,(10):1677-1693
当前,卷积神经网络已在图像分类、目标检测等计算机视觉领域被广泛应用。然而,在前向推断阶段,许多实际应用往往具有低延时和严格的功耗限制。针对该问题,采用参数重排序、多通道数据传输等优化策略,设计并实现了一种基于FPGA的SIMD卷积神经网络加速器架构。以YOLOv2目标检测算法为例,介绍了将卷积神经网络模型映射到FPGA上的完整流程;对加速器的性能和资源耗费进行深入分析和建模,将实际传输延时考虑在内,缩小了加速器理论时延与实际时延的误差;改进了加速器架构中的输入和输出模块,有效提高了总线带宽的实际利用率。实验结果表明,在Zedboard上获得了30.15 GOP/s的性能,与Xeon E5-2620 v4CPU相比,能效是其120.4倍,性能是其7.3倍;与双核ARM-A9 CPU相比,能效是其86倍,性能是其112.9倍。  相似文献   

20.
针对现有海量数字图像信息落后,提出了新型的压缩算法,设计出基于FPGA的视频图像采集系统.应用深度卷积神经网络优化视频图像编码算法和聚类算法实现数据特征提取,将图像与距离信息作为深度卷积神经网络的输入与输出,并利用其特征提取能力学习图像特征的距离信息,提取深度卷积神经网络中的全连接层作为编码,通过迭代调整确定图像编码,完成图像压缩.应用测试结果显示,该算法具有较高效率优势,且图像压缩解码后质量较好.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号