共查询到20条相似文献,搜索用时 15 毫秒
1.
2.
随着人工智能的兴起,应用于各种场景的神经网络算法蓬勃发展。这使得以卷积神经网络为代表的各类算法的通用边缘部署加速设计成为了一大难题。对此,提出了基于数据相关性原理和Roofline模型的一般性和通用性设计准则,并据此对神经网络进行面向硬件加速的并行化设计。对卷积层、池化层和全连接层这3个最重要的部分进行了优化,基于优化后的模块可根据应用场景需求搭建各种卷积神经网络,从而实现通用性设计。以LeNet-5网络为对象,在XILINX ZC702和XILINX ZC706 FPGA平台上分别以MNIST测试集为基准验证,对各层优化后基于高层次综合构建的交互式识别系统,在XILINX ZC702平台上达到了95.09%的准确率和每幅图像4.1 ms的推理速度,在XILINX ZC706平台上达到了相同的准确率和每幅图像0.997 ms的推理速度,二者都具备了很高的处理速度。 相似文献
3.
为提升轻量级卷积神经网络在硬件平台的资源利用效率和推理速度,基于软硬件协同优化的思想,提出一种面向FPGA平台的轻量级卷积神经网络加速器,并针对网络结构的特性设计专门的硬件架构.与多级并行策略结合,设计一种统一的卷积层计算单元.为降低模型存储成本、提高加速器的吞吐量,提出一种基于可微阈值的选择性移位量化方案,使计算单元能够以硬件友好的形式执行计算.实验结果表明,在Arria 10 FPGA平台上部署的MobileNetV2加速器能够达到311 fps的推理速度,相比CPU版本实现了约9.3倍的加速比、GPU版本约3倍的加速比.在吞吐量方面,加速器能够实现 98.62 GOPS. 相似文献
4.
FPGA因具有较好的并行处理能力和灵活性,使其在卷积神经网络硬件加速计算中得到广泛的应用,但是传统的FPGA图像卷积实现中存在模块化设计以及空间开销较大的问题.本文提出了一种面向硬件加速的通用图像卷积开发平台.通过模块化设计,极大提高针对不同卷积核实现图像卷积开发的灵活性;另外通过图像批次处理技术,充分利用数据重复性实... 相似文献
5.
针对将各种卷积神经网络(CNN)模型部署在不同硬件端来实现算法加速时所遇到的耗费时间,工作量大等问题,采用Tengine工具链这一新兴的深度学习编译器技术来设计通用深度学习加速器,来将卷积神经网络模型与硬件后端高效快速对接;深度学习加速器的平台采用ZYNQ系列的ZCU104开发板,采用软硬件协同设计的思想,将开源的英伟达深度学习加速器(NVDLA)映射到可编程逻辑门阵列(FPGA)上,与ARM处理器构成SoC系统;NVDLA整体架构规范,包含软硬件设计,采用Tengine工具链代替原来官方的编译工具链;之后在搭建好的NVDLA平台上实现lenet-5和resnet-18的网络加速,完成了mnist和cifar-10的数据集图像分类任务;实验结果表明,采用Tengine工具链要比NVDLA官方的编译工具链推理速度快2.5倍,并且量化工具使用方便,网络模型部署高效。 相似文献
6.
YOLOv3-tiny具有优秀的目标检测能力,但模型所需的计算力依然较大,难以实现面向嵌入式领域的应用。提出一种YOLOv3-tiny的硬件加速方法,并在FPGA平台上实现。首先,针对网络定点化设计,以数据精度与资源消耗为设计指标,通过对模型中数据分布的统计以及数据类型的划分,提出了不同的定点化策略。其次,针对网络并行化设计,通过对卷积神经网络计算特性的分析,使用循环调整、循环分块、循环展开和数组分割等方法,设计了可扩展的常用硬件计算单元架构。然后,针对网络流水化设计,从层间与层内2个方面进行研究,以层间数据流方向和层内任务划分为基础,设计了一种灵活的流水化计算架构。最后,在XILINX XC7Z020CLG400-1平台上进行实验,结果表明,相较于667 MHz的单核ARM-A9处理器,加速比高达290.56。 相似文献
7.
针对基于嵌入式现场可编程门阵列(FPGA)平台的卷积神经网络加速器由于资源有限导致处理速度受限的问题,提出一种高性能卷积神经网络加速器.首先根据卷积神经网络和嵌入式FPGA平台的特点,设计软硬件协同操作架构;然后在存储资源和计算资源的限制下,分别提出二维直接内存存取分块和权衡数字信号处理单元与查找表使用的优化策略;最后针对人脸检测的应用,对SSD网络模型进行优化,采用软硬件流水结构,提高人脸检测系统的整体性能.在XilinxZC706开发板上实现此加速器,实验结果表明,该加速器可达到167.5 GOPS的平均性能和81.2帧/s的人脸检测速率,其平均性能和人脸检测速率是嵌入式GPU平台TX2的1.58倍. 相似文献
8.
全断面岩石掘进机在道路掘进过程中,刀盘挤压切削岩体容易产生刀盘磨损及损坏,从而造成经济损失,因此需要检测刀盘磨损的理论和技术来指导施工.岩渣是掘进过程的直接产物,携带丰富的信息,能够反映当前的施工状况,因此可以通过岩渣识别利用这些信息间接实现对刀盘的监测.提出了一种基于卷积神经网络的岩渣识别算法,在岩渣数据集上实现了 96.5%的分类准确率.随后为了便于FPGA硬件部署,提出一种网络压缩方法,将网络规模压缩到原始网络的 2.28%,同时分类准确率相比原网络仅下降了0.9%.最后使用OpenCL技术在Intel Arria 10 GX1150平台上实现了算法部署,达到了 224.54 GOP/s的吞吐率以及11.23 GOP/s/W的能效比. 相似文献
9.
针对卷积神经网络在嵌入式系统需要耗费大量计算资源、计算复杂度高等问题,提出一种基于ZYNQ系列FPGA的加速方法。通过HLS工具对卷积神经网络加速器进行设计,提出相邻层位宽合并和权重参数重排序的策略实现数据传输的优化,利用卷积分解、并行展开充分发挥FPGA并行计算的优势。为验证卷积神经网络加速器的加速效果,将YOLO目标检测模型进行部署。实验结果表明,在PYNQ-Z2上达到了39.39GOP/s的计算性能,是intel i5-2400 CPU的3.4倍,是ARM-Cortex A9 CPU的147.5倍。在相同FPGA平台上与之前的工作相较也有更高的性能。 相似文献
10.
针对卷积神经网络计算硬件化实现困难的问题,之前大部分卷积神经网络加速器的设计都集中于解决计算性能和带宽瓶颈,忽视了卷积神经网络稀疏性对加速器设计的重要意义,近来少量的能够利用稀疏性的卷积神经网络加速器设计也往往难以同时兼顾计算灵活度、并行效率和资源开销。本文首先比较了不同并行展开方式对利用稀疏性的影响,分析了利用稀疏性的不同方法,然后提出了一种能够利用激活稀疏性加速卷积神经网络计算的同时,相比于同领域其他设计,并行效率更高、额外资源开销更小的并行展开方法,最后完成了这种卷积神经网络加速器的设计并在FPGA上实现。研究结果表明:运行VGG-16网络,在ImageNet数据集下,该并行展开方法实现的稀疏卷积神经网络加速器和使用相同器件的稠密网络设计相比,卷积性能提升了108.8%,整体性能提升了164.6%,具有明显的性能优势。 相似文献
11.
12.
本文提出了一种基于ZYNQSOC平台的多功能图像处理硬件加速系统并详细阐述了该系统的架构及对应的图像处理加速过程,旨在发挥该平台所含的FPGA模块与ARM模块各自的优势,进而达到使用一种通用架构对多种图像处理应用进行硬件加速的目的。同时,本文提出了两种可配置硬件加速模块的实现方式并比较了其各自结构特点,进而探讨了其各自的适用场景。最后,本文介绍了本系统的系统架构及在不同应用下的工作过程,并对SOBEL边缘检测,运动目标边缘检测,人脸检测三种不同应用进行同平台下的对比测试,测试结果表明:相对于单纯使用该平台上的ARM处理器进行处理,使用本文所提出的架构,三种不同应用分别获得了50%~90%的加速效果。 相似文献
13.
14.
卷积神经网络优异的性能使其在图像处理领域占有重要地位,然而模型的实际应用多依赖于GPU,难以部署在对功耗敏感的嵌入式设备上。为了使模型能够高效部署在以FPGA为基础的平台上,本文提出一种卷积神经网络定点化方法,以数据精度与资源消耗为设计指标,根据模型中数据分布的统计以及数据类型的划分,确定不同的定点化策略,并给出了不同量化方法与溢出模式和硬件资源消耗的关系。使用Xilinx定点化库进行测试,实验结果表明,使用16位定点数对模型进行统一量化,能够在较小的精度损失下降低硬件资源消耗,且不同的量化模式下硬件资源消耗相同,不同的溢出模式下硬件资源消耗区别较大。 相似文献
15.
16.
17.
近年来,卷积神经网络被广泛应用于心音信号分类。为满足先心病机器辅助诊断系统低功耗、可移动等方面需求,基于轻量级神经网络MobileNet,实现了一种适用于FPGA硬件平台的心音分类器。心音分类器的深度卷积、逐点卷积与最大池化等模块通过高层次综合进行设计。该心音分类器在利用深度可分离卷积减少网络参数与运算量的同时,通过多像素多通道并行及定点量化等方式,提升了分类器运行速度。经心音数据集实验结果表明,在计算效率方面,该心音分类器在FPGA上相较于在通用CPU上实现约14倍加速。 相似文献
18.
基于卷积神经网络的目标检测研究综述 总被引:1,自引:0,他引:1
随着训练数据的增加以及机器性能的提高,基于卷积神经网络的目标检测冲破了传统目标检测的瓶颈,成为当前目标检测的主流算法。因此,研究如何有效地利用卷积神经网络进行目标检测具有重要的价值。首先回顾了卷积神经网络如何解决传统目标检测中存在的问题;其次介绍了卷积神经网络的基本结构,叙述了当前卷积神经网络的研究进展以及常用的卷积神经网络;然后重点分析和讨论了两种应用卷积神经网络进行目标检测的思路和方法,指出了目前存在的不足;最后总结了基于卷积神经网络的目标检测,以及未来的发展方向。 相似文献
19.
针对拓宽神经网络的结构会导致计算量增大,计算性能降低,需要针对并行的网络进行更有效的优化以及调度。通过分析FPGA平台上实现卷积神经网络的计算吞吐量和所需的带宽,在计算资源和访存带宽的限制下,采用了屋顶模型进行了设计空间的探索,提出了在不同支的卷积神经网络中使用不同的循环展开因子,从而实现同一卷积层中不同支神经网络的并行计算,保证计算资源和内存资源的合理分配。实验结果表明,所提出的设计与先前研究相比获得了1.31×的性能提升。 相似文献
20.
遥感图像目标检测具有十分重要的研究意义,当前遥感图像目标检测方法存在精度低,误差高,难以满足实际应用要求等不足,为了获得更优的遥感图像目标检测结果,提出了基于卷积神经网络的遥感图像目标检测.首先分析遥感图像目标检测的研究进展,采集遥感图像,对遥感图像进行预处理,并去除遥感图像复杂背景,提取遥感图像目标候选区域,然后采用... 相似文献