首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
目前在中央处理器(CPU)中,卷积神经网络存在速度慢、功耗高的缺点,针对深度学习中的卷积神经网络所需计算时间长、消耗资源多、卷积运算量大的问题,提出了使用现场可编程门阵列(FPGA)硬件平台对卷积神经网络图像识别系统进行加速,对卷积神经网络的进行算法改进和加速。设计了卷积层并行计算的流水线模块和池化层改进模块,还通过数据量化的方式减少FPGA资源耗费。最后,使用MINST数据集对算法进行评估,在Zynq7010和CPU上进行验证。实验结果表明,设计的方法资源占用率低,识别速度快,适合实际领域使用。  相似文献   

2.
针对人工在线精选霉变烟叶时,存在效率低下、容易漏检等缺点,提出了一种基于卷积神经网络模型对霉变烟叶图像进行筛选、分类识别的方法.首先建立烟叶数据集,然后搭建卷积神经网络模型,利用卷积神经网络先初步提取特征,再筛选提取主要特征,然后进行各部分的特征汇总;最后实现图像的分类,从而实现了快速、准确的识别霉变烟叶图像和正常烟叶...  相似文献   

3.
基于嵌入式平台的复杂背景目标跟踪技术在智能视频监控设备、无人机跟踪等领域有重要作用.卷积神经网络在跟踪问题上有准确率高、鲁棒性强的优点,但基于卷积特征的算法计算复杂度高,受嵌入式平台面积和功耗的限制,实时性难以满足嵌入式平台应用场景的需求.针对基于卷积特征的跟踪算法计算复杂度高、存储参数量大的难题,率先提出一种利用FPGA实现基于卷积神经网络的复杂背景目标跟踪硬件加速架构.该方法通过利用KL相对熵对目标跟踪算法Siamese-FC进行定点量化,设计了基于通道并行的卷积层加速架构.实验结果表明,定点量化后跟踪算法相比于原算法的平均精度损失不超过4.57%,FPGA部署后前向推理耗时仅为CPU的16.15%,功耗仅为CPU的13.7%.  相似文献   

4.
近年来,卷积神经网络在许多领域中发挥着越来越重要的作用,然而功耗和速度是限制其应用的主要因素.为了克服其限制因素,设计一种基于FPGA平台的卷积神经网络并行加速器,以Ultra96-V2为实验开发平台,而且卷积神经网络计算IP核的设计实现采用了高级设计综合工具,使用Vivado开发工具完成了基于FPGA的卷积神经网络加...  相似文献   

5.
目前基于PC机及普通网卡实现的EtherCAT协议栈单元多数都存在体积大功耗高的缺点,而基于嵌入式平台实现的EtherCAT协议栈虽然体积和功耗上具有优势,但是性能不够稳定.针对这一问题,本文提出一种基于FPGA SoC的EtherCAT协议栈实现方式,通过在Xilinx的Zynq平台上构建具有实时性的操作系统,同时在FPGA上配置专用网络适配单元及安全功能单元,实现EtherCAT协议栈在嵌入式平台上的高效运行.与基于PC实现和传统嵌入式平台上实现方式相对比,在功耗体积和稳定性上均有提高,具有较高的实用价值.  相似文献   

6.
随着计算机技术日益发展,计算机视觉逐渐融入人们的生活,深度卷积神经网络在计算机视觉领域得到了广泛的应用.然而计算资源和内存的限制,为卷积神经网络在嵌入式设备的部署带来了巨大的困难.本文提出了一种新的轻量级的人脸识别的卷积神经网络——Emfacenet,通过在CASIA-WebFace数据集上进行卷积神经网络的训练,并在计算机CPU平台以及嵌入式平台上利用LFW数据集对模型的预测效果分别进行测试,Emfacenet在CPU平台下识别速度分别是Resnet50、Mobilenetv3以及Mobilefacenets这3种模型的2.07倍、1.67倍、1.63倍,在嵌入式平台下识别速度分别56.65倍、2.09倍、3.41倍.而且Emfacenet卷积神经网络模型大小仅为138.1KB,保持较高精度的同时运行效率显著提高,可以适用于嵌入式等硬件资源受限领域来实现人脸识别.  相似文献   

7.
随着信息技术的不断发展,机器视觉技术已被广泛应用于智能产线.智能制造生产过程中工件种类多、外观相似性高,而传统分拣方式速度慢、准确率低,已无法满足智能化生产的要求.采用机器视觉技术来解决智能产线中的工件分类问题已成为当前智能制造领域的热点.为提高智能产线中工件分类的效率,本文设计并实现了一种基于ZYNQ平台的图像分类加速器.针对现有的卷积神经网络模型参数量大、难以部署到资源有限的嵌入式平台的问题,提出一种参数量较少、易于在嵌入式平台部署的图像分类网络SortNet;针对卷积神经网络在嵌入式平台速度慢的问题,设计了一种卷积与激活函数同构化的处理单元(CAFI-PE)以及一种基于流水线的数据调用方法(PDCM),提高了卷积计算的速度.实验结果表明,本文提出的图像分类加速器对224×224大小的灰度图像处理速度可达40.98fps,而功耗仅为2.305W,能够满足智能产线对工件分类速度和功耗的要求.  相似文献   

8.
针对目前在中央处理器(CPU)中部署卷积神经网络速度慢、在图形处理器(GPU)中功耗高等问题,采用基于现场可编程门阵列(FPGA)平台开发的卷积神经网络识别系统,对卷积神经网络的各个环节进行算法加速。考虑到算法的计算量和逻辑资源的消耗主要集中在卷积层,提出了在特征图的通道方向进行双卷积并行模块设计。在卷积神经网络的池化层和激活函数Softmax中,设计了流式池化,并提出改进的分段查表计算Softmax函数的方法。另外,在归一化和预处理阶段也分别进行了优化。卷积神经网络识别系统选用XILINX公司的ZCU104开发平台。该平台内部包含片上系统与可编程逻辑控制器。通过自制水果数据集,分别在ZCU104、CPU和GPU上进行试验。试验结果显示,ZCU104分类的准确率达到了95.8%,识别速度约为计算机端上CPU实现同种网络模型的3倍,并且高于GPU。此外,该系统通用性高、资源占用率低,可应用在其他神经网络模型中。  相似文献   

9.
图像检测、识别任务已经被应用在越来越多的生产生活场景中,基于卷积神经网络的方法凭借着精度高的特点被广泛应用.但是卷积神经网络存在着权重参数多、对算力要求高的问题,算力有限且型号多样的边缘计算设备使得这些应用在使用中受限.在跨平台上运行高性能代码,以及基于GPU的卷积神经网络优化愈发重要.针对卷积神经网络中的卷积规模和其他通用矩阵乘(general matrix multiplication, GEMM)方法的不足,根据分块规模、分支执行、访存和计算比例,提出了一种针对卷积神经网络规模优化的GEMM优化方法,将其应用于Winograd算法,并结合算子合并,实现对卷积进一步优化.同时基于遍历的自调优选择性能最优的卷积算子,结合离线编译、内存池、16 b量化、网络规模裁剪等方法,来提升卷积神经网络的性能.最后在AMD V1605B平台上进行实验验证算法的效果,通过和其他GEMM算法以及深度学习网络的性能进行对比,验证了该方法能够获得比GEMM算法和Winograd算法更好的加速效果,并能有效地加速卷积神经网络.  相似文献   

10.
针对深度卷积特征目标跟踪算法中特征提取计算量大、速度慢、难以在嵌入式平台上应用的问题,提出了一种基于PYNQ框架的目标跟踪方案,并将其部署在Zynq异构平台。首先设计基于深度卷积特征的目标跟踪算法;根据算法的特点进行软硬件划分,完成片上系统的构建;然后针对深度卷积特征提取的计算过程进行并行优化,导出加速IP核;最后在PYNQ框架中通过Jupyter Notebooks,使用Python语言调用加速IP核作为硬件协处理器,实现底层到顶层的数据交互。实验结果表明,算法在通用数据集OTB-2015、UAV123上取得了良好的跟踪精度;跟踪速度与未集成加速IP核时相比,提升可达30倍。在兼顾跟踪稳健性的情况下,异构跟踪系统执行效率高,可移植性好,具有工程应用价值。  相似文献   

11.
针对目前视频拼接系统实时性不高、拼接效果不理想、成本高等问题,对传统的ORB算法进行了改进,并采用软硬件协同设计的方法,在Zynq平台上实现了一款视频实时拼接系统.该系统利用Zynq的PS搭建嵌入式Linux系统,进行用户界面开发,实现任务调度;利用Vivado HLS工具将改进的视频拼接算法进行硬件加速并部署到Zyn...  相似文献   

12.
为提升轻量级卷积神经网络在硬件平台的资源利用效率和推理速度,基于软硬件协同优化的思想,提出一种面向FPGA平台的轻量级卷积神经网络加速器,并针对网络结构的特性设计专门的硬件架构。与多级并行策略结合,设计一种统一的卷积层计算单元。为降低模型存储成本、提高加速器的吞吐量,提出一种基于可微阈值的选择性移位量化方案,使计算单元能够以硬件友好的形式执行计算。实验结果表明,在Arria 10 FPGA平台上部署的MobileNetV2加速器能够达到311 fps的推理速度,相比CPU版本实现了约9.3倍的加速比、GPU版本约3倍的加速比。在吞吐量方面,加速器能够实现98.62 GOPS。  相似文献   

13.
计算机视觉旨在通过计算机模拟人的视觉系统,让计算机学会"看",是人工智能、神经科学研究的一个热点。作为计算机视觉的经典任务,图像分类吸引了越来越多的研究,尤其是基于神经网络的算法在各种分类任务上表现优异。然而,传统浅层人工神经网络特征学习能力不强、生物可解释性不足,而深层神经网络存在过拟合、高功耗的缺点,因此在低功耗环境下具有生物可解释性的图像分类算法研究仍然是一个具有挑战性的任务。为了解决上述问题,结合脉冲神经网络,设计并实现了一种基于Jetson TK1和脉冲神经网络的图像分类算法。研究的主要创新点有:(1)设计了深度脉冲卷积神经网络算法,用于图像分类;(2)实现了基于CUDA改进的脉冲神经网络模型,并部署在Jetson TK1开发环境上。  相似文献   

14.
随着人工智能的兴起,应用于各种场景的神经网络算法蓬勃发展。这使得以卷积神经网络为代表的各类算法的通用边缘部署加速设计成为了一大难题。对此,提出了基于数据相关性原理和Roofline模型的一般性和通用性设计准则,并据此对神经网络进行面向硬件加速的并行化设计。对卷积层、池化层和全连接层这3个最重要的部分进行了优化,基于优化后的模块可根据应用场景需求搭建各种卷积神经网络,从而实现通用性设计。以LeNet-5网络为对象,在XILINX ZC702和XILINX ZC706 FPGA平台上分别以MNIST测试集为基准验证,对各层优化后基于高层次综合构建的交互式识别系统,在XILINX ZC702平台上达到了95.09%的准确率和每幅图像4.1 ms的推理速度,在XILINX ZC706平台上达到了相同的准确率和每幅图像0.997 ms的推理速度,二者都具备了很高的处理速度。  相似文献   

15.
针对卷积神经网络在嵌入式系统需要耗费大量计算资源、计算复杂度高等问题,提出一种基于ZYNQ系列FPGA的加速方法。通过HLS工具对卷积神经网络加速器进行设计,提出相邻层位宽合并和权重参数重排序的策略实现数据传输的优化,利用卷积分解、并行展开充分发挥FPGA并行计算的优势。为验证卷积神经网络加速器的加速效果,将YOLO目标检测模型进行部署。实验结果表明,在PYNQ-Z2上达到了39.39GOP/s的计算性能,是intel i5-2400 CPU的3.4倍,是ARM-Cortex A9 CPU的147.5倍。在相同FPGA平台上与之前的工作相较也有更高的性能。  相似文献   

16.
为提升辅助维修技术在实际工程应用中的性能,解决嵌入式设备性能有限,难以实现实时物体识别任务这一问题,以提高轻量级卷积神经网络在嵌入式平台中的识别速度为目标,提出一种基于通道剪枝和量化的综合卷积神经网络压缩方法.以MobileNet V3模型进行实验,其结果表明,该卷积神经网络压缩方法有效压缩了网络结构,在识别精度损失可接受的情况下,实现了目标物体在嵌入式平台上的实时识别.  相似文献   

17.
卷积神经网络算法由于良好的性能已经广泛使用在自动驾驶、语音识别和图像分类等领域,为增强学生学习和利用卷积神经网络算法的能力,文章设计在Android平台上基于Tensor Flow卷积神经网络的手写数字识别实验,并说明实施过程,同时介绍卷积神经网络算法、Android平台相关技术原理和实验过程。  相似文献   

18.
本文基于ESP32微控制器设计了一种轻量化的卷积神经网络用于自动识别水表的数字读数,该神经网络通过Tensorflow Lite深度学习开源框架部署到微控制器上,通过OV2640摄像头采集图像并传输给ESP32微控制器调用神经网络模型执行数字分类推理,实现读数识别.实验结果表明,该网络模型可以部署在硬件资源有限的ESP32微控制器上运行,对于清晰数字样本的预测准确率可达96%以上.  相似文献   

19.
FPGA因具有较好的并行处理能力和灵活性,使其在卷积神经网络硬件加速计算中得到广泛的应用,但是传统的FPGA图像卷积实现中存在模块化设计以及空间开销较大的问题.本文提出了一种面向硬件加速的通用图像卷积开发平台.通过模块化设计,极大提高针对不同卷积核实现图像卷积开发的灵活性;另外通过图像批次处理技术,充分利用数据重复性实...  相似文献   

20.
《微型机与应用》2019,(11):96-101
近年来,卷积神经网络(CNN)在计算机视觉任务中得到了广泛的应用,可编程逻辑门阵列(FPGA)以其高性能、高能效、高灵活性等优点被广泛应用于CNN的加速。提出了一种基于FPGA的卷积神经网络加速器的设计与实现方法,以期在资源和功耗受限的平台中为CNN的计算提供加速。以VC707开发板为FPGA平台,设计了一种新的卷积神经网络Do Net,可以实现对Minist手写数据集的识别分类。测试结果表明,基于FPGA实现的Do Net对Minist数据集的识别准确率为95%,测试显示的识别时间为0. 545 ms,功耗为1. 95 W。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号