首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 203 毫秒
1.
基于嵌入式平台的复杂背景目标跟踪技术在智能视频监控设备、无人机跟踪等领域有重要作用.卷积神经网络在跟踪问题上有准确率高、鲁棒性强的优点,但基于卷积特征的算法计算复杂度高,受嵌入式平台面积和功耗的限制,实时性难以满足嵌入式平台应用场景的需求.针对基于卷积特征的跟踪算法计算复杂度高、存储参数量大的难题,率先提出一种利用FPGA实现基于卷积神经网络的复杂背景目标跟踪硬件加速架构.该方法通过利用KL相对熵对目标跟踪算法Siamese-FC进行定点量化,设计了基于通道并行的卷积层加速架构.实验结果表明,定点量化后跟踪算法相比于原算法的平均精度损失不超过4.57%,FPGA部署后前向推理耗时仅为CPU的16.15%,功耗仅为CPU的13.7%.  相似文献   

2.
为满足卷积神经网络业务处理的灵活性和高性能需求,提出一种基于软件定义的可重构卷积神经网络架构.该架构采用归一化处理流程实现卷积层网络的动态重构与运算模式的加速.采用AHB和AXI的双总线架构,实现卷积神经网络的流水计算.通过软件定义在FPGA上实现了不同网络结构下的数据集实时处理.实验结果表明,所设计的FPGA电路能够...  相似文献   

3.
现有的卷积神经网络由于其结构复杂且依赖的数据集庞大,难以满足某些实际应用或者计算平台对运算性能的要求和能耗的限制。针对这些应用或计算平台,对基于ARM+FPGA平台的二值化算法进行了研究,并设计了二值神经网络,该网络减少了数据对存储单元的需求量,也降低了运算的复杂度。在ARM+FPGA平台内部实现时,通过将卷积的乘累加运算转换为XNOR逻辑运算和popcount等操作,提高了整体的运算效率,降低了对能源和资源的消耗。同时,根据二值神经网络中数据存储的特点提出了新的行处理改进算法,提高了网络的吞吐量。该实现方式在GOPS、能源和资源效率方面均优于现有的FPGA神经网络加速方法。  相似文献   

4.
目前在中央处理器(CPU)中,卷积神经网络存在速度慢、功耗高的缺点,针对深度学习中的卷积神经网络所需计算时间长、消耗资源多、卷积运算量大的问题,提出了使用现场可编程门阵列(FPGA)硬件平台对卷积神经网络图像识别系统进行加速,对卷积神经网络的进行算法改进和加速。设计了卷积层并行计算的流水线模块和池化层改进模块,还通过数据量化的方式减少FPGA资源耗费。最后,使用MINST数据集对算法进行评估,在Zynq7010和CPU上进行验证。实验结果表明,设计的方法资源占用率低,识别速度快,适合实际领域使用。  相似文献   

5.
针对神经网络训练加速器中存在权重梯度计算效率低的问题,设计了一种高性能卷积神经网络(CNN)训练处理器的浮点运算优化架构。在分析CNN训练架构基本原理的基础上, 提出了包括32bit、24bit、16bit和混合精度的训练优化架构,从而找到适用于低能耗且更小尺寸边缘设备的最佳浮点格式。通过现场可编程门阵列(FPGA)验证了加速器引擎可用于MNIST手写数字数据集的推理和训练,利用24bit自定义浮点格式与16bit脑浮点格式相结合构成混合卷积24bit浮点格式的准确率可达到93%以上。运用台积电55nm芯片实现优化混合精度加速器,训练每幅图像的能耗为8.51μJ。  相似文献   

6.
深度卷积神经网络具有模型大、计算复杂度高的特点,难以部署到硬件资源有限的现场可编程门阵列(FPGA)中。混合精度卷积神经网络可在模型大小和准确率之间做出权衡,从而为降低模型内存占用提供有效方案。快速傅里叶变换作为一种快速算法,可将传统空间域卷积神经网络变换至频域,从而有效降低模型计算复杂度。提出一个基于FPGA的8 bit和16 bit混合精度频域卷积神经网络加速器设计。该加速器支持8 bit和16 bit频域卷积的动态配置,并可将8 bit频域乘法运算打包以复用DSP,用来提升计算性能。首先设计一个基于DSP的频域计算单元,支持8 bit和16 bit频域卷积运算,通过打包一对8 bit频域乘法以复用DSP,从而提升吞吐率。然后提出一个映射数据流,该数据流支持8 bit和16 bit计算两种形式,通过数据重用方式最大化减少冗余数据处理和数据搬运操作。最后使用ImageNet数据集,基于ResNet-18与VGG16模型对所设计的加速器进行评估。实验结果表明,该加速器的能效比(GOP与能耗的比值)在ResNet-18和VGG16模型上分别达到29.74和56.73,较频域FPGA加速器...  相似文献   

7.
近年来,卷积神经网络在许多领域中发挥着越来越重要的作用,然而功耗和速度是限制其应用的主要因素.为了克服其限制因素,设计一种基于FPGA平台的卷积神经网络并行加速器,以Ultra96-V2为实验开发平台,而且卷积神经网络计算IP核的设计实现采用了高级设计综合工具,使用Vivado开发工具完成了基于FPGA的卷积神经网络加...  相似文献   

8.
《计算机科学与探索》2019,(10):1677-1693
当前,卷积神经网络已在图像分类、目标检测等计算机视觉领域被广泛应用。然而,在前向推断阶段,许多实际应用往往具有低延时和严格的功耗限制。针对该问题,采用参数重排序、多通道数据传输等优化策略,设计并实现了一种基于FPGA的SIMD卷积神经网络加速器架构。以YOLOv2目标检测算法为例,介绍了将卷积神经网络模型映射到FPGA上的完整流程;对加速器的性能和资源耗费进行深入分析和建模,将实际传输延时考虑在内,缩小了加速器理论时延与实际时延的误差;改进了加速器架构中的输入和输出模块,有效提高了总线带宽的实际利用率。实验结果表明,在Zedboard上获得了30.15 GOP/s的性能,与Xeon E5-2620 v4CPU相比,能效是其120.4倍,性能是其7.3倍;与双核ARM-A9 CPU相比,能效是其86倍,性能是其112.9倍。  相似文献   

9.
针对卷积神经网络计算资源消耗大、难以在边缘侧应用等问题,提出了一种面向FPGA (Field Programmable Gate Array)平台的基于知识蒸馏的轻量化卷积神经网络辐射源信号识别方法。该方法以信号时频图作为特征提取对象,结合改进的知识蒸馏方法对卷积神经网络进行轻量化处理,通过注意力图增强知识信息传递,并融合深度可分离卷积,进一步提高网络稀疏度。最后,将该轻量化网络在FPGA平台上进行结构优化,通过改进循环策略和流水线并行设计,加速轻量化卷积神经网络的辐射源信号识别过程。仿真结果显示,利用本文提出的轻量化卷积神经网络辐射源信号识别算法,网络参数量降低了81.8%,在信噪比不低于-12dB的条件下,信号识别准确率达到了90%以上,FPGA平台信号识别时间为86ms,平均功耗为2W,可满足边缘侧终端对信号实时检测以及低功耗的实际应用需求。  相似文献   

10.
张佳康  陈庆奎 《计算机工程》2010,36(15):179-181
针对具有高浮点运算能力的流处理器设备GPU对神经网络的适用性问题,提出卷积神经网络的并行化识别算法,采用计算统一设备架构(CUDA)技术,并定义其上的并行化数据结构,描述计算任务到CUDA的映射机制。实验结果证明,在GTX200硬件架构的GPU上实现的并行识别算法的平均浮点运算能力峰值较CPU上串行算法提高了近60倍,更适用于神经网络的相关应用。  相似文献   

11.
近年来,随着可重构计算方法和可重构硬件特性的不断演进,基于FPGA动态部分重构技术构建运行时可重构加速器已经成为解决传统加速器设计中硬件资源限制问题的重要途径.然而,区别于传统静态重构加速器,FPGA的动态重构开销是影响硬件加速整体性能的重要因素,而目前尚缺少能够在可重构硬件设计的早期阶段进行动态重构开销精确估算的相关...  相似文献   

12.
计算机视觉的快速发展对嵌入式产品的系统性能要求越来越高,传统的现场可编程门阵列(Field Programmable Gate Array,FPGA)平台存在计算吞吐未能很好匹配内存带宽,通用处理器对卷积神经网络(Convolutional Neural Network,CNN)的实现效率不高,未能满足性能要求等问题。针对以上设计瓶颈,使用经典的LeNet-5神经网络模型,在Xilinx ZC706嵌入式开发平台上设计了一个高性能的人脸识别神经网络加速器,在高层次综合(High Level Synthesis,HLS)工具的基础上通过存储优化、定点量化、运算优化等方法对神经网络模型进行优化改进,实现了7层的CNN加速器。实验结果表明,CNN加速器的工作频率为200 MHz,相较于CPU,加速器实现了126倍加速,相较于GPU速度提升10倍以上,并且功耗仅为2.62 W。  相似文献   

13.
从网络包转发性能角度出发,通过实验深入分析DPDK对虚拟网络功能的加速效果及CPU资源消耗情况,并对单节点资源分配问题进行研究,证明了该问题是NP难类型,提出了基于贪心算法的启发式VNF资源分配算法。在此基础上,针对网络负载的潮汐现象,提出了一种基于网络负载的虚拟网络功能实例自动切换方案。实验结果显示,相较传统方式,该方案在高负载情况下VNF性能提升了20%。  相似文献   

14.
提出一种利用模拟退火和混合递阶遗传算法优化RBF神经网络的方法。通过利用混合递阶遗传算法对RBF神经网络的拓扑结构、径向基中心和半径进行参数寻优,引入模拟退火算法对交叉和变异概率进行控制,采用最小二乘法确定网络的输出权值。将此方法应用于典型实例,并与其他四种方法进行对比,通过试验结果证明了该方法的准确率明显优于其他四种方法,方法的可行性和优越性得到验证。  相似文献   

15.
近年来,微电子技术进入到纳电子/集成微系统时代,SIP(System in Package)和SOC(System on Chip)是微系统实现的两种重要技术途径;基于神经网络的深度学习技术在图形图像、计算机视觉和目标识别等方面得以广泛应用。卷积神经网络的深度学习技术在嵌入式平台的小型化、微型化是一项重要研究领域。如何将神经网络轻量化和微系统相结合,达到性能、体积和功耗的最优化平衡是一难点。介绍了一款将SIP技术和基于FPGA的卷积神经网络相结合的微系统实现方案,它以Zynq SOC和FLASH、DDR3存储器为主要组成,利用SIP高密度系统封装技术进行集成,在其中的PL端(FPGA)采用HLS来设计CNN(Convolutional Neural Network,卷积神经网络)中的卷积层和池化层,生成IP核,分时复用构建微系统,设计实现了Micro_VGGNet轻量化模型。测试采用MNIST手写数字数据集作为训练和测试样本,该微系统能够实准确识别手写数字,准确率达到98.1%。体积仅为30 mm×30 mm×1.2 mm,在100 MHz工作频率下,?图像处理速度可达到20.65 FPS,功耗仅为2.1 W,实现了轻量化神经网络微系统的多目标平衡(性能、体积和功耗)。  相似文献   

16.
随着无人机(unmanned aerial vehicle,UAV)在航拍、空中侦察等相关领域被广泛应用,对于无人机的智能化需求逐渐提高.目标跟踪具有信息量大、实时性高等优点,能够为无人机的智能飞行提供大量且实时的外部信息.进行低开销、低功耗的无人机目标跟踪系统的研究,对无人机智能化进程的加速具有深远意义.为更好解决跟...  相似文献   

17.
递归神经网络(RNN)近些年来被越来越多地应用在机器学习领域,尤其是在处理序列学习任务中,相比CNN等神经网络性能更为优异。但是RNN及其变体,如LSTM、GRU等全连接网络的计算及存储复杂性较高,导致其推理计算慢,很难被应用在产品中。一方面,传统的计算平台CPU不适合处理RNN的大规模矩阵运算;另一方面,硬件加速平台GPU的共享内存和全局内存使基于GPU的RNN加速器的功耗比较高。FPGA 由于其并行计算及低功耗的特性,近些年来被越来越多地用来做 RNN 加速器的硬件平台。对近些年基于FPGA的RNN加速器进行了研究,将其中用到的数据优化算法及硬件架构设计技术进行了总结介绍,并进一步提出了未来研究的方向。  相似文献   

18.
为了实现反向传播(back propagation,BP)神经网络的现场可编程门阵列(field programmable gate array,FPGA)处理速度的提升和资源消耗的降低,提出一种总体设计和关键模块融合优化的BP神经网络的FPGA实现结构。利用定点数据量化和流水线结构,提高系统的处理速度;采用二次方程多段拟合Sigmoid激活函数,降低计算复杂度;通过调整并行转串行模块与激活函数模块的处理顺序,减少了95%的激活函数模块的使用,降低了资源消耗;采用一种网络原始权值读取与更新权值存储交替流水进行的双端口RAM存取方法,以提高数据存取的速度、降低存储资源消耗。经过对硬件优化设计的字符和服装识别实验验证,结果表明,优化后的总逻辑单元使用率为原来的31%。在FPGA中优化结构实现单样本前向传播与反向传播所用时间为24.332μs,为软件MATLAB实现时间的45.63%,提高了BP神经网络的运算速度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号