期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

吴健顾明剑曾长紊邵春沅范余茂《计算机工程与设计》2022,(6):1572-1581

针对卷积神经网络在嵌入式系统需要耗费大量计算资源、计算复杂度高等问题,提出一种基于ZYNQ系列FPGA的加速方法。通过HLS工具对卷积神经网络加速器进行设计,提出相邻层位宽合并和权重参数重排序的策略实现数据传输的优化,利用卷积分解、并行展开充分发挥FPGA并行计算的优势。为验证卷积神经网络加速器的加速效果,将YOLO目标检测模型进行部署。实验结果表明,在PYNQ-Z2上达到了39.39GOP/s的计算性能,是intel i5-2400 CPU的3.4倍,是ARM-Cortex A9 CPU的147.5倍。在相同FPGA平台上与之前的工作相较也有更高的性能。相似文献

2.

轻量级卷积神经网络的硬件加速方法

吕文浩支小莉童维勤《计算机工程与设计》2024,(3):699-706

为提升轻量级卷积神经网络在硬件平台的资源利用效率和推理速度,基于软硬件协同优化的思想,提出一种面向FPGA平台的轻量级卷积神经网络加速器,并针对网络结构的特性设计专门的硬件架构。与多级并行策略结合,设计一种统一的卷积层计算单元。为降低模型存储成本、提高加速器的吞吐量,提出一种基于可微阈值的选择性移位量化方案,使计算单元能够以硬件友好的形式执行计算。实验结果表明,在Arria 10 FPGA平台上部署的MobileNetV2加速器能够达到311 fps的推理速度,相比CPU版本实现了约9.3倍的加速比、GPU版本约3倍的加速比。在吞吐量方面,加速器能够实现98.62 GOPS。相似文献

3.

基于ZYNQ的优化Adaboost人脸检测

下载免费PDF全文

高树静王程龙董廷坤《计算机工程与应用》2020,56(6):201-206

针对目前大多数嵌入式人脸检测系统实时性差的问题,通过优化的人脸检测算法和软硬件协同处理方式达到加速人脸检测的目的。基于ZYNQ SoC架构下,利用YCbCr肤色空间算法在FPGA部分加速提取肤色区域,利用优化的Adaboost算法与Phash算法在双核ARM中完成人脸检测与追踪,输出检测到的人脸。实验表明,提出的优化人脸检测算法相比传统的Adaboost人脸检测算法更具实时性,并且通过合理的软硬件协同处理也可以加快人脸检测速率,同时减少系统硬件资源消耗量从而降低成本。相似文献

4.

SAF-CNN：面向嵌入式FPGA的卷积神经网络稀疏化加速框架

谢坤鹏仪德智刘义情刘航赫鑫宇龚成卢冶《计算机研究与发展》2023,(5):1053-1072

传统的卷积神经网络加速器及推理框架在资源约束的FPGA上部署模型时,往往面临设备种类繁多且资源极端受限、数据带宽利用不充分、算子操作类型复杂难以适配且调度不合理等诸多挑战.提出一种面向嵌入式FPGA的卷积神经网络稀疏化加速框架（sparse acceleration framework of convolutional neural network, SAF-CNN）,通过软硬件协同设计的方法,从硬件加速器与软件推理框架2个角度进行联合优化.首先, SAF-CNN构建并行计算阵列,并且设计并行编解码方案,实现单周期多数据的传输,有效减少通信代价.其次,设计细粒度结构化块划分剪枝算法,于输入通道维度进行块内裁剪来获得稀疏且规则的权重矩阵,借此显著降低计算规模和DSP乘法器等资源占用.然后,提出一种兼容深度可分离卷积的输入通道维度动态拓展及运行时调度策略,实现输入通道参数灵活适配与逐通道卷积和逐点卷积的资源复用.最后,提出一种计算图重构及硬件算子融合优化方法,提升硬件执行效率.实验采用2种资源受限的低端FPGA异构平台Intel CycloneV与Xilinx ZU3EG,结果表明SAF-... 相似文献

5.

面向云端FPGA的卷积神经网络加速器的设计及其调度

蔡瑞初余洋钟椿荣卢冶陈瑶《计算机应用研究》2020,37(1):172-177,182

卷积神经网络的高计算复杂性阻碍其广泛用于实时和低功耗应用,现有软件实现方案难以满足其对运算性能与功耗的要求,传统面向FPGA的卷积神经网络构造方式具有流程复杂、周期较长和优化空间较小等问题。针对该问题,根据卷积神经网络计算模式的特点,提出一种面向云端FPGA的卷积神经网络加速器的设计及其调度机制。通过借鉴基于HLS技术、引入循环切割参数和对卷积层循环重排的设计,采用模块化方式构造网络,并进行参数拓展以进一步优化加速器处理过程;通过分析系统任务和资源的特性总结调度方案,且从控制流和数据流两方面对其进行优化设计。与其他已有工作相比,提出的设计提供了一种同时具有灵活性、低能耗、高能效和高性能的解决方案,并且探讨了加速器的高效通用调度方案。实验结果表明,该加速器可在有效提高运算整速度的同时减少功耗。相似文献

6.

基于Zynq7000 FPGA异构平台的YOLOv2加速器设计与实现

《计算机科学与探索》2019,(10):1677-1693

当前,卷积神经网络已在图像分类、目标检测等计算机视觉领域被广泛应用。然而,在前向推断阶段,许多实际应用往往具有低延时和严格的功耗限制。针对该问题,采用参数重排序、多通道数据传输等优化策略,设计并实现了一种基于FPGA的SIMD卷积神经网络加速器架构。以YOLOv2目标检测算法为例,介绍了将卷积神经网络模型映射到FPGA上的完整流程;对加速器的性能和资源耗费进行深入分析和建模,将实际传输延时考虑在内,缩小了加速器理论时延与实际时延的误差;改进了加速器架构中的输入和输出模块,有效提高了总线带宽的实际利用率。实验结果表明,在Zedboard上获得了30.15 GOP/s的性能,与Xeon E5-2620 v4CPU相比,能效是其120.4倍,性能是其7.3倍;与双核ARM-A9 CPU相比,能效是其86倍,性能是其112.9倍。相似文献

7.

高性能人脸识别加速器优化设计及FPGA实现

下载免费PDF全文

吴进张伟华席萌代巍《计算机工程与应用》2020,56(22):48-54

计算机视觉的快速发展对嵌入式产品的系统性能要求越来越高,传统的现场可编程门阵列（Field Programmable Gate Array,FPGA）平台存在计算吞吐未能很好匹配内存带宽,通用处理器对卷积神经网络（Convolutional Neural Network,CNN）的实现效率不高,未能满足性能要求等问题。针对以上设计瓶颈,使用经典的LeNet-5神经网络模型,在Xilinx ZC706嵌入式开发平台上设计了一个高性能的人脸识别神经网络加速器,在高层次综合（High Level Synthesis,HLS）工具的基础上通过存储优化、定点量化、运算优化等方法对神经网络模型进行优化改进,实现了7层的CNN加速器。实验结果表明,CNN加速器的工作频率为200 MHz,相较于CPU,加速器实现了126倍加速,相较于GPU速度提升10倍以上,并且功耗仅为2.62 W。相似文献

8.

改进YOLOv4的人脸口罩检测与硬件加速

苏文俊张学军许先富谭伊璇李斌班艳娇《计算机工程与设计》2023,(3):798-806

针对YOLOv4的人脸口罩检测参数量和计算量大,难以部署到硬件资源有限的嵌入式设备问题,提出一种轻量型YOLOv4算法,并设计卷积神经网络硬件加速器。将骨干网络替换成MobileNetv2,使用深度可分离卷积替换掉部分普通卷积,压缩网络结构;改进SPP模块以满足Vitis AI支持的池化窗口尺寸;在颈部网络中,增加CSP结构使网络更容易优化。实验结果表明,改进的算法牺牲0.25%的检测精度,压缩84.42%的模型大小。在ZYNQ上,mAP达到95.16%,DPU平均利用率减少38%。相似文献

9.

面向卷积神经网络加速器吞吐量优化的FPGA自动化设计方法

《计算机辅助设计与图形学学报》2018,(11)

针对卷积神经网络FPGA加速器的资源分配与频率设置欠佳导致吞吐量受限的问题,提出一种面向吞吐量优化的自动化设计方法.首先将加速器的设计分为并行策略和频率设计,提出总体设计流程;然后将设计空间探索建模为线段分割问题,采用遗传算法及贪心算法求解;最后根据求解出的并行策略完成加速器的结构设计,根据求解出的预期运行频率对加速器的布局布线优化,使实际频率可以达到预期.对AlexNet及VGG-16模型在目标器件AlteraDE5a-Net的设计实验结果表明,文中方法能有效地提升资源使用效率并给出合理频率设置;相比于其他卷积神经网络FPGA加速器设计方法,该方法可提升AlexNet和VGG-16的吞吐量82.95%和66.19%. 相似文献

10.

一种高效的稀疏卷积神经网络加速器的设计与实现

下载免费PDF全文

余成宇李志远毛文宇鲁华祥《智能系统学报》2020,15(2):323-333

针对卷积神经网络计算硬件化实现困难的问题,之前大部分卷积神经网络加速器的设计都集中于解决计算性能和带宽瓶颈,忽视了卷积神经网络稀疏性对加速器设计的重要意义,近来少量的能够利用稀疏性的卷积神经网络加速器设计也往往难以同时兼顾计算灵活度、并行效率和资源开销。本文首先比较了不同并行展开方式对利用稀疏性的影响,分析了利用稀疏性的不同方法,然后提出了一种能够利用激活稀疏性加速卷积神经网络计算的同时,相比于同领域其他设计,并行效率更高、额外资源开销更小的并行展开方法,最后完成了这种卷积神经网络加速器的设计并在FPGA上实现。研究结果表明:运行VGG-16网络,在ImageNet数据集下,该并行展开方法实现的稀疏卷积神经网络加速器和使用相同器件的稠密网络设计相比,卷积性能提升了108.8%,整体性能提升了164.6%,具有明显的性能优势。相似文献

11.

多分支卷积神经网络的FPGA设计与优化

谢思璞魏榕山《电子技术应用》2021,47(7):97-101

针对拓宽神经网络的结构会导致计算量增大,计算性能降低,需要针对并行的网络进行更有效的优化以及调度.通过分析FPGA平台上实现卷积神经网络的计算吞吐量和所需的带宽,在计算资源和访存带宽的限制下,采用了屋顶模型进行了设计空间的探索,提出了在不同支的卷积神经网络中使用不同的循环展开因子,从而实现同一卷积层中不同支神经网络的并... 相似文献

12.

面向多核向量加速器的卷积神经网络推理和训练向量化方法

陈杰李程刘仲《计算机工程与科学》2024,(4):580-589

随着以卷积神经网络为代表的深度学习得到广泛应用,神经网络模型中的计算量也急速增长,推动了深度学习加速器的发展。如何针对加速器硬件的体系结构特性进行加速和优化神经网络模型的性能成为研究热点。针对自主设计的多核向量加速器FT-M7004上的VGG网络模型推理和训练算法,分别提出了卷积、池化和全连接等核心算子的向量化映射方法,采用SIMD向量化、DMA双缓冲传输和权值共享等优化策略,充分发挥了向量加速器的体系结构优势,取得了较高的计算效率。实验结果表明,在FT-M7004平台上,卷积层推理和训练的平均计算效率分别达到了86.62%和69.63%;全连接层推理和训练的平均计算效率分别达到了93.17%和81.98%;VGG网络模型在FT-M7004上的推理计算效率超过GPU平台20%以上。相似文献

13.

FPGA平台轻量化卷积神经网络辐射源信号识别方法

肖帅龚帅阁李想王昊陶诗飞《计算技术与自动化》2023,(4):140-146

针对卷积神经网络计算资源消耗大、难以在边缘侧应用等问题,提出了一种面向FPGA (Field Programmable Gate Array)平台的基于知识蒸馏的轻量化卷积神经网络辐射源信号识别方法。该方法以信号时频图作为特征提取对象,结合改进的知识蒸馏方法对卷积神经网络进行轻量化处理,通过注意力图增强知识信息传递,并融合深度可分离卷积,进一步提高网络稀疏度。最后,将该轻量化网络在FPGA平台上进行结构优化,通过改进循环策略和流水线并行设计,加速轻量化卷积神经网络的辐射源信号识别过程。仿真结果显示,利用本文提出的轻量化卷积神经网络辐射源信号识别算法,网络参数量降低了81.8%,在信噪比不低于-12dB的条件下,信号识别准确率达到了90%以上,FPGA平台信号识别时间为86ms,平均功耗为2W,可满足边缘侧终端对信号实时检测以及低功耗的实际应用需求。相似文献

14.

基于Zynq的人脸检测设计

霍芋霖符意德《计算机科学》2016,43(10):322-325

针对目前大多嵌入式人脸检测系统因资源限制而导致的软件方式实现速度较慢的问题,提出利用软硬件协同的方法来加速人脸检测。在Zynq-7000平台的基础上,使用C语言实现了基于AdaBoost级联分类器的人脸检测算法,并测试了各个模块的运行时间。结合算法实现的具体过程及其繁复程度给出了硬件加速方案。将检测算法计算量大而多的部分转移到硬件部分进行优化加速,在Zynq-7000平台上实现了软硬件协同的人脸检测,最后给出了相应模块的加速结果。相似文献

15.

孪生网络跟踪算法并行计算结构研究

卢金仪唐维伟徐文辉颜露新钟胜邹旭《测控技术》2021,40(3):39-45

基于嵌入式平台的复杂背景目标跟踪技术在智能视频监控设备、无人机跟踪等领域有重要作用.卷积神经网络在跟踪问题上有准确率高、鲁棒性强的优点,但基于卷积特征的算法计算复杂度高,受嵌入式平台面积和功耗的限制,实时性难以满足嵌入式平台应用场景的需求.针对基于卷积特征的跟踪算法计算复杂度高、存储参数量大的难题,率先提出一种利用FPGA实现基于卷积神经网络的复杂背景目标跟踪硬件加速架构.该方法通过利用KL相对熵对目标跟踪算法Siamese-FC进行定点量化,设计了基于通道并行的卷积层加速架构.实验结果表明,定点量化后跟踪算法相比于原算法的平均精度损失不超过4.57％,FPGA部署后前向推理耗时仅为CPU的16.15％,功耗仅为CPU的13.7％. 相似文献

16.

面向卷积神经网络的高并行度FPGA加速器设计

王晓峰蒋彭龙周辉赵雄波《计算机应用》2021,41(3):812-819

大多数基于卷积神经网络（CNN）的算法都是计算密集型和存储密集型的,很难应用于具有低功耗要求的航天、移动机器人、智能手机等嵌入式领域。针对这一问题,提出一种面向CNN的高并行度现场可编程逻辑门阵列（FPGA）加速器。首先,比较研究CNN算法中可用于FPGA加速的4类并行度;然后,提出多通道卷积旋转寄存流水（MCRP）结构,简洁有效地利用了CNN算法的卷积核内并行;最后,采用输入输出通道并行+卷积核内并行的方案提出一种基于MCRP结构的高并行度CNN加速器架构,并将其部署到XILINX的XCZU9EG芯片上,在充分利用片上数字信号处理器（DPS）资源的情况下,峰值算力达到2 304 GOPS。以SSD-300算法为测试对象,该CNN加速器的实际算力为1 830.33 GOPS,硬件利用率达79.44%。实验结果表明,MCRP结构可有效提高CNN加速器的算力,基于MCRP结构的CNN加速器可基本满足嵌入式领域大部分应用的算力需求。相似文献

17.

基于轻量级网络的人脸检测及嵌入式实现

下载免费PDF全文

张明张芳慧宗佳平宋治岑翼刚张琳娜《图学学报》2022,43(2):239-246

尽管基于卷积神经网络(CNN)的人脸检测器在精度上已经有了很大提升,但所需的计算量和模型复杂度越来越高,如何在计算能力有限的嵌入式设备上应用人脸检测模型是一个很大的挑战.针对320×240分辨率输入图像的人脸检测在嵌入式系统上的应用问题,提出了一种基于轻量级网络的低分辨率人脸检测算法.该算法使用注意力机制、结合了Dis... 相似文献

18.

基于ZYNQ平台的图像分类加速器设计与实现

周扬维尹震宇王军张飞青徐光远徐福龙《小型微型计算机系统》2024,(1):224-229

随着信息技术的不断发展,机器视觉技术已被广泛应用于智能产线.智能制造生产过程中工件种类多、外观相似性高,而传统分拣方式速度慢、准确率低,已无法满足智能化生产的要求.采用机器视觉技术来解决智能产线中的工件分类问题已成为当前智能制造领域的热点.为提高智能产线中工件分类的效率,本文设计并实现了一种基于ZYNQ平台的图像分类加速器.针对现有的卷积神经网络模型参数量大、难以部署到资源有限的嵌入式平台的问题,提出一种参数量较少、易于在嵌入式平台部署的图像分类网络SortNet;针对卷积神经网络在嵌入式平台速度慢的问题,设计了一种卷积与激活函数同构化的处理单元(CAFI-PE)以及一种基于流水线的数据调用方法(PDCM),提高了卷积计算的速度.实验结果表明,本文提出的图像分类加速器对224×224大小的灰度图像处理速度可达40.98fps,而功耗仅为2.305W,能够满足智能产线对工件分类速度和功耗的要求. 相似文献

19.

基于FPGA动态重构的卷积神经网络硬件架构设计

《微型机与应用》2019,(3):77-81

为了解决卷积神经网络硬件实现阶段的资源限制问题,提出了基于FPGA动态重构的卷积神经网络加速器设计。首先,设计了卷积神经网络加速器的整体并行策略和VLSI架构,并针对卷积神经网络的功能模块进行了流水线设计。其次,对卷积神经网络加速器进行动态重构设计,建立动态重构区域及其模块功能划分;并选用BPI Flash存储配置文件,通过内部配置端口读取配置文件对动态重构区域进行动态配置。实验结果表明,针对Lenet-5手写体识别网络,基于动态重构设计的加速器与相应的静态设计相比,使用的Slice LUTs、Slice Registers与DSP资源分别减少44%、27. 8%与71%。与基于软件平台实现作对比,系统执行时间大幅度降低。但是由于内部配置端口的带宽限制,重构配置时间延长了整个卷积网络的执行时间。相似文献

20.

基于卷积网络加速器的FPGA数据处理研究

李政清穆继亮《计算机仿真》2022,39(3):244-248

在FPGA数据处理应用场合中,引入神经网络能够提高数据特征的学习能力.但是基于非嵌入式的神经网络在运算过程中通常具有显著的复杂性和稀疏性,难以直接应用于FPGA上.于是,为了提高FPGA在数据处理时的并行性和高效性,设计了基于卷积网络加速器的FPGA数据处理架构.首先对卷积网络的层进行优化设计,采用ReLU函数来加速卷... 相似文献