期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

王晓峰蒋彭龙周辉赵雄波《计算机应用》2021,41(3):812-819

大多数基于卷积神经网络（CNN）的算法都是计算密集型和存储密集型的,很难应用于具有低功耗要求的航天、移动机器人、智能手机等嵌入式领域。针对这一问题,提出一种面向CNN的高并行度现场可编程逻辑门阵列（FPGA）加速器。首先,比较研究CNN算法中可用于FPGA加速的4类并行度;然后,提出多通道卷积旋转寄存流水（MCRP）结构,简洁有效地利用了CNN算法的卷积核内并行;最后,采用输入输出通道并行+卷积核内并行的方案提出一种基于MCRP结构的高并行度CNN加速器架构,并将其部署到XILINX的XCZU9EG芯片上,在充分利用片上数字信号处理器（DPS）资源的情况下,峰值算力达到2 304 GOPS。以SSD-300算法为测试对象,该CNN加速器的实际算力为1 830.33 GOPS,硬件利用率达79.44%。实验结果表明,MCRP结构可有效提高CNN加速器的算力,基于MCRP结构的CNN加速器可基本满足嵌入式领域大部分应用的算力需求。相似文献

2.

基于 FPGA 的深度可分离卷积加速器研究

下载免费PDF全文

画芊昊李博杜宸罡《计算机测量与控制》2024,32(5):267-273

设计了一种基于FPGA的低功耗深度可分离卷积加速核;根据PW卷积和DW卷积计算中的共性,采用一种固定乘法阵列通过改变特征和权重输入数据流的方式实现两种卷积的计算结构,最大化DSP的利用率;针对8位非对称量化中符号位可能会溢出的问题,采用符号位单独处理的方法重新封装了双乘法器结构;通过层内7级流水结构保证每个周期数据处理的并行度;在Zynq UltraScale+系列FPGA上成功部署了加速结构;经实验测试,提出的加速结构在提高网络推理速度的同时降低了片上资源的依赖度和整体功耗,原生MobilenetV2在所提FPGA加速器上的平均吞吐率高达130.6GOPS且整体功耗只有4.1w,满足实时边缘计算的要求;相比其他硬件平台,能效比有明显提升;与FPGA上的同类型加速器相比,在性能密度（GOPS/LUT）、功率效率（GOPS/W）和DSP效率（GOPS/DSP）上均有优势。相似文献

3.

轻量级卷积神经网络的硬件加速方法

吕文浩支小莉童维勤《计算机工程与设计》2024,(3):699-706

为提升轻量级卷积神经网络在硬件平台的资源利用效率和推理速度,基于软硬件协同优化的思想,提出一种面向FPGA平台的轻量级卷积神经网络加速器,并针对网络结构的特性设计专门的硬件架构。与多级并行策略结合,设计一种统一的卷积层计算单元。为降低模型存储成本、提高加速器的吞吐量,提出一种基于可微阈值的选择性移位量化方案,使计算单元能够以硬件友好的形式执行计算。实验结果表明,在Arria 10 FPGA平台上部署的MobileNetV2加速器能够达到311 fps的推理速度,相比CPU版本实现了约9.3倍的加速比、GPU版本约3倍的加速比。在吞吐量方面,加速器能够实现98.62 GOPS。相似文献

4.

基于FPGA的稀疏化卷积神经网络加速器

狄新凯杨海钢《计算机工程》2021,47(7):189-195,204

为消除卷积神经网络前向计算过程中因模型参数的稀疏性而出现的无效运算,基于现场可编程门阵列（FPGA）设计针对稀疏化神经网络模型的数据流及并行加速器。通过专用逻辑模块在输入通道方向上筛选出特征图矩阵和卷积滤波器矩阵中的非零点,将有效数据传递给由数字信号处理器组成的阵列做乘累加操作。在此基础上,对所有相关的中间结果经加法树获得最终输出特征图点,同时在特征图宽度、高度和输出通道方向上做粗颗粒度并行并寻找最佳的设计参数。在Xilinx器件上进行实验验证,结果表明,该设计实现VGG16卷积层综合性能达到678.2 GOPS,性能功耗比为69.45 GOPS/W,其性能与功耗指标较基于FPGA的稠密网络加速器和稀疏网络加速器有较大提升。相似文献

5.

一种微指令序列调度数据流的星载卷积神经网络FPGA加速器

郭子博刘凯胡航天李奕铎璩泽旭《计算机学报》2022,(10):2047-2064

卷积神经网络(Convolutional Neural Network,CNN)是目前主流视觉算法不可或缺的关键部分.为提高CNN模型推理速度,学界提出了众多异构加速方法以满足不同场景下的多元加速需求.但如何在资源与能耗受限的在轨卫星上稳定高效地加速CNN仍是极具挑战的课题.为此,本文通过软硬件协同设计,着力优化微指令编码、指令级并行和运算级并行3个加速器设计的关键部分,在星上常见的Xilinx VX690T FPGA芯片上设计实现了一种微指令序列调度数据流的CNN加速器.在软件层面,本文提出一种可扩展的微指令编码格式及相应的编译方法.通过卷积循环分块和算子融合策略实现图级别优化,生成加速器可执行的微指令序列.在硬件层面,本文设计实现了一个由微控制器与逻辑运算器组成的RTL级CNN加速器.微控制器通过粗粒度流水线实现各类指令的并行执行.逻辑运算器通过DSP48E1计算资源级联所构建的计算阵列实现卷积算子的细粒度并行运算.实验结果表明,加速器设计功耗10.68W,在加速YOLOV3Tiny算法时,峰值吞吐率(Runtime Max Throughput,RMT)达到378.63 GOP/... 相似文献

6.

基于FPGA的HEVC后处理CNN硬件加速器研究

夏珺钱磊严伟柴志雷《计算机工程与科学》2018,40(12):2126-2132

针对高效视频编解码标准中后处理CNN算法在通用平台运行时产生的高延时缺点,提出一种基于现场可编程逻辑门阵列（FPGA）的后处理卷积神经网络硬件并行架构。提出的并行架构通过改进输入与输出缓冲的数据并发过程,调整卷积模块整体并行度,加快模块硬件流水。实验结果表明,基于本文所提出的并行架构设计的CNN硬件加速器在Xilinx ZCU102上处理分辨率为176×144视频流,计算性能相当于每秒360.5 GFLOPS,计算速度可满足81.01 FPS,相比时钟频率4 GHz的Intel i7-4790K,计算速度加快了76.67倍,相比NVIDIA GeForce GTX 750Ti加速了32.50倍。在计算能效比方面,本文后处理CNN加速器功耗为12.095 J,能效比是Intel i7-4790K的512.90倍,是NVIDIA GeForce GTX 750Ti的125.78倍。相似文献

7.

基于FPGA的CNN加速SoC系统设计

赵烁范军何虎《计算机工程与设计》2020,41(4):939-944

为提高目前硬件运行卷积神经网络(CNN)的速度和能效,针对主流CNN网络的卷积计算设计加速模块并在FPGA上实现用于加速CNN网络的SoC系统。硬件平台采用带有ARM处理器的ZCU102 FPGA开发板,系统采用处理器和加速器的结构进行设计。加速器负责卷积计算,采用分块技术并重组卷积计算循环次序,使片上缓存的数据复用率更高,减少系统与内存之间数据的传输。支持1×1到11×11的卷积核尺寸,硬件支持的激活函数为ReLU和Leaky ReLU。处理器负责控制并处理CNN网络的其它计算,使SoC系统具有通用性和灵活性。实验结果表明,在100 MHz的工作频率下,峰值计算性能可以达到42.13 GFLOPS,相比CPU和其它FPGA计算的性能有一定提升。相似文献

8.

基于RISC-V处理器的卷积加速SoC系统设计

张坤宁赵烁何虎邓宁杨旭《计算机工程》2021,47(4):153-157

为提高卷积神经网络（CNN）的计算效率和能效,以8 bit定点数据作为输入,设计一个支持激活、批标准化以及池化等CNN网络中常见计算类型的卷积加速器,优化循环计算顺序并将其与数据复用技术相结合,以提高卷积计算的效率。基于软硬件协同设计思想,构建包含RISC-V处理器和卷积加速器的SoC系统,RISC-V处理器基于开源的指令集标准,可以根据具体的设计需求扩展指令功能。将该SoC系统部署在Xilinx ZCU102开发板上,RISC-V处理器和卷积加速器分别工作在100 MHz和300 MHz频率下,测试结果表明,该加速器的算力达到153.6 GOP/s,运行VGG16网络进行图片推理计算时加速效果较好。相似文献

9.

基于专用卷积神经网络加速器的编译器设计与实现

焦禹铭吴凯郭风祥王昭宋庆增《计算机应用》2022,(S1):208-214

不同框架深度学习模型部署是人工智能落地的核心,然而模型计算量和参数量过大、编程模型未统一导致了各种新型的专用卷积神经网络（CNN）加速器层出不穷,增加了模型的部署难度。对模型压缩和编译工具链这两个方面进行了改进：在模型压缩方面,提出新的通道剪枝标准,结合了通道的相关性和影响性以及输出通道对应的激活值,在保证精度的同时可以极大地削减卷积神经网络的计算量和参数量;在编译工具链方面,设计了一套自动的端到端优化堆栈,提出了针对基于现场可编程门阵列（FPGA）的深度学习编译器设计方法,并在中间表示中添加了所提出的排序标准的剪枝算法。实验结果表明,所设计的编译器于舰船目标检测的任务中,在通用设备上,保证精度损失不超过1%的情况下取得了1.3倍的加速效果;在专用的CNN加速器上取得了1.6倍的加速效果,在部署中能够有效地针对卷积网络进行加速。相似文献

10.

基于专用卷积神经网络加速器的编译器设计与实现

焦禹铭吴凯郭风祥王昭宋庆增《计算机应用》2022,(S1):208-214

不同框架深度学习模型部署是人工智能落地的核心,然而模型计算量和参数量过大、编程模型未统一导致了各种新型的专用卷积神经网络（CNN）加速器层出不穷,增加了模型的部署难度。对模型压缩和编译工具链这两个方面进行了改进：在模型压缩方面,提出新的通道剪枝标准,结合了通道的相关性和影响性以及输出通道对应的激活值,在保证精度的同时可以极大地削减卷积神经网络的计算量和参数量;在编译工具链方面,设计了一套自动的端到端优化堆栈,提出了针对基于现场可编程门阵列（FPGA）的深度学习编译器设计方法,并在中间表示中添加了所提出的排序标准的剪枝算法。实验结果表明,所设计的编译器于舰船目标检测的任务中,在通用设备上,保证精度损失不超过1%的情况下取得了1.3倍的加速效果;在专用的CNN加速器上取得了1.6倍的加速效果,在部署中能够有效地针对卷积网络进行加速。相似文献

11.

基于FPGA的量化CNN加速系统设计

巩杰赵烁何虎邓宁《计算机工程》2022,48(3):170-174+196

深度卷积神经网络（CNN）模型中卷积层和全连接层包含大量卷积操作,导致网络规模、参数量和计算量大幅增加,部署于CPU/GPU平台时存在并行计算性能差和不适用于移动设备环境的问题,需要对卷积参数做量化处理并结合硬件进行加速设计。现场可编程门阵列（FPGA）可满足CNN并行计算和低功耗的需求,并具有高度的灵活性,因此,基于FPGA设计CNN量化方法及其加速系统。提出一种通用的动态定点量化方法,同时对网络的各个层级进行不同精度的量化,以减少网络准确率损失和网络参数的存储需求。在此基础上,针对量化后的CNN设计专用加速器及其片上系统,加速网络的前向推理计算。使用ImageNet ILSVRC2012数据集,基于VGG-16与ResNet-50网络对所设计的量化方法和加速系统进行性能验证。实验结果显示,量化后VGG-16与ResNet-50的网络规模仅为原来的13.8%和24.8%,而Top-1准确率损失均在1%以内,表明量化方法效果显著,同时,加速系统在运行VGG-16时,加速效果优于其他3种FPGA实现的加速系统,峰值性能达到614.4 GOPs,最高提升4.5倍,能耗比达到113.99 GOPs/W,最高提升4.7倍。相似文献

12.

FAQ-CNN:面向量化卷积神经网络的嵌入式FPGA可扩展加速框架

谢坤鹏卢冶靳宗明刘义情龚成陈新伟李涛《计算机研究与发展》2022,(7):1409-1427

卷积神经网络(convolutional neural network, CNN)模型量化可有效压缩模型尺寸并提升CNN计算效率.然而,CNN模型量化算法的加速器设计,通常面临算法各异、代码模块复用性差、数据交换效率低、资源利用不充分等问题.对此,提出一种面向量化CNN的嵌入式FPGA加速框架FAQ-CNN,从计算、通信和存储3方面进行联合优化,FAQ-CNN以软件工具的形式支持快速部署量化CNN模型.首先,设计面向量化算法的组件,将量化算法自身的运算操作和数值映射过程进行分离;综合运用算子融合、双缓冲和流水线等优化技术,提升CNN推理任务内部的并行执行效率.然后,提出分级编码与位宽无关编码规则和并行解码方法,支持低位宽数据的高效批量传输和并行计算.最后,建立资源配置优化模型并转为整数非线性规划问题,在求解时采用启发式剪枝策略缩小设计空间规模.实验结果表明,FAQ-CNN能够高效灵活地实现各类量化CNN加速器.在激活值和权值为16 b时,FAQ-CNN的加速器计算性能是Caffeine的1.4倍;在激活值和权值为8 b时,FAQ-CNN可获得高达1.23TOPS的优越性能. 相似文献

13.

基于FPGA的量化推理CNN加速系统研究与设计

下载免费PDF全文

何家俊苏成悦罗荣芳施振华陈堆钰罗俊丰《计算机测量与控制》2022,30(9):162-169

基于FPGA的量化推理设计了CNN加速系统。通过对主流的深度神经网络结构的运算特性分析,使用(Density-Based Spatial Clustering of Applications with Noise) DBSCAN聚类算法截取阈值的INT8量化推理方法,融合深度神经网络全连接,减少数据运算位宽和压缩网络大小,在准确率损失很小的情况下有效压缩了网络结构。基于LeNet-5、VGG-16与ResNet-50的CNN网络结构,设计出量化CNN加速系统并进行校验。实验结果表明,网络参数和输入特征数据量化精度为8-bits时,网络压缩率在25%的情况下,网络准确率的损失低于1%。在Xilinx XC7K325 平台上量化推理CNN加速系统的运行频率为450 MHz,与其他相似类型的加速器比较,其GOPS性能提升2倍。相似文献

14.

基于FPGA的卷积神经网络并行加速设计

龚豪杰周海冯水春《计算机工程与设计》2022,(7):1872-1878

为提升在资源、功耗受限的嵌入式平台上运行的深度卷积网络算法的速度和能效,提出一种基于现场可编程门阵列(FPGA)的卷积并行加速方案。利用卷积层与批归一化(batch normalization,BN)层融合减少计算复杂度;利用数据分片减少片上存储消耗;利用数据复用、并行计算提升运算速度,减少系统硬件开销;利用设计空间探索找到最符合硬件资源约束的计算并行度。实验结果表明,在100MHz的工作频率下,加速器的峰值计算性能可以达到52.56GFLOPS,性能是CPU的4.1倍,能耗仅为GPU的9.9%,与其它FPGA方案相比综合性能有一定的提升。相似文献

15.

基于二维Winograd算法的深流水线5×5卷积方法

黄程程董霄霄李钊《计算机应用》2021,41(8):2258-2264

针对二维Winograd卷积算法中存储器带宽需求过高、计算复杂度高、设计探索周期漫长、级联的卷积存在层间计算延迟等问题,提出一种基于二维Winograd算法的双缓冲区5×5卷积层设计方法。首先使用列缓冲结构完成数据布局,以重用相邻分块之间的重叠数据,降低存储器带宽需求;然后精确搜索并复用Winograd算法加法计算过程中重复的中间计算结果,来降低加法运算量,从而减小加速器系统的能耗开销和设计面积;最后根据Winograd算法计算过程来完成6级流水线结构的设计,并实现针对5×5卷积的高效率计算。实验结果表明,这种5×5卷积的计算方法在基本不影响卷积神经网络（CNN）预测准确率的前提下,与传统卷积相比降低了83%的乘法运算量,加速倍率为5.82;该方法与级联3×3二维Winograd卷积组成5×5卷积的方法相比降低了12%的乘法运算量,降低了约24.2%的存储器带宽需求,并减少了20%的运算时间。相似文献

16.

基于Winograd稀疏算法的卷积神经网络加速器设计与研究

徐睿马胜郭阳黄友李艺煌《计算机工程与科学》2019,41(9):1557-1566

随着卷积神经网络得到愈加广泛的应用,针对其复杂运算的定制硬件加速器得到越来越多的重视与研究。但是,目前定制硬件加速器多采用传统的卷积算法,并且缺乏对神经网络稀疏性的支持,从而丧失了进一步改进硬件,提升硬件性能的空间。重新设计一款卷积神经网络加速器,该加速器基于Winograd稀疏算法,该算法被证明有效降低了卷积神经网络的计算复杂性,并可以很好地适应稀疏神经网络。通过硬件实现该算法,本文的设计可以在减少硬件资源的同时,获得相当大的计算效率。实验表明,相比于传统算法,该加速器设计方案将运算速度提升了近4.15倍;从乘法器利用率的角度出发,相比现有的其他方案,该方案将利用率最多提高了近9倍。相似文献

17.

基于卷积神经网络的GFW加速调度算法

《软件》2019,(3):217-221

神经网络的广泛应用使得人们更加关注神经网络的训练,更高精度的要求给神经网络的训练带来了困难,因此加速神经网络的训练成为了研究的重点。对于神经网络的训练中卷积层占据了大部分的训练时间,所以加速卷积层的训练成为了加速神经网络的关键。本文提出了GFW加速调度算法,GFW算法通过对不同卷积图像的大小和卷积核的数量调用不同的卷积算法,以达到整体的最佳训练效果。实验中具体分析了9层卷积网络的加速训练,实验结果显示,相比于GEMM卷积算法,GFW算法实现了2.901倍的加速,相比于FFT算法GFW算法实现了1.467倍的加速,相比于Winograd算法,GFW算法实现了1.318倍的加速。相似文献

18.

基于深度学习的图像色彩一致性算法设计

陈芳《自动化仪表》2023,(9):61-64+70

为了提高色彩一致性算法的精度和速度,提出1种基于卷积神经网络(CNN)的图像色彩一致性算法。所使用的CNN由2个卷积层、1个池化层和2个全连接层组成,以图像块为输入,而非之前常用的手工特征。此外,不同于之前的CNN算法,所提算法在局部区域进行,能够结合特征学习和回归形成一个端到端的优化过程。试验结果表明,所提算法在标准的原始RAW图像数据集上表现良好,且优于对比的基于假设和基于统计学习的算法。所提算法为使用CNN解决多光源问题提供了思路。相似文献

19.

基于空间关系几何约束的无人机景象匹配导航*

李耀军潘泉赵春晖张绍武凌志刚《计算机应用研究》2010,27(10):3822-3825

针对GPS的信号强度较弱、易受各种电磁干扰,提出一种基于空间关系几何约束的景象匹配导航算法。首先基于空间关系几何约束的多匹配区选择方法,将实时图划分为多个分区;然后采用基于边缘响应的加权Hausdorff距离景象匹配算法对各个匹配区进行定位计算;最后,通过最优配准点坐标估计策略,解算出无人机实时图中心在基准图上的精确定位坐标。多区域景象匹配采用并行计算方法,利用历史导航信息来辅助修正景象匹配导航误差。实验结果表明,该算法可较好地满足无人机对景象匹配导航算法实时性、精确性的性能要求。相似文献

20.

基于FPGA的卷积神经网络定点加速

雷小康尹志刚赵瑞莲《计算机应用》2020,40(10):2811-2816

针对卷积神经网络（CNN）在资源受限的硬件设备上运行功耗高及运行慢的问题，提出一种基于现场可编程门阵列（FPGA）的CNN定点计算加速方法。首先提出一种定点化方法，并且每层卷积设计不同的尺度参数，使用相对散度确定位宽的长度，以减小CNN参数的存储空间，而且研究不同量化区间对CNN精度的影响；其次，设计参数复用方法及流水线计算方法来加速卷积计算。为验证CNN定点化后的加速效果，采用了人脸和船舶两个数据集进行验证。结果表明，相较于传统的浮点卷积计算，所提方法在保证CNN精度损失很小的前提下，当权值参数和输入特征图参数量化到7-bit时，在人脸识别CNN模型上的压缩后的权重参数文件大小约为原来的22%，卷积计算加速比为18.69，同时使FPGA中的乘加器的利用率达94.5%。实验结果表明了该方法可以提高卷积计算速度，并且能够高效利用FPGA硬件资源。相似文献