期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

刘冬生魏来邹雪城陆家昊成轩胡昂李德建赵旭蒋曲明《电子与信息学报》2023,45(1):33-41

随着医疗资源日益匮乏以及人口老龄化日趋严重,心血管疾病已对人类健康造成了极大的威胁。具有心电(ECG)检测的便携式设备能有效降低心血管疾病对患者的威胁,因此该文设计了一种面向心电检测的混合多模卷积神经网络加速器。该文首先介绍了一种用于心电信号分类的1维卷积神经网络(1D-CNN)模型,随后针对该模型设计了一种高效的卷积神经网络(CNN)加速器,该加速器采用了一种多并行展开策略和多数据流的运算模式完成了卷积循环的加速和优化,能在时间上和空间上高度复用数据,同时提高了硬件资源利用率,从而提升了硬件加速器的硬件效率。最后基于Xilinx ZC706硬件平台完成了原型验证,结果显示,所设计卷积神经网络加速器消耗的资源为2247 LUTs, 80 DSPs。在200 MHz的工作频率下,该设计的整体性能可达到28.1 GOPS,并且硬件效率达到了12.82 GOPS/kLUT。相似文献

2.

基于快速滤波算法的卷积神经网络加速器设计

王巍周凯利王伊昌王广袁军《电子与信息学报》2019,41(11):2578-2584

为减少卷积神经网络(CNN)的计算量,该文将2维快速滤波算法引入到卷积神经网络,并提出一种在FPGA上实现CNN逐层加速的硬件架构。首先,采用循环变换方法设计行缓存循环控制单元,用于有效地管理不同卷积窗口以及不同层之间的输入特征图数据,并通过标志信号启动卷积计算加速单元来实现逐层加速;其次,设计了基于4并行快速滤波算法的卷积计算加速单元,该单元采用若干小滤波器组成的复杂度较低的并行滤波结构来实现。利用手写数字集MNIST对所设计的CNN加速器电路进行测试,结果表明:在xilinx kintex7平台上,输入时钟为100 MHz时,电路的计算性能达到了20.49 GOPS,识别率为98.68%。可见通过减少CNN的计算量,能够提高电路的计算性能。相似文献

3.

一种通用型卷积神经网络加速器架构研究

董刚胡克坤杨宏斌赵雅倩李仁刚赵坤曹其春鲁璐《微电子学与计算机》2023,(5):97-103

针对当前AI专用加速器设计复杂且存在内存瓶颈等不足,提出一种通用型卷积神经网络加速器架构.其RISC(Reduced Instruction Set Computer)指令集支持不同类型卷积神经网络到硬件加速器的高效映射.其通用卷积计算模块是一个由多个基本运算单元组成的可重构三维脉动阵列,支持不同尺寸的二维卷积计算;脉动阵列规模可根据需要进行配置,适用不同的并行加速需求.为缓解内存瓶颈、提高算力,输入模块引入多级缓存结构,可实现对片外数据的高速读取;输出模块设计一种基于“乒乓”架构的多级数据累加结构,以实现卷积计算结果的高速缓存输出.将所提架构在FPGA芯片上予以实现,实验结果表明该架构凭借较少计算资源和较低功耗取得了与当前先进加速器相近的性能,且通用性更强. 相似文献

4.

基于FPGA的Winograd算法卷积神经网络加速器设计与实现

牛朝旭孙海江《液晶与显示》2023,(11):1521-1530

为实现卷积神经网络在低功耗、边缘计算等场景中的加速计算，设计了一种基于现场可编程门阵列（FPGA）的Winograd算法卷积神经网络加速器。首先，将图像数据和权重数据量化为8位定点数，并设计了硬件卷积计算过程中的量化流程，提升了数据传输速度和计算速度。接着，设计了输入数据缓存复用模块，将多输入通道数据融合后传输，复用了行重叠数据。然后设计了Winograd流水线卷积模块，实现列数据的组合复用，从而最大化重用了片上数据，降低了片上数据存储的占用和带宽压力。最后将加速器在Xilinx的ZCU104开发板上部署。经过实验验证，加速器的卷积层计算性能达到354.5 GOPS，片上DSP计算效率达到0.69，与相关研究相比，实现了1.6倍以上的提升。该加速器能够以高能效比完成基于VGG-16网络的遥感图像分类任务。相似文献

5.

一种可配置的CNN协加速器的FPGA实现方法

下载免费PDF全文

蹇强张培勇王雪洁《电子学报》2019,47(7):1525-1531

针对卷积神经网络中卷积运算复杂度高而导致计算时间过长的问题,本文提出了一种八级流水线结构的可配置CNN协加速器FPGA实现方法.通过在卷积运算控制器中嵌入池化采样控制器的复用手段使计算模块获得更多资源,利用mirror-tree结构来提高并行度,并采用Map算法来提高计算密度,同时加快了计算速度.实验结果表明,当精度为32位定点数/浮点数时,该实现方法的计算性能达到22.74GOPS.对比MAPLE加速器,计算密度提高283.3%,计算速度提高了224.9%,对比MCA（Memory-Centric Accelerator）加速器,计算密度提高了14.47%,计算速度提高了33.76%,当精度为8-16位定点数时,计算性能达到58.3GOPS,对比LBA（Layer-Based Accelerator）计算密度提高了8.5%. 相似文献

6.

基于Tiny-YOLOv3的网络结构化压缩与加速

胡永阳李淼孟凡开张峰孟艺薇宋宇鲲《电子科技》2023,(8):43-48+55

针对特定应用场景下，Tiny-YOLOv3(You Only Look Once v3)网络在嵌入式平台部署时存在资源开销大、运行速度慢的问题，文中提出了一种结合剪枝与量化的结构化压缩方案，并搭建了针对压缩后网络的卷积层加速系统。结构化压缩方案使用稀疏化训练与通道剪枝来减少网络中的计算量，使用激活值定点数量化和权重二的整数次幂量化来减少网络卷积层中的参数存储量。在卷积层加速系统中，可编程逻辑部分按照并行加流水线方法设计了一个卷积层加速器核，处理系统部分负责卷积层加速系统调度。实验结果表明，Tiny-YOLOv3经过结构化压缩后的网络平均准确度为0.46,参数压缩率达到了5%。卷积层加速系统在Xilinx的ZYNQ芯片进行部署时，硬件可以稳定运行在250 MHz时钟频率下，卷积运算单元的算力为36 GOPS。此外，加速平台整体功耗为2.6 W,且硬件设计节约了硬件资源。相似文献

7.

基于FPGA的YOLOv5s网络高效卷积加速器设计

刘谦王林林周文勃《电讯技术》2024,64(3):366-375

为提升在资源受限情况下的嵌入式平台上卷积神经网络(Convolutional Neural Network, CNN)目标识别的资源利用率和能效,提出了一种适用于YOLOv5s目标识别网络的现场可编程门阵列(Field Programmable Gate Array, FPGA)共享计算单元的并行卷积加速结构,该结构通过共享3×3卷积和1×1卷积的计算单元提高了加速器硬件资源利用率。此外,还利用卷积层BN(Batch Normalization)层融合、模型量化、循环分块以及双缓冲等策略,提高系统计算效率并减少硬件资源开销。实验结果表明,加速器在200 MHz的工作频率下,实现的卷积计算峰值性能可达97.7 GOPS(Giga Operations per Second),其YOLOv5s网络的平均计算性可达78.34 GOPS,与其他FPGA加速器方案相比在DSP效率、能耗比以及整体性能等方面具有一定的提升。相似文献

8.

面向微控制器的卷积神经网络加速器设计

下载免费PDF全文

乔建华吴言栗亚宁雷光政《电子器件》2024,47(1):48-54

针对目前嵌入式微控制器的性能难以满足实时图像识别任务的问题,提出一种适用于微控制器的卷积神经网络加速器。该加速器在卷积层设计了无阻塞的行并行乘法-加法树结构,获得了更高的硬件利用率;为了满足行并行的数据吞吐量,设计了卷积专用SRAM存储器。加速器将池化和激活单元融入数据通路,有效减少数据重复存取带来的时间开销。FPGA原型验证表明加速器的性能达到92.2 GOPS@100 MHz;基于TSMC 130 nm工艺节点进行逻辑综合,加速器的动态功耗为33 mW,面积为90 764.2μm²,能效比高达2 793 GOPS/W,比FPGA加速器方案提高了约100倍。该加速器低功耗、低成本的特性,有利于实现嵌入式系统在目标检测、人脸识别等机器视觉领域的广泛应用。相似文献

9.

应用于极致边缘计算场景的卷积神经网络加速器架构设计

吴瑞东刘冰付平纪兴龙鲁文帅《电子与信息学报》2023,(6):1933-1943

针对卷积神经网络在极致边缘计算(UEC)场景应用中的性能和功耗需求，该文针对场景中16 Bit量化位宽的网络模型提出一种不依赖外部存储的卷积神经网络(CNN)加速器架构，该架构基本结构设计为基于现场可编程逻辑门阵列(FPGA)的多核CNN全流水加速器。在此基础上，实现了该加速器的层内映射与层间融合优化。然后，通过构建资源评估模型在理论上完成架构中的计算资源与存储资源评估，并在该理论模型指导下，通过设计空间探索来最大化资源使用率与计算效率，进而充分挖掘加速器在计算资源约束条件下的峰值算力。最后，以纳型无人机(UAV)自主快速人体检测UEC场景为例，通过实验完成了加速器架构性能验证与分析。结果表明，在实现基于单步多框目标检测(SSD)的人体检测神经网络推理中，加速器在100 MHz和25 MHz主频下分别实现了帧率为137和34的推理速度，对应功耗分别为0.514 W和0.263 W，满足纳型无人机自主计算这种典型UEC场景对图像实时处理的性能与功耗需求。相似文献

10.

基于ZYNQ的可重构卷积神经网络加速器

刘杰葛一凡田明马力强《电子学报》2021,49(4):729-735

针对卷积神经网络中卷积运算复杂度高、计算量大及算法在CPU和GPU上计算时存在延时及功耗限制问题,从提高现有硬件平台计算速率、降低功耗角度出发,设计了一种基于ZYNQ的具有高吞吐率和低功耗的可重构神经网络加速系统.为充分利用运算资源,探索了一种卷积运算循环优化电路;为降低带宽访问量,设计了一种数据在内存中的特殊排列方式.以VGG16网络为例,利用ZYNQ对系统进行加速,在计算性能上达到62.00GPOS的有效算力,分别是GPU和CPU的2.58倍和6.88倍,其MAC利用率高达98.20％,逼近Roofline模型理论值.加速器的计算功耗为2.0W,能效比为31.00GOPS/W,是GPU的112.77倍和CPU的334.41倍. 相似文献

11.

Design of high parallel CNN accelerator based on FPGA for AIoT

林志坚高学伟陈小培祝志鹏杜小勇陈平平《中国邮电高校学报(英文版)》2022,29(5):1-9

相似文献

12.

利用参数稀疏性的卷积神经网络计算优化及其FPGA加速器设计

刘勤让刘崇阳《电子与信息学报》2018,40(6):1368-1374

针对卷积神经网络(CNN)在嵌入式端的应用受实时性限制的问题,以及CNN卷积计算中存在较大程度的稀疏性的特性,该文提出一种基于FPGA的CNN加速器实现方法来提高计算速度。首先,挖掘出CNN卷积计算的稀疏性特点;其次,为了用好参数稀疏性,把CNN卷积计算转换为矩阵相乘;最后,提出基于FPGA的并行矩阵乘法器的实现方案。在Virtex-7 VC707 FPGA上的仿真结果表明,相比于传统的CNN加速器,该设计缩短了19%的计算时间。通过稀疏性来简化CNN计算过程的方式,不仅能在FPGA实现,也能迁移到其他嵌入式端。相似文献

13.

动态深度神经网络的硬件加速设计及FPGA实现

王鹏任轶群范毓洋张嘉诚《电讯技术》2024,64(3):358-365

基于现场可编程门阵列(Field Programmable Gate Array, FPGA)实现的卷积神经网络由于具有优秀的目标识别能力,广泛应用在边缘设备。然而现有的神经网络部署多基于静态模型,因此存在无效特征提取、计算量增大、帧率降低等问题。为此,提出了动态深度神经网络的实现方法。通过引入模型定点压缩技术和并行的卷积分块方法,并结合低延迟的数据调度策略,实现了高效卷积计算。同时对神经网络动态退出机制中引入的交叉熵损失函数,提出便于硬件实现的简化方法,设计专用的加速电路。根据所提方法,在Xilinx xc7z030平台部署了具有动态深度的ResNet110网络,平台最高可完成2.78×10⁴ MOPS(Million Operations per Second)的乘积累加运算,并支持1.25 MOPS的自然指数运算和0.125 MOPS的对数运算,相较于i7-5960x处理器加速比达到287%,相较于NVIDIA TITAN X处理器加速比达到145%。相似文献

14.

基于FPGA的水平集图像分割算法加速器

刘野肖剑彪吴飞常亮周军《电子与信息学报》2021,43(6):1525-1532

水平集算法因其出色的性能,在图像分割领域中得到了广泛的应用。同时,与基于深度学习的图像分割算法相比,水平集算法不需要训练数据,大幅降低了数据标记带来的工作量。然而,目前水平集算法主要是基于软件开发,涉及大量复杂的计算,以及计算的多次迭代,导致较高的处理延时与功耗。为了加快水平集算法的处理速度和降低功耗,该文提出了一种基于FPGA的水平集图像分割算法加速器,其中包含4个设计创新点:任务级并行处理、图像分块像素级并行处理、全流水线处理架构、分时复用的梯度和散度算子处理。实验结果表明,与在CPU上执行的水平集算法相比,该文提出的硬件加速器处理速度提升10.7倍,功耗仅为2.2 W。相似文献

15.

基于卷积神经网络的雷达目标HRRP分类识别方法

王容川庄志洪王宏波陆锦辉《现代雷达》2019,41(5):33-38

卷积神经网络通过卷积和池化操作提取图像在各个层次上的特征进而对目标进行有效识别,是深度学习网络中应用最广泛的一种。文中围绕一维距离像雷达导引头自动目标识别,开展基于卷积神经网络的目标高分辨距离像分类识别方法研究。首先,基于空中目标一维距离像姿态敏感性仿真生成近似平行交会条件下不同类型目标的高分辨距离像数据集;其次,构建一种一维卷积神经网络结构对目标高分辨距离像进行分类识别;作为比较,针对同类高分辨距离像数据集,分析了主成分分析-支持向量机方法的目标分类识别效果。结果表明:基于卷积神经网络的目标分类识别算法有更好的识别能力,对高分辨距离像的姿态敏感性具有较强的适应性。相似文献

16.

基于全流程并行加速的改进数字下变频器设计

下载免费PDF全文

吉炜寰邹玉炜《电子器件》2017,40(1)

针对宽带通信雷达探测系统中高速率数据处理难度较大的问题,设计了一种全流程并行化处理的高速率数字下变频器,混频模块采用并行化的流水线坐标旋转数字计算机（CORDIC)对来自A/D的高速采样数据进行分组处理,以降低单个通道的数据率;抽取滤波模块采用多相滤波器进一步将高阶卷积网络进行并行化分解,减少不必要的乘累加运算。实验结果表明：最大处理速率由原先的131MHz提高到了255MHz,改进设计利用现有硬件条件大幅度提高了处理速度,减少了通带内信号的衰减。相似文献