首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
针对当前AI专用加速器设计复杂且存在内存瓶颈等不足,提出一种通用型卷积神经网络加速器架构.其RISC(Reduced Instruction Set Computer)指令集支持不同类型卷积神经网络到硬件加速器的高效映射.其通用卷积计算模块是一个由多个基本运算单元组成的可重构三维脉动阵列,支持不同尺寸的二维卷积计算;脉动阵列规模可根据需要进行配置,适用不同的并行加速需求.为缓解内存瓶颈、提高算力,输入模块引入多级缓存结构,可实现对片外数据的高速读取;输出模块设计一种基于“乒乓”架构的多级数据累加结构,以实现卷积计算结果的高速缓存输出.将所提架构在FPGA芯片上予以实现,实验结果表明该架构凭借较少计算资源和较低功耗取得了与当前先进加速器相近的性能,且通用性更强.  相似文献   

2.
针对卷积神经网络(CNN)计算量大、计算时间长的问题,该文提出一种基于现场可编程逻辑门阵列(FPGA)的卷积神经网络硬件加速器。首先通过深入分析卷积层的前向运算原理和探索卷积层运算的并行性,设计了一种输入通道并行、输出通道并行以及卷积窗口深度流水的硬件架构。然后在上述架构中设计了全并行乘法-加法树模块来加速卷积运算和高效的窗口缓存模块来实现卷积窗口的流水线操作。最后实验结果表明,该文提出的加速器能效比达到32.73 GOPS/W,比现有的解决方案高了34%,同时性能达到了317.86 GOPS。  相似文献   

3.
卷积运算是现代卷积神经网络中必不可少的组成部分,同时也是最耗时的.为了解决卷积算子的性能问题,包括快速傅里叶变换(Fast Fourier Transform,FFT)和Winograd在内的快速卷积算法被提出. Winograd卷积可被用于提高小卷积核的推理性能,是目前卷积神经网络中的主流实现方法 .然而,Winograd卷积在许多高度优化的深度神经网络库和深度学习编译器中的实现比较低效.由于Winograd卷积的四个阶段的复杂数据依赖关系,面向GPU对其进行优化非常具有挑战性.本文针对现代GPU体系结构优化了Winograd卷积算子的性能.本文提出了Winograd计算阶段的等价变化及其利用Tensor Core进行计算的无同步实现,并进一步提出了利用不同GPU内存层级的部分计算核融合方法 PKF(Partial Kernel Fusion).基于张量虚拟机(Tensor Virtual Machine,TVM)和代码重构器PKF-Reconstructor(Partial Kernel Fusion Reconstructor),实现了高性能的Winograd卷积.对真实应用中卷...  相似文献   

4.
蹇强  张培勇  王雪洁 《电子学报》2019,47(7):1525-1531
针对卷积神经网络中卷积运算复杂度高而导致计算时间过长的问题,本文提出了一种八级流水线结构的可配置CNN协加速器FPGA实现方法.通过在卷积运算控制器中嵌入池化采样控制器的复用手段使计算模块获得更多资源,利用mirror-tree结构来提高并行度,并采用Map算法来提高计算密度,同时加快了计算速度.实验结果表明,当精度为32位定点数/浮点数时,该实现方法的计算性能达到22.74GOPS.对比MAPLE加速器,计算密度提高283.3%,计算速度提高了224.9%,对比MCA(Memory-Centric Accelerator)加速器,计算密度提高了14.47%,计算速度提高了33.76%,当精度为8-16位定点数时,计算性能达到58.3GOPS,对比LBA(Layer-Based Accelerator)计算密度提高了8.5%.  相似文献   

5.
满涛  郭子豪  曲志坚 《电讯技术》2021,61(11):1438-1445
为提高目前硬件设备上运行卷积神经网络的速度和能效,针对主流的卷积神经网络提出了一种基于现场可编程门阵列(Field Programmable Gate Array,FPGA)的流水线并行加速方案,设计优化了数据存储模块、卷积计算模块、池化模块以及全连接模块,结合高层次综合技术构建了基于FP GA的卷积神经网络基本单元.为了降低加速系统的硬件开销,在保证卷积神经网络精度损失很小的前提下,采用数据量化的方式将网络参数从32位浮点数转化为16位定点数.系统测试使用MNIST数据集和CIFAR-10数据集,实验结果显示,所提出的卷积神经网络FPGA加速具有更快的识别效果,并且该方案在资源和功耗较少的情况下可以提供更好的性能,同时能够高效地利用FP GA上的硬件资源.  相似文献   

6.
随着医疗资源日益匮乏以及人口老龄化日趋严重,心血管疾病已对人类健康造成了极大的威胁。具有心电(ECG)检测的便携式设备能有效降低心血管疾病对患者的威胁,因此该文设计了一种面向心电检测的混合多模卷积神经网络加速器。该文首先介绍了一种用于心电信号分类的1维卷积神经网络(1D-CNN)模型,随后针对该模型设计了一种高效的卷积神经网络(CNN)加速器,该加速器采用了一种多并行展开策略和多数据流的运算模式完成了卷积循环的加速和优化,能在时间上和空间上高度复用数据,同时提高了硬件资源利用率,从而提升了硬件加速器的硬件效率。最后基于Xilinx ZC706硬件平台完成了原型验证,结果显示,所设计卷积神经网络加速器消耗的资源为2247 LUTs, 80 DSPs。在200 MHz的工作频率下,该设计的整体性能可达到28.1 GOPS,并且硬件效率达到了12.82 GOPS/kLUT。  相似文献   

7.
许新征  李杉 《电子学报》2023,(2):355-364
本文从卷积神经网络模型的网络结构入手,利用特征复用的思想,设计了高效的特征膨胀卷积模块.该模块减少了标准卷积模块的输出通道数,引入了多分支结构.通过各个分支上的廉价操作对标准卷积操作的输出特征图进行变换和融合,产生新的特征图.模块的最终输出由各个分支上生成的特征图进行合并连接得到.特征膨胀卷积模块利用特征复用思想复用模型中的特征,在降低模型计算量的同时,丰富了特征图隐含的信息,提高了模型的性能.最后,将特征膨胀卷积模块代替标准卷积模块,设计了轻量化的VGG16(Visual Geometry Group 16-Layer)模型和残差结构,并且在CIFAR数据集和ILSVRC2012(ImageNet Large Scale Visual Recognition Challenge 2012)数据集上取得了较好的分类效果.  相似文献   

8.
为减少卷积神经网络(CNN)的计算量,该文将2维快速滤波算法引入到卷积神经网络,并提出一种在FPGA上实现CNN逐层加速的硬件架构。首先,采用循环变换方法设计行缓存循环控制单元,用于有效地管理不同卷积窗口以及不同层之间的输入特征图数据,并通过标志信号启动卷积计算加速单元来实现逐层加速;其次,设计了基于4并行快速滤波算法的卷积计算加速单元,该单元采用若干小滤波器组成的复杂度较低的并行滤波结构来实现。利用手写数字集MNIST对所设计的CNN加速器电路进行测试,结果表明:在xilinx kintex7平台上,输入时钟为100 MHz时,电路的计算性能达到了20.49 GOPS,识别率为98.68%。可见通过减少CNN的计算量,能够提高电路的计算性能。  相似文献   

9.
针对卷积神经网络在极致边缘计算(UEC)场景应用中的性能和功耗需求,该文针对场景中16 Bit量化位宽的网络模型提出一种不依赖外部存储的卷积神经网络(CNN)加速器架构,该架构基本结构设计为基于现场可编程逻辑门阵列(FPGA)的多核CNN全流水加速器。在此基础上,实现了该加速器的层内映射与层间融合优化。然后,通过构建资源评估模型在理论上完成架构中的计算资源与存储资源评估,并在该理论模型指导下,通过设计空间探索来最大化资源使用率与计算效率,进而充分挖掘加速器在计算资源约束条件下的峰值算力。最后,以纳型无人机(UAV)自主快速人体检测UEC场景为例,通过实验完成了加速器架构性能验证与分析。结果表明,在实现基于单步多框目标检测(SSD)的人体检测神经网络推理中,加速器在100 MHz和25 MHz主频下分别实现了帧率为137和34的推理速度,对应功耗分别为0.514 W和0.263 W,满足纳型无人机自主计算这种典型UEC场景对图像实时处理的性能与功耗需求。  相似文献   

10.
遥感图像检测在计算机视觉领域中是一项具有挑战性的任务,目前的遥感图像检测方法在提升精度的基础上忽略了速度,而在资源勘测和海上救援等需要实时检测的场景中,提高检测速度也是必不可少的。基于此,提出了一种轻量化的目标检测网络,以实现检测精度和速度的权衡。基于YOLOv4进行设计,将原主干网络替换为剪枝后的MobileNetV2,将特征提取部分的普通卷积计算替换为深度可分离卷积以大幅度减小模型计算量,同时嵌入感受野增强模块和注意力机制模块以提升模型检测精度。在遥感图像数据集上的实验结果表明:所提网络的平均准确率达到了89.80%,检测速度达到33.4 frame/s;与YOLOv4相比,平均准确率仅下降了1.48个百分点,但检测速度提升了近1.5倍;与YOLOv4-Tiny相比,平均准确率提升了9.05个百分点。所提模型实现了速度和精度的权衡,权重仅为44 MB,易于部署,且能满足实时检测场景需要。  相似文献   

11.
现有神经网络大多模型复杂,由于模型参数量、计算量较大而难以应用于移动终端等实际场景,因此本文选择轻量级神经网络MobileNet并利用高性能、可重构的FPGA平台进行硬件加速设计。通过并行展开、流水线设计、量化策略等方式优化加速器,针对提升并行度带来的大量DSP资源消耗,本文通过DSP优化编码方式对卷积操作中的乘法进行优化,从而减少了44.8%的DSP资源消耗。实验结果表明本文在Xilinx ZCU102开发板上实现了129.6 fps的推理速度,整体性能达到147.4 GOP/S。  相似文献   

12.
图卷积神经网络(GCN)在社交网络、电子商务、分子结构推理等任务中的表现远超传统人工智能算法,在近年来获得广泛关注。与卷积神经网络(CNN)数据独立分布不同,图卷积神经网络更加关注数据之间特征关系的提取,通过邻接矩阵表示数据关系,因此其输入数据和操作数相比卷积神经网络而言都更加稀疏且存在大量数据传输,所以实现高效的GCN加速器是一个挑战。忆阻器(ReRAM)作为一种新兴的非易失性存储器,具有高密度、读取访问速度快、低功耗和存内计算等优点。利用忆阻器为CNN加速已经被广泛研究,但是图卷积神经网络极大的稀疏性会导致现有加速器效率低下,因此该文提出一种基于忆阻器交叉阵列的高效图卷积神经网络加速器,首先,该文分析GCN中不同操作数的计算和访存特征,提出权重和邻接矩阵到忆阻器阵列的映射方法,有效利用两种操作数的计算密集特征并避免访存密集的特征向量造成过高开销;进一步地,充分挖掘邻接矩阵的稀疏性,提出子矩阵划分算法及邻接矩阵的压缩映射方案,最大限度降低GCN的忆阻器资源需求;此外,加速器提供对稀疏计算支持,支持压缩格式为坐标表(COO)的特征向量输入,保证计算过程规则且高效地执行。实验结果显示,该文加速器相比CPU有483倍速度提升和1569倍能量节省;相比GPU也有28倍速度提升和168倍能耗节省。  相似文献   

13.
全卷积神经网络近年来被应用于深度学习中的多个领域,其不仅能处理简单的图像分类任务,还能应用于例如物体检测、语义/图像分割以及基于生成式对抗网络的生成型任务.典型的全卷积神经网络中不仅包括了传统的卷积层,还有反卷积层,它们都是计算密集型的.现在大多数研究者大都关注卷积层的设计优化,而反卷积的加速优化很少.本文提出了一种双向脉动数据流的全卷积神经网络加速器,可以同时高效地处理普通卷积层以及反卷积层.实验中选取了多个具有代表性的全卷积神经网络模型,例如DCGAN,Cascaded-FCN等.相较于以往传统的未优化的加速方案,本文所设计的加速器平均可以达到2.8倍的加速比,并且能耗降低了46.3%.  相似文献   

14.
针对第五代开放精简指令集(RISC-V)的人工智能(AI)处理器较少、先进的精简指令微处理器(ARM)架构供应链不稳定、自主可控性弱的问题,设计了以RISC-V处理器为核心的神经网络推理加速器系统级芯片(So C)架构。采用开源项目搭建So C架构;基于可变张量加速器(VTA)架构,完成深度神经网络加速器指令集设计;通过高级可扩展接口(AXI)连接处理器与VTA,并采用共享内存的方式进行数据传输;基于深度学习编译栈实现卷积运算和神经网络部署。试验结果表明,所设计的架构可灵活实现多种主流的深度神经网络推理任务,乘法累加单元(MAC)数目可以达到1 024,量化长度为有符号8位整数(INT8),编译栈支持主流神经网络编译,实现了修正后的ZFNet和ResNet20神经网络图像分类演示,在现场可编程逻辑门阵列(FPGA)电路上整体准确率分别达到78.95%和84.81%。  相似文献   

15.
基于卷积神经网络(Convolutional Neural Network,CNN)的目标检测算法有着鲁棒性强、准确度高等优点,被广泛用于计算机视觉任务领域.然而,CNN参数量大、计算量大的特性使得其难以在边缘计算平台实时实现,为此,本文针对目标检测网络Skynet进行结构优化,并基于高效的层内并行流水的加速架构,在现场可编程门阵列(Field Programmable Gate Array,FPGA)上对其进行实时实现.该方法对Skynet进行剪枝,合并其卷积层与归一化层,利用(Kullback-Leibler,KL)相对熵及极大值量化方法对权重及特征图进行8 bit定点量化,同时将偏置参数及缩放系数定点化,并合并激活操作与饱和截断操作,在减少存储量和计算量的同时,加快前向推理速度.此外,以滑窗操作为基础,采用通道及像素并行计算,设计深度可分离卷积的流水策略,将串行的前向推理结构优化为并行流水的结构,极大减少了前向推理的时间.实验表明,在UA-DETRAC数据集上,本文实现的系统识别精度为0.752,在160×160的图像分辨率上,速度达到115FPS,与CPU相比,提速11倍,达到...  相似文献   

16.
王帅  杨帆  周贤中 《电子器件》2023,46(6):1621-1628
卷积神经网络在运算过程中存在计算量过大、存储资源消耗高等问题,使其难以在嵌入式设备上进行部署。针对此问题,本文提出一种在多核异构平台ZYNQ7020上对目标检测网络YOLO-FASTEST前向推理的方案。首先本文设计了一种输出特征复用的运算模式,提高了片上多层流水的运算效率。然后本文采用双缓存乒乓传输的方式,使得数据传输时间掩盖计算时间。为了降低硬件资源开销,本文将网络模型的精度由浮点数量化为16位的定点数,将批量归一化层与卷积层进一步融合。最后本文对加速器的资源消耗与各模块的设计参数进行建模分析。实验结果表明,该方案在ZYNQ7020平台上获得了13.5GFLOPS的计算性能,功耗仅为2.56W。同时能耗比是ARM-A9 CPU的48倍、GTX1050ti GPU的20倍。  相似文献   

17.
为提高卷积神经网络的处理速度,使用零梯度近似处理的卷积方法(梯度卷积)来提高数据的复用率,减少计算量。以卷积核为单位对数据进行梯度计算,针对不同网络的不同层次采用灵活的梯度阈值计算策略,以合理复用相邻窗口的卷积结果。将其中关键的梯度处理模块和卷积计算部分在现场可编程门阵列(FieldProgrammable Gate Array, FPGA)上进行实现,与脉动阵列相结合以提高资源利用率,并针对负载不均衡的问题设计出适合梯度卷积的数据流。基于YOLOv3模型和Pascal VOC数据集的目标检测实验中,在付出较小精度损失的前提下,软件端减少约23.2%的计算量,结合硬件加速比约为17.8%。  相似文献   

18.
陆宝红  宋雪桦 《激光技术》2019,43(5):660-665
为了解决卷积神经网络在进行连续行人检测时, 检测行人速度较慢, 达不到实时性要求的问题, 采用基于历史信息的区域卷积神经网络行人检测算法, 利用前一幅图像中的检测结果对当前图像的检测过程进行优化, 将前一帧的检测结果作为对当前帧提取推荐区域的参考信息, 并使用当前帧与前一帧的灰度值差异图对当前图像的卷积特征进行过滤, 以缩小滑动窗口检测时的搜索区域。在加州理工学院行人检测数据集上进行了检测实验。结果表明, 结合历史信息的算法与先进的算法相比检测速度提升了2.5倍, 同时检测准确率提升了1.5%。该算法实现了实时行人检测, 设计的网络能有效检测小目标行人。  相似文献   

19.
基于卷积神经网络的图像超分辨率算法可以分为图像尺寸放大和图像细节恢复/增强两个步骤,在细节恢复过程中,卷积层直接从输入图像中学习特征并将该特征作为下一个卷积层的输入数据。为了加强输入图像和卷积层各通道图像的特征表达能力,提出了一种新的卷积神经网络算法,该算法对输入图像和通道图像进行选择性灰度变换而增强特征表达的能力。实验结果表明,在公共红外图像数据集和实验室采集的红外图像数据集上,所提方法的超分辨率重建效果均优于当前的几种典型算法,能够恢复的细节信息更多。  相似文献   

20.
自动调制方式识别技术在通信领域有着不可或缺的作用,针对传统的卷积神经网络在信号分类问题中特征提取能力不足的问题,本文研究了一种利用多维度特征的端到端双流膨胀卷积神经网络来对调制信号进行分类的方法。该方法不仅利用原始采样信号,还利用输入信号的瞬时幅度和相位信息;原始IQ(In-phase and Quadrature, IQ)数据输入进神经网络后,网络首先通过内置的数据预处理模块对输入的IQ信号进行预处理,提取原始信号的幅度和相位信息,再将原始IQ信号和幅度相位两种特征信息分别通过两个并行的卷积神经网络结构分别进行特征提取;本文所设计的双流卷积神经网络模型中的膨胀残差网络分支利用卷积核的膨胀卷积特性,将膨胀卷积与残差网络结构相结合,在网络参数不变的情况下使得卷积核具有更大的感受野,同时也能够更好地结合上下文信息,另一个网络分支是将卷积神经网络与长短期记忆神经网络相串联,然后将两个并行卷积神经网络的输出特征向量进行矩阵相乘达到两种特征信息融合的目的。整个识别过程是基于端到端的,数据预处理模块内嵌到神经网络内部,由神经网络完成对数据的预处理,只需将原始的IQ数据直接送入神经网络即可;仿真实验...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号