期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

王巍周凯利王伊昌王广袁军《电子与信息学报》2019,41(11):2578-2584

为减少卷积神经网络(CNN)的计算量,该文将2维快速滤波算法引入到卷积神经网络,并提出一种在FPGA上实现CNN逐层加速的硬件架构。首先,采用循环变换方法设计行缓存循环控制单元,用于有效地管理不同卷积窗口以及不同层之间的输入特征图数据,并通过标志信号启动卷积计算加速单元来实现逐层加速;其次,设计了基于4并行快速滤波算法的卷积计算加速单元,该单元采用若干小滤波器组成的复杂度较低的并行滤波结构来实现。利用手写数字集MNIST对所设计的CNN加速器电路进行测试,结果表明：在xilinx kintex7平台上,输入时钟为100 MHz时,电路的计算性能达到了20.49 GOPS,识别率为98.68%。可见通过减少CNN的计算量,能够提高电路的计算性能。相似文献

2.

基于忆阻器的图卷积神经网络加速器设计

李冰午康俊王晶李森高岚张伟功倪天明《电子与信息学报》2023,45(1):106-115

图卷积神经网络(GCN)在社交网络、电子商务、分子结构推理等任务中的表现远超传统人工智能算法,在近年来获得广泛关注。与卷积神经网络(CNN)数据独立分布不同,图卷积神经网络更加关注数据之间特征关系的提取,通过邻接矩阵表示数据关系,因此其输入数据和操作数相比卷积神经网络而言都更加稀疏且存在大量数据传输,所以实现高效的GCN加速器是一个挑战。忆阻器(ReRAM)作为一种新兴的非易失性存储器,具有高密度、读取访问速度快、低功耗和存内计算等优点。利用忆阻器为CNN加速已经被广泛研究,但是图卷积神经网络极大的稀疏性会导致现有加速器效率低下,因此该文提出一种基于忆阻器交叉阵列的高效图卷积神经网络加速器,首先,该文分析GCN中不同操作数的计算和访存特征,提出权重和邻接矩阵到忆阻器阵列的映射方法,有效利用两种操作数的计算密集特征并避免访存密集的特征向量造成过高开销;进一步地,充分挖掘邻接矩阵的稀疏性,提出子矩阵划分算法及邻接矩阵的压缩映射方案,最大限度降低GCN的忆阻器资源需求;此外,加速器提供对稀疏计算支持,支持压缩格式为坐标表(COO)的特征向量输入,保证计算过程规则且高效地执行。实验结果显示,该文加速器相比CPU有483倍速度提升和1569倍能量节省;相比GPU也有28倍速度提升和168倍能耗节省。相似文献

3.

基于FPGA的YOLOv5s网络高效卷积加速器设计

刘谦王林林周文勃《电讯技术》2024,64(3):366-375

为提升在资源受限情况下的嵌入式平台上卷积神经网络(Convolutional Neural Network, CNN)目标识别的资源利用率和能效,提出了一种适用于YOLOv5s目标识别网络的现场可编程门阵列(Field Programmable Gate Array, FPGA)共享计算单元的并行卷积加速结构,该结构通过共享3×3卷积和1×1卷积的计算单元提高了加速器硬件资源利用率。此外,还利用卷积层BN(Batch Normalization)层融合、模型量化、循环分块以及双缓冲等策略,提高系统计算效率并减少硬件资源开销。实验结果表明,加速器在200 MHz的工作频率下,实现的卷积计算峰值性能可达97.7 GOPS(Giga Operations per Second),其YOLOv5s网络的平均计算性可达78.34 GOPS,与其他FPGA加速器方案相比在DSP效率、能耗比以及整体性能等方面具有一定的提升。相似文献

4.

基于FPGA的卷积神经网络硬件加速器设计

秦华标曹钦平《电子与信息学报》2019,41(11):2599-2605

针对卷积神经网络(CNN)计算量大、计算时间长的问题,该文提出一种基于现场可编程逻辑门阵列(FPGA)的卷积神经网络硬件加速器。首先通过深入分析卷积层的前向运算原理和探索卷积层运算的并行性,设计了一种输入通道并行、输出通道并行以及卷积窗口深度流水的硬件架构。然后在上述架构中设计了全并行乘法-加法树模块来加速卷积运算和高效的窗口缓存模块来实现卷积窗口的流水线操作。最后实验结果表明,该文提出的加速器能效比达到32.73 GOPS/W,比现有的解决方案高了34%,同时性能达到了317.86 GOPS。相似文献

5.

面向微控制器的卷积神经网络加速器设计

下载免费PDF全文

乔建华吴言栗亚宁雷光政《电子器件》2024,47(1):48-54

针对目前嵌入式微控制器的性能难以满足实时图像识别任务的问题,提出一种适用于微控制器的卷积神经网络加速器。该加速器在卷积层设计了无阻塞的行并行乘法-加法树结构,获得了更高的硬件利用率;为了满足行并行的数据吞吐量,设计了卷积专用SRAM存储器。加速器将池化和激活单元融入数据通路,有效减少数据重复存取带来的时间开销。FPGA原型验证表明加速器的性能达到92.2 GOPS@100 MHz;基于TSMC 130 nm工艺节点进行逻辑综合,加速器的动态功耗为33 mW,面积为90 764.2μm²,能效比高达2 793 GOPS/W,比FPGA加速器方案提高了约100倍。该加速器低功耗、低成本的特性,有利于实现嵌入式系统在目标检测、人脸识别等机器视觉领域的广泛应用。相似文献

6.

一种可配置的CNN协加速器的FPGA实现方法

下载免费PDF全文

蹇强张培勇王雪洁《电子学报》2019,47(7):1525-1531

针对卷积神经网络中卷积运算复杂度高而导致计算时间过长的问题,本文提出了一种八级流水线结构的可配置CNN协加速器FPGA实现方法.通过在卷积运算控制器中嵌入池化采样控制器的复用手段使计算模块获得更多资源,利用mirror-tree结构来提高并行度,并采用Map算法来提高计算密度,同时加快了计算速度.实验结果表明,当精度为32位定点数/浮点数时,该实现方法的计算性能达到22.74GOPS.对比MAPLE加速器,计算密度提高283.3%,计算速度提高了224.9%,对比MCA（Memory-Centric Accelerator）加速器,计算密度提高了14.47%,计算速度提高了33.76%,当精度为8-16位定点数时,计算性能达到58.3GOPS,对比LBA（Layer-Based Accelerator）计算密度提高了8.5%. 相似文献

7.

应用于极致边缘计算场景的卷积神经网络加速器架构设计

吴瑞东刘冰付平纪兴龙鲁文帅《电子与信息学报》2023,45(6):1933-1943

针对卷积神经网络在极致边缘计算(UEC)场景应用中的性能和功耗需求,该文针对场景中16 Bit量化位宽的网络模型提出一种不依赖外部存储的卷积神经网络(CNN)加速器架构,该架构基本结构设计为基于现场可编程逻辑门阵列( FPGA)的多核CNN全流水加速器。在此基础上,实现了该加速器的层内映射与层间融合优化。然后,通过构建资源评估模型在理论上完成架构中的计算资源与存储资源评估,并在该理论模型指导下,通过设计空间探索来最大化资源使用率与计算效率,进而充分挖掘加速器在计算资源约束条件下的峰值算力。最后,以纳型无人机(UAV)自主快速人体检测UEC场景为例,通过实验完成了加速器架构性能验证与分析。结果表明,在实现基于单步多框目标检测(SSD)的人体检测神经网络推理中,加速器在100 MHz和25 MHz主频下分别实现了帧率为137和34的推理速度,对应功耗分别为0.514 W和0.263 W,满足纳型无人机自主计算这种典型UEC场景对图像实时处理的性能与功耗需求。相似文献

8.

基于嵌入式设备应用的CNN加速器的设计研究

下载免费PDF全文

王红亮程佳风《电子器件》2021,44(4):797-801

本文基于高层次综合工具设计了卷积加速电路,并根据加速电路的特性提出了卷积分解的优化方法,实现了一个适用于各种网络结构的高性能的卷积神经网络加速器。最后,本文选取Xilinx公司的PYNQ-Z2开发板对设计好的CNN加速器进行性能检测。测试结果表明,本文设计的CNN加速器在运行手写数字识别网络时的计算速度能够达到37.63FPS,相对于Pynq-Z2开发板上的嵌入式ARM处理器实现了42.1倍的加速效果。在计算精度上,硬件与软件的计算精度基本保持一致,都达到了98%以上的识别准确率。加速器运行手写数字识别网络时的平均功耗约为1.825W,功耗效率为20.62frames/J,完全满足低功耗设计要求。相似文献

9.

一种支持稀疏卷积的深度神经网络加速器的设计

周国飞《电子技术与软件工程》2020,(4):109-112

本论文针对深度升级网络中的卷积计算的循环特征,分析了当前已有的神经网络加速对于卷积计算的权重做二维并行和三维并行的实现方式,提出了一种新的神经网络加速器(DNNA)设计。本文DNNA合并二维并行和三维并行,并可根据卷积计算的参数特征灵活选择数据流,优化卷积计算的并行效率。本文DNNA对稀疏卷积可以既省略权重零值的计算,还可以均衡MAC算力。本文DNNA通过仿真和FPGA测试验证卷积计算正确性,在Xilinx ZYNQ-7000 FPGA板上,按256个MAC单元+256KByte Buffer实现,约需要27000 LUTs。相似文献

10.

利用数据稀疏性的LSTM加速器设计

高琛张帆高彦钊《电子学报》2021,49(2):209-215

针对长短时记忆神经网络(Long Short-Term Memory,LSTM)模型计算开销大、冗余计算较多的问题,本文提出一种利用输入数据稀疏性的LSTM加速器设计方案.本方案基于Delta网络算法,对输入序列的稀疏性进行构建,在避免数据不规则加载的前提下,对冗余矩阵向量乘法运算进行过滤;针对矩阵向量乘法计算模式进行... 相似文献

11.

Design of high parallel CNN accelerator based on FPGA for AIoT

林志坚高学伟陈小培祝志鹏杜小勇陈平平《中国邮电高校学报(英文版)》2022,29(5):1-9

相似文献

12.

卷积神经网络的FPGA并行加速设计与实现

满涛郭子豪曲志坚《电讯技术》2021,61(11):1438-1445

为提高目前硬件设备上运行卷积神经网络的速度和能效,针对主流的卷积神经网络提出了一种基于现场可编程门阵列(Field Programmable Gate Array,FPGA)的流水线并行加速方案,设计优化了数据存储模块、卷积计算模块、池化模块以及全连接模块,结合高层次综合技术构建了基于FP GA的卷积神经网络基本单元.为了降低加速系统的硬件开销,在保证卷积神经网络精度损失很小的前提下,采用数据量化的方式将网络参数从32位浮点数转化为16位定点数.系统测试使用MNIST数据集和CIFAR-10数据集,实验结果显示,所提出的卷积神经网络FPGA加速具有更快的识别效果,并且该方案在资源和功耗较少的情况下可以提供更好的性能,同时能够高效地利用FP GA上的硬件资源. 相似文献

13.

基于FPGA实现快速矩阵求逆算法

张繁何明亮《通信技术》2020,(2):318-321

Cholesky分解是一种矩阵运算方法。相比传统的矩阵求逆算法,它能够大大简化矩阵求逆的运算量,提高实时性。因此,介绍Cholesky分解原理及方法,并根据这一特性,在FPGA中实现基于Cholesky分解的快速矩阵求逆算法。FPGA具有流水线设计的特点,能够进一步提高接收抗干扰处理的实时性。用Matlab对FPGA实现的各种矩阵规模数据进行仿真,根据仿真结果和FPGA实际资源选取最优的FPGA实现方案。相似文献

14.

基于开源处理器Rocket的异构SoC设计与验证

高营刘德鞠虎《电子与封装》2021,(3):62-66

随着神经网络隐层数的增多,训练计算量增大.为提高算法的执行效率,包含硬件算法加速器的异构片上系统(SoC)相继被提出.开源处理器Rocket core项目含有核生成器,不仅能够定制核的个数而且含有协处理扩展接口,易于异构SoC的研究和设计工作.基于开源处理器Rocket core和开源项目Si-Five Blocks,... 相似文献

15.

基于分裂基-2/(2a)FFT算法的卷积神经网络加速性能的研究

伍家松达臻魏黎明 SENHADJILotfi 舒华忠《电子与信息学报》2017,39(2):285-292

卷积神经网络在语音识别和图像识别等众多领域取得了突破性进展,限制其大规模应用的很重要的一个因素就是其计算复杂度,尤其是其中空域线性卷积的计算。利用卷积定理在频域中实现空域线性卷积被认为是一种非常有效的实现方式,该文首先提出一种统一的基于时域抽取方法的分裂基-2/(2a) 1维FFT快速算法,其中a为任意自然数,然后在CPU环境下对提出的FFT算法在一类卷积神经网络中的加速性能进行了比较研究。在MNIST手写数字数据库以及Cifar-10对象识别数据集上的实验表明：利用分裂基-2/4 FFT算法和基-2 FFT算法实现的卷积神经网络相比于空域直接实现的卷积神经网络,精度并不会有损失,并且分裂基-2/4能取得最好的提速效果,在以上两个数据集上分别提速38.56%和72.01%。因此,在频域中实现卷积神经网络的线性卷积操作是一种十分有效的实现方式。相似文献

16.

卷积神经网络（CNN）训练中卷积核初始化方法研究

下载免费PDF全文

朱继洪裴继红赵阳《信号处理》2019,35(4):640-648

本文提出了一种基于样本图像局部模式聚类的卷积核初始化方法,该方法可用于卷积神经网络（Convolutional neural network, CNN）训练中卷积核的初始化。在卷积神经网络中,卷积核的主要作用可看成是利用匹配滤波提取图像中的局部模式,并将其作为后续图像目标识别的特征。为此本文在图像训练集中选取一部分典型的样本图像,在这些图像中抽取与卷积核相同大小的子图作为图像局部模式矢量集合。首先对局部模式子图集合应用拓扑特性进行粗分类,然后对粗分类后的每一子类采用势函数聚类的方法获取样本图像中的典型局部模式子图,构成候选子图模式集,用它们作为CNN的初始卷积核进行训练。实验结果表明,本文方法可以明显加速CNN网络训练初期的收敛速度,同时对最终训练后的网络识别精度也有一定程度的提高。相似文献