首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 625 毫秒
1.
针对卷积神经网络(CNN)计算量大、计算时间长的问题,该文提出一种基于现场可编程逻辑门阵列(FPGA)的卷积神经网络硬件加速器。首先通过深入分析卷积层的前向运算原理和探索卷积层运算的并行性,设计了一种输入通道并行、输出通道并行以及卷积窗口深度流水的硬件架构。然后在上述架构中设计了全并行乘法-加法树模块来加速卷积运算和高效的窗口缓存模块来实现卷积窗口的流水线操作。最后实验结果表明,该文提出的加速器能效比达到32.73 GOPS/W,比现有的解决方案高了34%,同时性能达到了317.86 GOPS。  相似文献   

2.
为减少卷积神经网络(CNN)的计算量,该文将2维快速滤波算法引入到卷积神经网络,并提出一种在FPGA上实现CNN逐层加速的硬件架构。首先,采用循环变换方法设计行缓存循环控制单元,用于有效地管理不同卷积窗口以及不同层之间的输入特征图数据,并通过标志信号启动卷积计算加速单元来实现逐层加速;其次,设计了基于4并行快速滤波算法的卷积计算加速单元,该单元采用若干小滤波器组成的复杂度较低的并行滤波结构来实现。利用手写数字集MNIST对所设计的CNN加速器电路进行测试,结果表明:在xilinx kintex7平台上,输入时钟为100 MHz时,电路的计算性能达到了20.49 GOPS,识别率为98.68%。可见通过减少CNN的计算量,能够提高电路的计算性能。  相似文献   

3.
针对卷积神经网络在极致边缘计算(UEC)场景应用中的性能和功耗需求,该文针对场景中16 Bit量化位宽的网络模型提出一种不依赖外部存储的卷积神经网络(CNN)加速器架构,该架构基本结构设计为基于现场可编程逻辑门阵列(FPGA)的多核CNN全流水加速器。在此基础上,实现了该加速器的层内映射与层间融合优化。然后,通过构建资源评估模型在理论上完成架构中的计算资源与存储资源评估,并在该理论模型指导下,通过设计空间探索来最大化资源使用率与计算效率,进而充分挖掘加速器在计算资源约束条件下的峰值算力。最后,以纳型无人机(UAV)自主快速人体检测UEC场景为例,通过实验完成了加速器架构性能验证与分析。结果表明,在实现基于单步多框目标检测(SSD)的人体检测神经网络推理中,加速器在100 MHz和25 MHz主频下分别实现了帧率为137和34的推理速度,对应功耗分别为0.514 W和0.263 W,满足纳型无人机自主计算这种典型UEC场景对图像实时处理的性能与功耗需求。  相似文献   

4.
针对卷积神经网络(CNN)在嵌入式端的应用受实时性限制的问题,以及CNN卷积计算中存在较大程度的稀疏性的特性,该文提出一种基于FPGA的CNN加速器实现方法来提高计算速度。首先,挖掘出CNN卷积计算的稀疏性特点;其次,为了用好参数稀疏性,把CNN卷积计算转换为矩阵相乘;最后,提出基于FPGA的并行矩阵乘法器的实现方案。在Virtex-7 VC707 FPGA上的仿真结果表明,相比于传统的CNN加速器,该设计缩短了19%的计算时间。通过稀疏性来简化CNN计算过程的方式,不仅能在FPGA实现,也能迁移到其他嵌入式端。  相似文献   

5.
殷云华  李会方 《红外与激光工程》2018,47(2):203008-0203008(8)
有效学习丰富的表征信息在RGB-D目标识别任务中至关重要,是实现高泛化性能的关键。针对卷积神经网络训练时间长的问题,提出了一种混合卷积自编码极限学习机(HCAE-ELM)结构,包括卷积神经网络(CNN)和自编码极限学习机(AE-ELM),该结构合并了CNN的有效性和AE-ELM快速性的优点。它使用卷积层和池化层分别从RGB和深度图来有效提取低阶特征,然后在共享层合并两种模型特征,输入到自编码极限学习机中以得到高层次的特征,最终的特征使用极限学习机(ELM)进行分类,以获得更好的快速泛化能力。文中在标准的RGB-D数据集上进行了评估测试,其实验结果表明,相比较深度学习和其他的ELM方法,文中的混合卷积自编码极限学习机模型取得了良好的测试准确率,并且有效地缩减了训练时间。  相似文献   

6.
蹇强  张培勇  王雪洁 《电子学报》2019,47(7):1525-1531
针对卷积神经网络中卷积运算复杂度高而导致计算时间过长的问题,本文提出了一种八级流水线结构的可配置CNN协加速器FPGA实现方法.通过在卷积运算控制器中嵌入池化采样控制器的复用手段使计算模块获得更多资源,利用mirror-tree结构来提高并行度,并采用Map算法来提高计算密度,同时加快了计算速度.实验结果表明,当精度为32位定点数/浮点数时,该实现方法的计算性能达到22.74GOPS.对比MAPLE加速器,计算密度提高283.3%,计算速度提高了224.9%,对比MCA(Memory-Centric Accelerator)加速器,计算密度提高了14.47%,计算速度提高了33.76%,当精度为8-16位定点数时,计算性能达到58.3GOPS,对比LBA(Layer-Based Accelerator)计算密度提高了8.5%.  相似文献   

7.
刘谦  王林林  周文勃 《电讯技术》2024,64(3):366-375
为提升在资源受限情况下的嵌入式平台上卷积神经网络(Convolutional Neural Network, CNN)目标识别的资源利用率和能效,提出了一种适用于YOLOv5s目标识别网络的现场可编程门阵列(Field Programmable Gate Array, FPGA)共享计算单元的并行卷积加速结构,该结构通过共享3×3卷积和1×1卷积的计算单元提高了加速器硬件资源利用率。此外,还利用卷积层BN(Batch Normalization)层融合、模型量化、循环分块以及双缓冲等策略,提高系统计算效率并减少硬件资源开销。实验结果表明,加速器在200 MHz的工作频率下,实现的卷积计算峰值性能可达97.7 GOPS(Giga Operations per Second),其YOLOv5s网络的平均计算性可达78.34 GOPS,与其他FPGA加速器方案相比在DSP效率、能耗比以及整体性能等方面具有一定的提升。  相似文献   

8.
针对特定应用场景下,Tiny-YOLOv3(You Only Look Once v3)网络在嵌入式平台部署时存在资源开销大、运行速度慢的问题,文中提出了一种结合剪枝与量化的结构化压缩方案,并搭建了针对压缩后网络的卷积层加速系统。结构化压缩方案使用稀疏化训练与通道剪枝来减少网络中的计算量,使用激活值定点数量化和权重二的整数次幂量化来减少网络卷积层中的参数存储量。在卷积层加速系统中,可编程逻辑部分按照并行加流水线方法设计了一个卷积层加速器核,处理系统部分负责卷积层加速系统调度。实验结果表明,Tiny-YOLOv3经过结构化压缩后的网络平均准确度为0.46,参数压缩率达到了5%。卷积层加速系统在Xilinx的ZYNQ芯片进行部署时,硬件可以稳定运行在250 MHz时钟频率下,卷积运算单元的算力为36 GOPS。此外,加速平台整体功耗为2.6 W,且硬件设计节约了硬件资源。  相似文献   

9.
卷积神经网络(CNN)近年来已经广泛应用在各种化学计量学任务中。然而,通过CNN从光谱中学习长程相关性仍然是一个挑战,为了避免过拟合,很多之前的工作中使用的CNN架构都很浅。本文提出了一种并行空洞卷积网络(ACPnet)的方法来学习定量光谱的长程相关性,该方法将具有不同空洞率的并行卷积分支组合在一起,以寻找近程和长程相关性的最佳平衡。并在片剂(拉曼光谱)、土壤(近红外光谱)和葡萄酒(核磁共振光谱)3个数据集上验证了该方法的通用性。结果表明,与偏最小二乘回归(PLS)、最小二乘支持向量机(LS-SVM)、常规CNN和级联模式空洞卷积网络(ACCnet)相比,ACPnet在3个数据集的回归精度都达到了最佳。此外,将ACPnet提取的特征输入到不同的回归器中进行分析,来评估该结构作为有监督特征提取器的性能。特征提取-回归模型的预测结果表明,ACPnet在3个数据集上提取的特征信息都要优于常规CNN。  相似文献   

10.
并行处理JPEG算法的优化   总被引:10,自引:0,他引:10       下载免费PDF全文
薛永林  刘珂  李凤亭 《电子学报》2002,30(2):160-162
本文结合指令级并行32位定点处理器的结构特点,对JPEG算法中DCT、量化及Huffman编码等步骤,提出一些适于并行处理算法和数据结构的优化方法,以有效发挥其高速并行的性能.模拟结果表明本文的方法显著提高了JPEG算法并行实现的效率,适于图像压缩的一些实时应用.  相似文献   

11.
近年来,卷积神经网络(Convolutional Neural Network,CNN)在合成孔径雷达(Synthetic Aperture Radar,SAR)图像目标分类中取得了较好的分类结果。CNN结构中,前面若干层由交替的卷积层、池化层堆叠而成,后面若干层为全连接层。全卷积神经网络(All Convolutional Neural Network, A-CNN)是对CNN结构的一种改进,其中池化层和全连接层都用卷积层代替,该结构已在计算机视觉领域被应用。针对公布的MSTAR数据集,提出了基于A-CNN的SAR图像目标分类方法,并与基于CNN的SAR图像分类方法进行对比。实验结果表明,基于A-CNN的SAR图像目标分类正确率要高于基于CNN的分类正确率。  相似文献   

12.
牛朝旭  孙海江 《液晶与显示》2023,(11):1521-1530
为实现卷积神经网络在低功耗、边缘计算等场景中的加速计算,设计了一种基于现场可编程门阵列(FPGA)的Winograd算法卷积神经网络加速器。首先,将图像数据和权重数据量化为8位定点数,并设计了硬件卷积计算过程中的量化流程,提升了数据传输速度和计算速度。接着,设计了输入数据缓存复用模块,将多输入通道数据融合后传输,复用了行重叠数据。然后设计了Winograd流水线卷积模块,实现列数据的组合复用,从而最大化重用了片上数据,降低了片上数据存储的占用和带宽压力。最后将加速器在Xilinx的ZCU104开发板上部署。经过实验验证,加速器的卷积层计算性能达到354.5 GOPS,片上DSP计算效率达到0.69,与相关研究相比,实现了1.6倍以上的提升。该加速器能够以高能效比完成基于VGG-16网络的遥感图像分类任务。  相似文献   

13.
本文针对图象匹配技术在飞行器巡航制导和导弹末制导中的应用,分析了在传统串行结构上执行图象匹配算法时影响执行速度提高的因素,以及相关匹配算法的实时性及并行性,为了提高相关匹配算法的匹配实时性,提出了一种加速执行图象匹配算法的硬件并行结构(二维并行卷积器).通过引入多级流水、多条流水线和多个并行处理单元,使该结构的二维卷积器在计算卷积时大大减少了存储器的访问操作次数,从而加速了图象匹配的操作,增强了图象匹配的实时性.  相似文献   

14.
卷积神经网络(convolutional neural network, CNN)作为传统神经网络的改进,已经得到了广泛的应用。然而,在CNN性能提升的同时其模型的规模不断扩大,对存储及算力的要求越来越高,基于冯·诺依曼体系结构的处理器难以达到令人满意的高处理性能。为了提升系统性能,近存储计算(near memory computing, NMC)成为了一个具有发展前景的研究方向。本文利用一种支持NMC的可重构阵列处理器实现手写数字识别,并行地实现了卷积运算;同时利用共享缓存阵列结构,减少片外存储的频繁访问。实验结果表明,在110 MHz的工作频率下,执行单个5×5卷积运算的计算速度提升了75.00%,可以在9 960μs内实现一个手写数字的识别。  相似文献   

15.
目前,多数的外包卷积神经网络(CNN)模型采用同态加密、安全多方计算等方法来保护敏感数据的隐私性。然而,上述方法存在计算与通信开销过大而引起的系统效率较低的问题。利用函数加密的低开销特点,构建了基于函数加密的密文卷积神经网络模型。首先,设计了内积函数加密算法和基本运算函数加密算法,实现了密文数据的内积、乘法、减法等基本运算,降低了计算与通信开销;然后,设计了针对基本运算的安全卷积计算协议和安全损失优化协议,实现了卷积层的密文前向传播和输出层的密文反向传播;最后,给出了模型的安全训练和分类方法,通过将以上安全协议进行模块化顺序组合的方式实现CNN对密文数据的训练和分类,该方法可以同时保护用户数据和标签的机密性。理论分析和实验结果表明,所提模型能够在保证正确性和安全性的前提下实现密文数据的训练和分类。  相似文献   

16.
介绍了一种基于DSP+FPGA的高速数据采集系统的设计方案,结合TMS320VC5402定点DSP芯片强大的数据处理能力与FPGA构成线性流水阵列结构.该系统能够以80Mbps采样速度完成大容量数据的获取,从而使系统具有良好的数据采集性能。在数据处理过程中,本方案提出了用硬件电路方法来实现数据的实时无损压缩存储或转发.从而实现多通道高速并行数据采集的设计思路。  相似文献   

17.
高凡  杨小冈  卢瑞涛  王思宇  高久安  夏海 《红外与激光工程》2022,51(4):20220193-1-20220193-9
针对红外目标的特点,提出了一种anchor-free轻量级红外目标检测方法,提高了嵌入式平台对红外目标的检测能力。针对计算资源有限的平台,提出了一种新的轻量级卷积结构,引入非对称卷积增强标准卷积的特征表达能力,同时有效减少参数和计算量。设计并行多路特征通道,经过通道拼接生成丰富的特征,结合注意力模块和Channel Shuffle构建轻量级特征提取单元。增加SkipBranch促进浅层信息向高层传递,进一步丰富高层特征。在FLIR数据集进行实验验证,设计的轻量级网络结构精度为81.7% ,超过了 YOLOv4-tiny,但模型参数量减少了75.0%、计算量下降了71.1%,并且推理时间压缩了91.3%,能够满足嵌入式平台红外目标的实时检测需求。  相似文献   

18.
自适应波束形成权递推自脉动阵实现   总被引:1,自引:0,他引:1  
本文提出了一种新的自适应波束形成权矢量递推计算的数据域并行实现算法及其脉动阵(Systolic阵)实现结构。算法基于数据矩阵Q R分解方法实现,在脉动阵上实现了完全并行流水处理。  相似文献   

19.
为了提高干涉雷达对人体切向动作的识别性能,本文提出一种基于三通道CNN?GSAM?LSTFEM网络的人体切向动作识别方法。首先利用一发二收的调频连续波(FMCW)雷达搭建干涉雷达平台采集人体切向动作回波数据,之后对每个接收通道的回波数据进行预处理,得到每个接收通道的多普勒时频图(DTFM)和双通道的干涉时频图(ITFM),然后将这3种时频图分别送入到3个并行的CNN?GSAM?LSTFEM网络进行训练,利用全局空间注意力模块(GSAM)和长短时特征提取模块(LSTFEM)增强卷积神经网络(CNN)的特征提取能力,最后将三通道提取的特征进行融合实现人体切向动作识别。实验结果表明,所提方法可有效提高人体切向动作的识别准确率,平均准确率高达98.77%。  相似文献   

20.
江泽涛  秦嘉奇  张少钦 《电子学报》2000,48(9):1729-1734
传统的卷积神经网络使用池化层对信息进行降维操作,通常会造成信息损失,从而影响网络的表达能力.针对这一问题,使用参数池化层(Parameterized Pooling Layer)替代传统卷积神经网络中的池化层,提出参数池化卷积神经网络(Parameterized Pooling CNN,PPCNN).参数池化层在仅仅增加了少量网络参数的情况下,最大可能的保留了卷积神经网络中希望被保留下来的特征;同时,由于增加了池化层前向传播的信息,从而影响了反向传播算法中权值的更新,网络收敛速度更快;实验结果表明,PPCNN模型与传统卷积神经网络模型以及部分改进模型相比,参数池化卷积神经网络模型是有效的.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号