首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 218 毫秒
1.
针对卷积神经网络(CNN)计算量大、计算时间长的问题,该文提出一种基于现场可编程逻辑门阵列(FPGA)的卷积神经网络硬件加速器。首先通过深入分析卷积层的前向运算原理和探索卷积层运算的并行性,设计了一种输入通道并行、输出通道并行以及卷积窗口深度流水的硬件架构。然后在上述架构中设计了全并行乘法-加法树模块来加速卷积运算和高效的窗口缓存模块来实现卷积窗口的流水线操作。最后实验结果表明,该文提出的加速器能效比达到32.73 GOPS/W,比现有的解决方案高了34%,同时性能达到了317.86 GOPS。  相似文献   

2.
刘谦  王林林  周文勃 《电讯技术》2024,64(3):366-375
为提升在资源受限情况下的嵌入式平台上卷积神经网络(Convolutional Neural Network, CNN)目标识别的资源利用率和能效,提出了一种适用于YOLOv5s目标识别网络的现场可编程门阵列(Field Programmable Gate Array, FPGA)共享计算单元的并行卷积加速结构,该结构通过共享3×3卷积和1×1卷积的计算单元提高了加速器硬件资源利用率。此外,还利用卷积层BN(Batch Normalization)层融合、模型量化、循环分块以及双缓冲等策略,提高系统计算效率并减少硬件资源开销。实验结果表明,加速器在200 MHz的工作频率下,实现的卷积计算峰值性能可达97.7 GOPS(Giga Operations per Second),其YOLOv5s网络的平均计算性可达78.34 GOPS,与其他FPGA加速器方案相比在DSP效率、能耗比以及整体性能等方面具有一定的提升。  相似文献   

3.
近年来,卷积神经网络(Convolutional Neural Networks,CNN)在多个领域取得了快速的发展。然而受到传统冯·诺依曼结构中数据的存储模块与运算模块分离的影响,一定程度上限制了CNN性能的提升。本文介绍了一种以12T SRAM(Static Random-Access Memory,SRAM)单元为基础的存内计算结构。用于实现CNN中4bit输入与4bit权重的卷积运算。在CMOS工艺下对设计的电路进行仿真,在2GHz频率下实现了46.1~117.3TOPS/W(Tera Operation Per Second Per Watt,TOPS/W)的能效。  相似文献   

4.
本论文针对深度升级网络中的卷积计算的循环特征,分析了当前已有的神经网络加速对于卷积计算的权重做二维并行和三维并行的实现方式,提出了一种新的神经网络加速器(DNNA)设计。本文DNNA合并二维并行和三维并行,并可根据卷积计算的参数特征灵活选择数据流,优化卷积计算的并行效率。本文DNNA对稀疏卷积可以既省略权重零值的计算,还可以均衡MAC算力。本文DNNA通过仿真和FPGA测试验证卷积计算正确性,在Xilinx ZYNQ-7000 FPGA板上,按256个MAC单元+256KByte Buffer实现,约需要27000 LUTs。  相似文献   

5.
王红亮  程佳风 《电子器件》2021,44(4):797-801
本文基于高层次综合工具设计了卷积加速电路,并根据加速电路的特性提出了卷积分解的优化方法,实现了一个适用于各种网络结构的高性能的卷积神经网络加速器。最后,本文选取Xilinx公司的PYNQ-Z2开发板对设计好的CNN加速器进行性能检测。测试结果表明,本文设计的CNN加速器在运行手写数字识别网络时的计算速度能够达到37.63FPS,相对于Pynq-Z2开发板上的嵌入式ARM处理器实现了42.1倍的加速效果。在计算精度上,硬件与软件的计算精度基本保持一致,都达到了98%以上的识别准确率。加速器运行手写数字识别网络时的平均功耗约为1.825W,功耗效率为20.62frames/J,完全满足低功耗设计要求。  相似文献   

6.
刘杰  葛一凡  田明  马力强 《电子学报》2021,49(4):729-735
针对卷积神经网络中卷积运算复杂度高、计算量大及算法在CPU和GPU上计算时存在延时及功耗限制问题,从提高现有硬件平台计算速率、降低功耗角度出发,设计了一种基于ZYNQ的具有高吞吐率和低功耗的可重构神经网络加速系统.为充分利用运算资源,探索了一种卷积运算循环优化电路;为降低带宽访问量,设计了一种数据在内存中的特殊排列方式...  相似文献   

7.
针对卷积神经网络(CNN)在嵌入式端的应用受实时性限制的问题,以及CNN卷积计算中存在较大程度的稀疏性的特性,该文提出一种基于FPGA的CNN加速器实现方法来提高计算速度。首先,挖掘出CNN卷积计算的稀疏性特点;其次,为了用好参数稀疏性,把CNN卷积计算转换为矩阵相乘;最后,提出基于FPGA的并行矩阵乘法器的实现方案。在Virtex-7 VC707 FPGA上的仿真结果表明,相比于传统的CNN加速器,该设计缩短了19%的计算时间。通过稀疏性来简化CNN计算过程的方式,不仅能在FPGA实现,也能迁移到其他嵌入式端。  相似文献   

8.
钟文斌  周志刚  王丽云  李超 《电讯技术》2013,53(9):1223-1228
为实现E-band(E频段)通信系统中的高速成形滤波,在已有快速FIR滤波算法(FFA)基础上,通过快速短卷积迭代以及张量展开算法,设计了一种高速并行FIR成形滤波器,并进行硬件复杂度分析与时延分析。浮点和定点数仿真验证结果表明,所设计高速并行滤波器在硬件实现上可减少21%的乘法运算操作和1314%的时延单元,6比特以上小数量化可达到系统成形滤波需求。  相似文献   

9.
针对当前AI专用加速器设计复杂且存在内存瓶颈等不足,提出一种通用型卷积神经网络加速器架构.其RISC(Reduced Instruction Set Computer)指令集支持不同类型卷积神经网络到硬件加速器的高效映射.其通用卷积计算模块是一个由多个基本运算单元组成的可重构三维脉动阵列,支持不同尺寸的二维卷积计算;脉动阵列规模可根据需要进行配置,适用不同的并行加速需求.为缓解内存瓶颈、提高算力,输入模块引入多级缓存结构,可实现对片外数据的高速读取;输出模块设计一种基于“乒乓”架构的多级数据累加结构,以实现卷积计算结果的高速缓存输出.将所提架构在FPGA芯片上予以实现,实验结果表明该架构凭借较少计算资源和较低功耗取得了与当前先进加速器相近的性能,且通用性更强.  相似文献   

10.
针对配电网接地故障可能对电力可靠供应造成严重威胁的现状,开展了一二次融合电力环网箱接地定位算法的设计研究。在分析了一二次融合电力环网箱结构与优点的基础上,采用经验模态分解(EMD)算法来处理故障信号,并获得了多个内涵模态分量(IMF)。同时将IMF分量作为卷积神经网络(CNN)的输入,利用CNN自动学习进行故障信号与位置的关联分析,进而实现对故障的精准定位。通过对实际电网数据集进行的测试结果表明,EMD算法可实现对不同频率故障特征的提取,以减少后续神经网络模型的训练时长;且CNN模型具有深层的网络结构,能够提高故障定位的准确度,并保障电能的高可靠供应。  相似文献   

11.
12.
蹇强  张培勇  王雪洁 《电子学报》2019,47(7):1525-1531
针对卷积神经网络中卷积运算复杂度高而导致计算时间过长的问题,本文提出了一种八级流水线结构的可配置CNN协加速器FPGA实现方法.通过在卷积运算控制器中嵌入池化采样控制器的复用手段使计算模块获得更多资源,利用mirror-tree结构来提高并行度,并采用Map算法来提高计算密度,同时加快了计算速度.实验结果表明,当精度为32位定点数/浮点数时,该实现方法的计算性能达到22.74GOPS.对比MAPLE加速器,计算密度提高283.3%,计算速度提高了224.9%,对比MCA(Memory-Centric Accelerator)加速器,计算密度提高了14.47%,计算速度提高了33.76%,当精度为8-16位定点数时,计算性能达到58.3GOPS,对比LBA(Layer-Based Accelerator)计算密度提高了8.5%.  相似文献   

13.
在行星探测任务中,针对尺度不变特征变换(SIFT)算法计算量大,无法同时满足对导航算法准确性和实时性要求的问题,提出了一种基于快速高斯模糊的并行化SIFT算法,即FG-SIFT算法。首先,将算法中构建高斯金字塔的二维高斯核函数分离成两个一维高斯函数,降低算法的计算复杂度。然后,对于每一维高斯函数,使用两个无限脉冲响应滤波器串联进行逼近,进一步减少计算量。最后,利用并行化处理的优势,设计算法各部分的并行化计算方案。仿真结果表明,FG-SIFT算法的计算效率相较于原SIFT算法平均提高了15倍,相较于没有使用快速高斯模糊的SIFT算法,在图形处理器上的运行效率也有近2倍的提高,很大程度上减少了特征点提取的计算时长,提高了算法的实时性。  相似文献   

14.
现场可编程门阵列(FPGA)被广泛应用于卷积神经网络(CNN)的硬件加速中。为优化加速器性能,Qu等人(2021)提出了一种3维可变换的CNN加速结构,但该结构使得并行度探索空间爆炸增长,搜索最优并行度的时间开销激增,严重降低了加速器实现的可行性。为此该文提出一种细粒度迭代优化的并行度搜索算法,该算法通过多轮迭代的数据筛选,高效地排除冗余的并行度方案,压缩了超过99%的搜索空间。同时算法采用剪枝操作删减无效的计算分支,成功地将计算所需时长从106 h量级减少到10 s内。该算法可适用于不同规格型号的FPGA芯片,其搜索得到的最优并行度方案性能突出,可在不同芯片上实现平均(R1, R2)达(0.957, 0.962)的卓越计算资源利用率。  相似文献   

15.
SIMD处理机特别适合于要求大量高速向量或矩阵计算的场合,数据缓存系统和对准网络是它的关键部件。而图像卷积是图像处理技术中最基本也是最重要的一项技术,本文根据数字图像的卷积定理对数字图像的卷积运算进行了分析,并提出了一种基于SIMD处理机的可变卷积模板的图像卷积处理器的体系结构。该处理器内部包含有接口部件、控制部件、数据缓存系统、对准电路和执行部件等。它的极高效率的数据缓存系统和对准电路成为该处理器最有特色的部分,它从根本上解决了图像卷积中的数据复用带来的CPU重复访问主存储器的问题。实现了卷积模板为3×3的图像卷积运算,从而实现了对卷积计算的硬件加速目的。最后,对这个图像卷积处理器体系结构的性能及其可扩展性进行了缜密的分析。  相似文献   

16.
为了提高基于卷积神经网络的调制样式识别算法性能,利用CNN的空间特征提取能力和LSTM时序特征提取能力,设计了CNN-LSTM并联网络,上支路由一层卷积层和一层池化层组成,下支路使用单层LSTM网络。直接将同向分量和正交分量作为输入数据,上下支路提取信号的空间和时间特征,提高特征表达能力。对BPSK、QPSK、8PSK、16QAM、32QAM、16APSK、32APSK 等7种信号的调制样式识别仿真实验结果表明:算法无需人为设计特征参数,减少人为因素影响,同时该算法在低信噪比下具有较好的识别性能。   相似文献   

17.
用快速哈达玛变换加速滤波反投影算法的滤波过程   总被引:1,自引:0,他引:1  
为了加速滤波反投影算法的滤波过程,提出了用快速哈达玛变换(FHT)实现线性卷积的快速算法。分析了哈达玛变换的特点和快速算法的时间复杂度,设计了用FHT计算线性卷积的矩阵表达式,并推导出了哈达玛域滤波器的增益矩阵的求解公式,分析了该方法的加速原理及其适用条件。理论分析表明,该方法比FFT线性卷积法快了一倍。仿真实验表明,该方法在不影响图像重建精度的情况下,相对于FFT线性卷积法,将滤波过程的速度提高了近一倍。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号