共查询到19条相似文献,搜索用时 51 毫秒
1.
针对卷积神经网络(CNN)计算量大、计算时间长的问题,该文提出一种基于现场可编程逻辑门阵列(FPGA)的卷积神经网络硬件加速器。首先通过深入分析卷积层的前向运算原理和探索卷积层运算的并行性,设计了一种输入通道并行、输出通道并行以及卷积窗口深度流水的硬件架构。然后在上述架构中设计了全并行乘法-加法树模块来加速卷积运算和高效的窗口缓存模块来实现卷积窗口的流水线操作。最后实验结果表明,该文提出的加速器能效比达到32.73 GOPS/W,比现有的解决方案高了34%,同时性能达到了317.86 GOPS。 相似文献
2.
为实现卷积神经网络在低功耗、边缘计算等场景中的加速计算,设计了一种基于现场可编程门阵列(FPGA)的Winograd算法卷积神经网络加速器。首先,将图像数据和权重数据量化为8位定点数,并设计了硬件卷积计算过程中的量化流程,提升了数据传输速度和计算速度。接着,设计了输入数据缓存复用模块,将多输入通道数据融合后传输,复用了行重叠数据。然后设计了Winograd流水线卷积模块,实现列数据的组合复用,从而最大化重用了片上数据,降低了片上数据存储的占用和带宽压力。最后将加速器在Xilinx的ZCU104开发板上部署。经过实验验证,加速器的卷积层计算性能达到354.5GOPS,片上DSP计算效率达到0.69,与相关研究相比,实现了1.6倍以上的提升。该加速器能够以高能效比完成基于VGG-16网络的遥感图像分类任务。 相似文献
3.
随着当今时代的发展和科技的进步,研究人员在集成电路的设计和制造工艺上获得了巨大的突破。其中FPGA因其具有独特的并行结构,可以减少运算时间,提高效率的优势而被越来越多开发者的选择,在当今具有重要的作用。早在1960年代,科学家们在研究猫大脑皮层中的神经元对部分敏感和定向的神经元时,他们惊奇的发现反馈神经网络的复杂程度被这独特的网络结构降低了,这引起了科学家们的兴趣。随着他们的深入研究,继而提出了卷积神经网络。卷积神经网络(CNN)作为当下的新兴算法脱颖而出,它的计算方式十分特别因而引起了研究者极大的兴趣,是多层神经网络研究的主攻方向,对于它的深入研究在现在甚至是未来都有很重要的作用,可以用于识别图像,对当今社会具有重要的现实意义和使用价值。权值共享,减少参数数量,在输入我们需要识别的图片后,提取特征获取信息,最后将信息收集起来是卷积神经网络通常使用的方法。这是卷积神经网络通常采取用于识别图像的方法,本文也会更加清楚的说明其基本结构和工作流程,把目前对于卷积神经网络已有研究成果的作为本文研究的基石,深入了解并且研讨卷积神经网络的并行系统构造,探究其运行方法和效益,并且研究FPGA与CNN的结合。 相似文献
4.
5.
针对基于FPGA平台的神经网络开发周期过长、调节网络模型麻烦等问题,设计了一种基于ZYNQ的通用型卷积神经网络模型。首先通过Tensorflow平台搭建神经网络并训练得到模型各层权重;其次利用高层次综合工具进行卷积层和池化层的IP核设计;然后在ZYNQ平台上部署模型;最后分别运行了Le Net-5和Alex Net-8神经网络进行验证。实验结果表明模型在只损失极少准确度的情况下,卷积与池化运算速度相比于ARM平台分别提高了3.65倍和2.31倍,并具备通用性。 相似文献
6.
当前卷积神经网络模型存在规模过大且运算复杂的问题,难以应用部署在资源受限的计算平台.针对此问题,本文基于数据标准差提出了一种适合部署在现场可编程门阵列(Field Programmable Gate Array, FPGA)上的对数量化方法 .首先,依据FPGA的特性提出对数量化方法,将32 bit浮点乘法运算转换为整数乘法及移位运算,提高了运算效率.然后通过研究数据分布特点,提出基于数据标准差的输入量化及权值混合bit量化方法,能够有效减少量化损失.通过对RepVGG、EfficientNet等网络进行效率与精度对比实验,8 bit量化使得大型神经网络精度仅下降1%左右;输入量化为8 bit,权重量化为10 bit场景下,模型精度损失小于0.2%,达到浮点模型几乎相同的准确率.实验表明,所提量化方法能够使得模型大小减少75%左右,在基本保持原有模型准确率的同时有效地降低功耗损失、提高运算效率. 相似文献
7.
为满足CT图像重建系统的实时处理要求,提出了一种基于FPGA实现CT图像重建的加速方法。首先将滤波反投影算法进行并行性分解,然后采用并行流水线设计思想,给出了算法在FPGA上实现的总体结构,并且分别给出滤波、反投影、循环累加等主要功能单元的电路设计,最后在FPGA上实现了12条并行流水线重建系统。实验结果表明,与基于CPU的图像重建相比较,基于FPGA的重建系统重建出的图像绝对误差小于0.4%,加速比在100倍以上,且重建图像的规模越大,加速效果越明显。 相似文献
8.
从实际工程应用出发,研究了在基于FPGA上快速傅里叶变换实现线性卷积的方法,并搭建了一个基于Altera 的EP2S60硬件处理平台,利用Altera提供的FFT IP核,在100 MHz系统时钟下,数据吞吐率可达100 Ms/s。 相似文献
10.
通过EP2C20Q240器件和LPC2478处理器,研究ARM应用系统外部并行总线的工作原理和时序特性,以及在FPGA中进行双向总线设计的原则,设计并实现了FPGA并行总线。借助Quartus II仿真工具,对FPGA并行总线进行了时序仿真,并用SignalTap II逻辑分析仪进行在线测试,验证设计的正确性。 相似文献
11.
基于CPU及GPU的卷积神经网络平台存在体积大、能耗高等问题,提出了一种基于Zynq平台的卷积神经网络人脸检测加速系统。该系统采用YOLOv3-Tiny算法,并利用Wider Face人脸数据集进行训练。为提高网络效率,采用层融合技术减小网络深度,加快检测速度;同时,采用8位整数量化策略,以降低内存访问量,减少资源消耗。通过利用ZynqXC7Z035芯片上FPGA端并行计算能力,设计出可重复利用的多通道卷积计算模块,实现DSP的重复递用。实验结果显示,所设计的加速系统实现了9.5FPS的实时推理速度,检测速度是intel i7-8700CPU的7.9倍,系统功耗仅为2.65W,满足低功耗的性能需求。 相似文献
12.
针对卷积神经网络中卷积运算复杂度高而导致计算时间过长的问题,本文提出了一种八级流水线结构的可配置CNN协加速器FPGA实现方法.通过在卷积运算控制器中嵌入池化采样控制器的复用手段使计算模块获得更多资源,利用mirror-tree结构来提高并行度,并采用Map算法来提高计算密度,同时加快了计算速度.实验结果表明,当精度为32位定点数/浮点数时,该实现方法的计算性能达到22.74GOPS.对比MAPLE加速器,计算密度提高283.3%,计算速度提高了224.9%,对比MCA(Memory-Centric Accelerator)加速器,计算密度提高了14.47%,计算速度提高了33.76%,当精度为8-16位定点数时,计算性能达到58.3GOPS,对比LBA(Layer-Based Accelerator)计算密度提高了8.5%. 相似文献
13.
为了解决光纤布拉格光栅(FBG)传感网络的光谱信号混叠问题,基于现场可编程门阵列(FPGA)提出了一种利用卷积神经网络(CNN)模型的混叠光谱信号解调算法,并对其进行硬件实现与加速。通过对模型参数进行定点数量化,压缩网络模型的存储空间,提高FPGA中DSP资源的利用率;利用循环展开和数组重排等硬件优化方法,提高了系统实时性,确定了算法的并行计算方案。研究结果表明,在100 MHz的时钟下,测试集解调精度为1.19 pm,推理速度为每帧14.96μs,光谱解调速率为60 kHz,对于FBG混叠光谱信号解调具有较高的精度和速率。 相似文献
14.
为提升在资源受限情况下的嵌入式平台上卷积神经网络(Convolutional Neural Network, CNN)目标识别的资源利用率和能效,提出了一种适用于YOLOv5s目标识别网络的现场可编程门阵列(Field Programmable Gate Array, FPGA)共享计算单元的并行卷积加速结构,该结构通过共享3×3卷积和1×1卷积的计算单元提高了加速器硬件资源利用率。此外,还利用卷积层BN(Batch Normalization)层融合、模型量化、循环分块以及双缓冲等策略,提高系统计算效率并减少硬件资源开销。实验结果表明,加速器在200 MHz的工作频率下,实现的卷积计算峰值性能可达97.7 GOPS(Giga Operations per Second),其YOLOv5s网络的平均计算性可达78.34 GOPS,与其他FPGA加速器方案相比在DSP效率、能耗比以及整体性能等方面具有一定的提升。 相似文献
15.
16.
针对卷积神经网络(CNN)在图像压缩耗费较大存储空间问题,文中通过研究压缩CNN参数的矢量量化方法解决了CNN模型的存储问题。通过压缩密集连接层的存储方式使得矢量量化方法比现有的矩阵分解方法更具优势。将k-均值聚类(KM)应用于权重和乘积量化可以在模型大小和识别精度之间取得较好的权衡。实验结果表明,结构化量化方法的效果明显优于其他方法,通过对图像压缩检索验证了压缩模型的泛化能力。 相似文献
17.
为提高非合作通信系统的调制方式识别准确率,提出了一种基于并联门控循环单元(GatedCycle Unit,GRU)神经网络和卷积神经网络(Convolutional Neural Network,CNN)的数字通信信号识别方法.根据调制信号的特性,将笛卡尔坐标下的原始数据转换到极坐标下,同时求原始数据的自相关序列,作为输入数据分别送入GRU和CNN网络中.对含BPSK、QPSK、8PSK、π/4-DQPSK以及四类QAM调制信号集合进行的实测信号实验结果表明,所提方法在低信噪比下能取得较好的识别性能,在0 dB时平均识别率接近90%. 相似文献
18.