首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
大多数基于卷积神经网络(CNN)的算法都是计算密集型和存储密集型的,很难应用于具有低功耗要求的航天、移动机器人、智能手机等嵌入式领域.针对这一问题,提出一种面向CNN的高并行度现场可编程逻辑门阵列(FPGA)加速器.首先,比较研究CNN算法中可用于FPGA加速的4类并行度;然后,提出多通道卷积旋转寄存流水(MCRP)结...  相似文献   

2.
针对高效视频编解码标准中后处理CNN算法在通用平台运行时产生的高延时缺点,提出一种基于现场可编程逻辑门阵列(FPGA)的后处理卷积神经网络硬件并行架构。提出的并行架构通过改进输入与输出缓冲的数据并发过程,调整卷积模块整体并行度,加快模块硬件流水。实验结果表明,基于本文所提出的并行架构设计的CNN硬件加速器在Xilinx ZCU102上处理分辨率为176×144视频流,计算性能相当于每秒360.5 GFLOPS,计算速度可满足81.01 FPS,相比时钟频率4 GHz的Intel i7-4790K,计算速度加快了76.67倍,相比NVIDIA GeForce GTX 750Ti加速了32.50倍。在计算能效比方面,本文后处理CNN加速器功耗为12.095 J,能效比是Intel i7-4790K的512.90倍,是NVIDIA GeForce GTX 750Ti的125.78倍。  相似文献   

3.
水下智能设备由于功率受限,采集的图像数据无法进行实时处理.考虑现场可编程门阵列(FP-GA)功耗低,计算能力强和灵活性高等特点,基于FPGA的并行性和流水线技术,利用卷积神经网络(CNN)强大的图像处理能力,设计了一个低功耗图像实时识别系统.实验使用三个不同水域的水下视频图像对该系统进行验证.实验结果表明:该系统达到了...  相似文献   

4.
5.
6.
7.
现有软件实现方案难以满足卷积神经网络对运算性能与功耗的要求。为此,设计一种基于现场可编程门阵列(FPGA)的卷积神经网络加速器。在粗粒度并行层面对卷积运算单元进行并行化加速,并使用流水线实现完整单层运算过程,使单个时钟周期能够完成20次乘累加,从而提升运算效率。针对MNIST手写数字字符识别的实验结果表明,在75 MHz的工作频率下,该加速器可使FPGA峰值运算速度达到0.676 GMAC/s,相较通用CPU平台实现4倍加速,而功耗仅为其2.68%。  相似文献   

8.
《计算机科学与探索》2019,(10):1677-1693
当前,卷积神经网络已在图像分类、目标检测等计算机视觉领域被广泛应用。然而,在前向推断阶段,许多实际应用往往具有低延时和严格的功耗限制。针对该问题,采用参数重排序、多通道数据传输等优化策略,设计并实现了一种基于FPGA的SIMD卷积神经网络加速器架构。以YOLOv2目标检测算法为例,介绍了将卷积神经网络模型映射到FPGA上的完整流程;对加速器的性能和资源耗费进行深入分析和建模,将实际传输延时考虑在内,缩小了加速器理论时延与实际时延的误差;改进了加速器架构中的输入和输出模块,有效提高了总线带宽的实际利用率。实验结果表明,在Zedboard上获得了30.15 GOP/s的性能,与Xeon E5-2620 v4CPU相比,能效是其120.4倍,性能是其7.3倍;与双核ARM-A9 CPU相比,能效是其86倍,性能是其112.9倍。  相似文献   

9.
巩杰  赵烁  何虎  邓宁 《计算机工程》2022,48(3):170-174+196
深度卷积神经网络(CNN)模型中卷积层和全连接层包含大量卷积操作,导致网络规模、参数量和计算量大幅增加,部署于CPU/GPU平台时存在并行计算性能差和不适用于移动设备环境的问题,需要对卷积参数做量化处理并结合硬件进行加速设计。现场可编程门阵列(FPGA)可满足CNN并行计算和低功耗的需求,并具有高度的灵活性,因此,基于FPGA设计CNN量化方法及其加速系统。提出一种通用的动态定点量化方法,同时对网络的各个层级进行不同精度的量化,以减少网络准确率损失和网络参数的存储需求。在此基础上,针对量化后的CNN设计专用加速器及其片上系统,加速网络的前向推理计算。使用ImageNet ILSVRC2012数据集,基于VGG-16与ResNet-50网络对所设计的量化方法和加速系统进行性能验证。实验结果显示,量化后VGG-16与ResNet-50的网络规模仅为原来的13.8%和24.8%,而Top-1准确率损失均在1%以内,表明量化方法效果显著,同时,加速系统在运行VGG-16时,加速效果优于其他3种FPGA实现的加速系统,峰值性能达到614.4 GOPs,最高提升4.5倍,能耗比达到113.99 GOPs/W,最高提升4.7倍。  相似文献   

10.
探索和设计基于可编程逻辑器件(Field Programmable Gate Array,FPGA)的图像识别技术,旨在提高图像处理和识别任务的性能和效率。以卷积神经网络(Convolutional Neural Networks,CNN)作为样例,深入研究如何将CNN算法在FPGA上实现,展现FPGA在图像识别技术中的应用潜力,为图像识别技术的发展提供技术支持。  相似文献   

11.
为解决卷积神经网络计算效率和能效较低的问题,提出并设计一种使用定点数据作为输入的卷积加速器.加速器支持动态量化的8 bits定点数据的卷积计算,通过采用分块计算的策略和改进的循环计算顺序,有效提高计算效率;支持激活、批标准化(BN)、池化和全连接等计算;基于软硬件协同设计的思路,设计包含卷积加速器和ARM处理器在内的S...  相似文献   

12.
13.
Event extraction technology is important to achieve the quickly extraction of specific information, and it can be widely used in information retrieval, sentiment analysis and other scenarios. Chinese event extraction is more difficult than English event extraction due to the characteristics of Chinese language. Based on the state of the art English event extraction neural network model, a CEE DGCNN (Chinese Event Extraction based on multi layer Dilate Gated Convolutional Neural Network) is proposed, which is suitable for hardware implementation. CEE DGCNN achieves 71.71% F1 score of trigger classification on the ACE2005 Chinese corpus. The accelerator of CEE DGCNN is designed and implemented, and the model size is further optimized by quantization. The accelerator can achieve 97 GOP/s on the Xilinx XCKU115 FPGA, which is 67 times faster than CPU.  相似文献   

14.
近年来,卷积神经网络在图像处理方面得到了广泛应用,然而其存在计算复杂,移动端资源有限,无法存储过多数据、进行大规模计算等缺点。提出一种基于CNN的汉字识别系统的硬件实现方法。在TensorFlow框架下用casia数据集训练出20个常用汉字的CNN网络架构,测试集识别率达98. 36%,并采用卷积核复用、定点化等方法降低资源消耗,在FPGA上搭建优化后的CNN。最后,将摄像头实时采集的图片输入到上述CNN,实现硬件端的汉字识别。实验结果表明,在结构简化、速度相较CPU提高6. 76倍的同时,在FPGA上所构建的CNN达到几乎无损的97. 58%的准确率。  相似文献   

15.
设计了一种基于FPGA的视频图像旋转系统.在Nios环境下利用图像旋转矩阵对像素坐标进行旋转变换,再使用双线性插值算法对像素值进行插值运算.为了解决图像数据量大、软件计算速度慢的问题,系统采用了CORDIC算法对旋转矩阵中的三角函数计算进行硬件加速实现,并以自定义指令的方式将该模块导入Nios Ⅱ CPU核的ALU上.结果表明:采用此方法大大提高了旋转速度,提升了系统的性能.  相似文献   

16.
为提高目前硬件运行卷积神经网络(CNN)的速度和能效,针对主流CNN网络的卷积计算设计加速模块并在FPGA上实现用于加速CNN网络的SoC系统。硬件平台采用带有ARM处理器的ZCU102 FPGA开发板,系统采用处理器和加速器的结构进行设计。加速器负责卷积计算,采用分块技术并重组卷积计算循环次序,使片上缓存的数据复用率更高,减少系统与内存之间数据的传输。支持1×1到11×11的卷积核尺寸,硬件支持的激活函数为ReLU和Leaky ReLU。处理器负责控制并处理CNN网络的其它计算,使SoC系统具有通用性和灵活性。实验结果表明,在100 MHz的工作频率下,峰值计算性能可以达到42.13 GFLOPS,相比CPU和其它FPGA计算的性能有一定提升。  相似文献   

17.
利用FPGA可以并行处理数据的优点,设计出了一种JPEG压缩编码电路。并在尽量保证图像质量的前提下,对JPEG的传统编码过程进行优化与调整,简化了编码电路,提高了编码效率,并生成独立IP核,方便调用。实验结果表明,设计的编码电路完全达到了预期目的。  相似文献   

18.
为提高棱镜式数字激光陀螺稳光程回路中相敏信号解调效率,将较窄的带宽内对信号幅度增益大、波动小的双T选频网络数字化应用到数字激光陀螺解调电路中,使用FPGA进行算法设计,得到带宽为2 Hz的带通滤波器。在数字激光陀螺中与ⅡR滤波器进行对比实验,经过实际系统验证,信噪比提升了200%。  相似文献   

19.
基于FPGA的混沌系统设计与实现   总被引:2,自引:2,他引:0  
提出了一种基于FPGA平台和EDA开发工具实现混沌吸引子的方法.针对一个混沌系统,利用理论和数值仿真对系统的基本特性进行了分析.对系统的混沌状态进行了分析.为验证系统的混沌行为,在Matlab的Simulink下,利用DSPBuilder设计了一个电路,并转换成VHDL代码程序,用QuartusⅡ下载到FPGA硬件电路中进行了实验,实验结果与仿真结果完全一致.  相似文献   

20.
基于FPGA的可配置FFT_IFFT处理器的设计与实现   总被引:1,自引:0,他引:1  
设计实现了一种用于P2P移动无线通信手持终端产品。该设计采用优化的单碟形4路并行结构,兼容802.11g协议,可配置完成64点、256点、1 024点的FFT-IFFT处理器,设计以Xilinx公司的Virtex-2系列的XC22V500芯片为硬件平台。通过大量实际信号与数据的联合调试,表明了设计的正确性及实用性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号