共查询到20条相似文献,搜索用时 78 毫秒
1.
2.
针对高效视频编解码标准中后处理CNN算法在通用平台运行时产生的高延时缺点,提出一种基于现场可编程逻辑门阵列(FPGA)的后处理卷积神经网络硬件并行架构。提出的并行架构通过改进输入与输出缓冲的数据并发过程,调整卷积模块整体并行度,加快模块硬件流水。实验结果表明,基于本文所提出的并行架构设计的CNN硬件加速器在Xilinx ZCU102上处理分辨率为176×144视频流,计算性能相当于每秒360.5 GFLOPS,计算速度可满足81.01 FPS,相比时钟频率4 GHz的Intel i7-4790K,计算速度加快了76.67倍,相比NVIDIA GeForce GTX 750Ti加速了32.50倍。在计算能效比方面,本文后处理CNN加速器功耗为12.095 J,能效比是Intel i7-4790K的512.90倍,是NVIDIA GeForce GTX 750Ti的125.78倍。 相似文献
3.
4.
5.
6.
7.
8.
《计算机科学与探索》2019,(10):1677-1693
当前,卷积神经网络已在图像分类、目标检测等计算机视觉领域被广泛应用。然而,在前向推断阶段,许多实际应用往往具有低延时和严格的功耗限制。针对该问题,采用参数重排序、多通道数据传输等优化策略,设计并实现了一种基于FPGA的SIMD卷积神经网络加速器架构。以YOLOv2目标检测算法为例,介绍了将卷积神经网络模型映射到FPGA上的完整流程;对加速器的性能和资源耗费进行深入分析和建模,将实际传输延时考虑在内,缩小了加速器理论时延与实际时延的误差;改进了加速器架构中的输入和输出模块,有效提高了总线带宽的实际利用率。实验结果表明,在Zedboard上获得了30.15 GOP/s的性能,与Xeon E5-2620 v4CPU相比,能效是其120.4倍,性能是其7.3倍;与双核ARM-A9 CPU相比,能效是其86倍,性能是其112.9倍。 相似文献
9.
深度卷积神经网络(CNN)模型中卷积层和全连接层包含大量卷积操作,导致网络规模、参数量和计算量大幅增加,部署于CPU/GPU平台时存在并行计算性能差和不适用于移动设备环境的问题,需要对卷积参数做量化处理并结合硬件进行加速设计。现场可编程门阵列(FPGA)可满足CNN并行计算和低功耗的需求,并具有高度的灵活性,因此,基于FPGA设计CNN量化方法及其加速系统。提出一种通用的动态定点量化方法,同时对网络的各个层级进行不同精度的量化,以减少网络准确率损失和网络参数的存储需求。在此基础上,针对量化后的CNN设计专用加速器及其片上系统,加速网络的前向推理计算。使用ImageNet ILSVRC2012数据集,基于VGG-16与ResNet-50网络对所设计的量化方法和加速系统进行性能验证。实验结果显示,量化后VGG-16与ResNet-50的网络规模仅为原来的13.8%和24.8%,而Top-1准确率损失均在1%以内,表明量化方法效果显著,同时,加速系统在运行VGG-16时,加速效果优于其他3种FPGA实现的加速系统,峰值性能达到614.4 GOPs,最高提升4.5倍,能耗比达到113.99 GOPs/W,最高提升4.7倍。 相似文献
10.
探索和设计基于可编程逻辑器件(Field Programmable Gate Array,FPGA)的图像识别技术,旨在提高图像处理和识别任务的性能和效率。以卷积神经网络(Convolutional Neural Networks,CNN)作为样例,深入研究如何将CNN算法在FPGA上实现,展现FPGA在图像识别技术中的应用潜力,为图像识别技术的发展提供技术支持。 相似文献
11.
为解决卷积神经网络计算效率和能效较低的问题,提出并设计一种使用定点数据作为输入的卷积加速器.加速器支持动态量化的8 bits定点数据的卷积计算,通过采用分块计算的策略和改进的循环计算顺序,有效提高计算效率;支持激活、批标准化(BN)、池化和全连接等计算;基于软硬件协同设计的思路,设计包含卷积加速器和ARM处理器在内的S... 相似文献
12.
13.
Event extraction technology is important to achieve the quickly extraction of specific information, and it can be widely used in information retrieval, sentiment analysis and other scenarios. Chinese event extraction is more difficult than English event extraction due to the characteristics of Chinese language. Based on the state of the art English event extraction neural network model, a CEE DGCNN (Chinese Event Extraction based on multi layer Dilate Gated Convolutional Neural Network) is proposed, which is suitable for hardware implementation. CEE DGCNN achieves 71.71% F1 score of trigger classification on the ACE2005 Chinese corpus. The accelerator of CEE DGCNN is designed and implemented, and the model size is further optimized by quantization. The accelerator can achieve 97 GOP/s on the Xilinx XCKU115 FPGA, which is 67 times faster than CPU. 相似文献
14.
《微型机与应用》2019,(9)
近年来,卷积神经网络在图像处理方面得到了广泛应用,然而其存在计算复杂,移动端资源有限,无法存储过多数据、进行大规模计算等缺点。提出一种基于CNN的汉字识别系统的硬件实现方法。在TensorFlow框架下用casia数据集训练出20个常用汉字的CNN网络架构,测试集识别率达98. 36%,并采用卷积核复用、定点化等方法降低资源消耗,在FPGA上搭建优化后的CNN。最后,将摄像头实时采集的图片输入到上述CNN,实现硬件端的汉字识别。实验结果表明,在结构简化、速度相较CPU提高6. 76倍的同时,在FPGA上所构建的CNN达到几乎无损的97. 58%的准确率。 相似文献
15.
16.
为提高目前硬件运行卷积神经网络(CNN)的速度和能效,针对主流CNN网络的卷积计算设计加速模块并在FPGA上实现用于加速CNN网络的SoC系统。硬件平台采用带有ARM处理器的ZCU102 FPGA开发板,系统采用处理器和加速器的结构进行设计。加速器负责卷积计算,采用分块技术并重组卷积计算循环次序,使片上缓存的数据复用率更高,减少系统与内存之间数据的传输。支持1×1到11×11的卷积核尺寸,硬件支持的激活函数为ReLU和Leaky ReLU。处理器负责控制并处理CNN网络的其它计算,使SoC系统具有通用性和灵活性。实验结果表明,在100 MHz的工作频率下,峰值计算性能可以达到42.13 GFLOPS,相比CPU和其它FPGA计算的性能有一定提升。 相似文献
17.
18.
19.
基于FPGA的混沌系统设计与实现 总被引:2,自引:2,他引:0
提出了一种基于FPGA平台和EDA开发工具实现混沌吸引子的方法.针对一个混沌系统,利用理论和数值仿真对系统的基本特性进行了分析.对系统的混沌状态进行了分析.为验证系统的混沌行为,在Matlab的Simulink下,利用DSPBuilder设计了一个电路,并转换成VHDL代码程序,用QuartusⅡ下载到FPGA硬件电路中进行了实验,实验结果与仿真结果完全一致. 相似文献