期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

《微型机与应用》2019,(11):96-101

近年来,卷积神经网络(CNN)在计算机视觉任务中得到了广泛的应用,可编程逻辑门阵列(FPGA)以其高性能、高能效、高灵活性等优点被广泛应用于CNN的加速。提出了一种基于FPGA的卷积神经网络加速器的设计与实现方法,以期在资源和功耗受限的平台中为CNN的计算提供加速。以VC707开发板为FPGA平台,设计了一种新的卷积神经网络Do Net,可以实现对Minist手写数据集的识别分类。测试结果表明,基于FPGA实现的Do Net对Minist数据集的识别准确率为95%,测试显示的识别时间为0. 545 ms,功耗为1. 95 W。相似文献

2.

基于FPGA的卷积神经网络定点加速

雷小康尹志刚赵瑞莲《计算机应用》2020,40(10):2811-2816

针对卷积神经网络（CNN）在资源受限的硬件设备上运行功耗高及运行慢的问题，提出一种基于现场可编程门阵列（FPGA）的CNN定点计算加速方法。首先提出一种定点化方法，并且每层卷积设计不同的尺度参数，使用相对散度确定位宽的长度，以减小CNN参数的存储空间，而且研究不同量化区间对CNN精度的影响；其次，设计参数复用方法及流水线计算方法来加速卷积计算。为验证CNN定点化后的加速效果，采用了人脸和船舶两个数据集进行验证。结果表明，相较于传统的浮点卷积计算，所提方法在保证CNN精度损失很小的前提下，当权值参数和输入特征图参数量化到7-bit时，在人脸识别CNN模型上的压缩后的权重参数文件大小约为原来的22%，卷积计算加速比为18.69，同时使FPGA中的乘加器的利用率达94.5%。实验结果表明了该方法可以提高卷积计算速度，并且能够高效利用FPGA硬件资源。相似文献

3.

基于FPGA的卷积神经网络定点加速

雷小康尹志刚赵瑞莲《计算机应用》2005,40(10):2811-2816

针对卷积神经网络（CNN）在资源受限的硬件设备上运行功耗高及运行慢的问题，提出一种基于现场可编程门阵列（FPGA）的CNN定点计算加速方法。首先提出一种定点化方法，并且每层卷积设计不同的尺度参数，使用相对散度确定位宽的长度，以减小CNN参数的存储空间，而且研究不同量化区间对CNN精度的影响；其次，设计参数复用方法及流水线计算方法来加速卷积计算。为验证CNN定点化后的加速效果，采用了人脸和船舶两个数据集进行验证。结果表明，相较于传统的浮点卷积计算，所提方法在保证CNN精度损失很小的前提下，当权值参数和输入特征图参数量化到7-bit时，在人脸识别CNN模型上的压缩后的权重参数文件大小约为原来的22%，卷积计算加速比为18.69，同时使FPGA中的乘加器的利用率达94.5%。实验结果表明了该方法可以提高卷积计算速度，并且能够高效利用FPGA硬件资源。相似文献

4.

基于FPGA的CNN加速SoC系统设计

赵烁范军何虎《计算机工程与设计》2020,41(4):939-944

为提高目前硬件运行卷积神经网络(CNN)的速度和能效,针对主流CNN网络的卷积计算设计加速模块并在FPGA上实现用于加速CNN网络的SoC系统。硬件平台采用带有ARM处理器的ZCU102 FPGA开发板,系统采用处理器和加速器的结构进行设计。加速器负责卷积计算,采用分块技术并重组卷积计算循环次序,使片上缓存的数据复用率更高,减少系统与内存之间数据的传输。支持1×1到11×11的卷积核尺寸,硬件支持的激活函数为ReLU和Leaky ReLU。处理器负责控制并处理CNN网络的其它计算,使SoC系统具有通用性和灵活性。实验结果表明,在100 MHz的工作频率下,峰值计算性能可以达到42.13 GFLOPS,相比CPU和其它FPGA计算的性能有一定提升。相似文献

5.

先心病心音CNN分类算法的硬件加速

粟炜宗容张强奎皓然杨宏波王威廉《计算机工程与设计》2021,42(6):1599-1605

为提高先心病心音分类算法的实时性,适用于资源有限的嵌入式设备,提出一种对FPGA进行流水线约束设计的硬件加速方法.将CNN内部计算的并行性与FPGA上的并行硬件对应起来,通过VIVADO高层次综合(HLS)映射CNN算法至FPGA上,在卷积层中的循环上采用流水线约束,子循环会默认展开的方式,提升循环的执行速度.实例仿真计算结果表明,该方法可以很好地利用硬件资源,极大降低计算延时,有效提升算法的实时性. 相似文献

6.

卷积神经网络RLeNet加速器设计

康磊李慧郑豪威李鑫《数字社区&智能家居》2021,(6)

针对卷积神经网络(CNN)对运算的需求,现场可编程逻辑门阵列(FPGA)可以充分挖掘CNN内部并行计算的特性,提高运算速度。因此,本文基于FPGA开发平台,从模型优化、参数优化,硬件加速以及手写体数字识别四个方面对CNN的FPGA加速及应用进行研究。提出一种数字识别网络RLeNet,并对网络进行参数优化,卷积运算加速采用脉冲阵列与加法树结合的硬件结构实现,同时使用并行技术和流水线技术优化加速,并使用microblaze IP通过中断控制CNN加速器IP接收串口发送的图片数据进行预测,输出结果。最后在Xilinx Nexys 4 DDR:Artix-7开发板上实现了MNIST数据集手写体数字识别预测过程,当系统时钟为200MHz时,预测一张图片的时间为36.47us。相似文献

7.

基于FPGA的量化CNN加速系统设计

巩杰赵烁何虎邓宁《计算机工程》2022,48(3):170-174+196

深度卷积神经网络（CNN）模型中卷积层和全连接层包含大量卷积操作,导致网络规模、参数量和计算量大幅增加,部署于CPU/GPU平台时存在并行计算性能差和不适用于移动设备环境的问题,需要对卷积参数做量化处理并结合硬件进行加速设计。现场可编程门阵列（FPGA）可满足CNN并行计算和低功耗的需求,并具有高度的灵活性,因此,基于FPGA设计CNN量化方法及其加速系统。提出一种通用的动态定点量化方法,同时对网络的各个层级进行不同精度的量化,以减少网络准确率损失和网络参数的存储需求。在此基础上,针对量化后的CNN设计专用加速器及其片上系统,加速网络的前向推理计算。使用ImageNet ILSVRC2012数据集,基于VGG-16与ResNet-50网络对所设计的量化方法和加速系统进行性能验证。实验结果显示,量化后VGG-16与ResNet-50的网络规模仅为原来的13.8%和24.8%,而Top-1准确率损失均在1%以内,表明量化方法效果显著,同时,加速系统在运行VGG-16时,加速效果优于其他3种FPGA实现的加速系统,峰值性能达到614.4 GOPs,最高提升4.5倍,能耗比达到113.99 GOPs/W,最高提升4.7倍。相似文献

8.

基于ZYNQ和CNN模型的服装识别系统

熊伟黄鲁《计算机系统应用》2019,28(11):101-106

商品检索是电商行业智能化发展的一个重要的问题.本设计实现了基于ZYNQ和CNN模型的服装识别系统.利用TensorFlow训练自定义网络,定点化处理权重参数.利用ZYNQ器件的ARM+FPGA软硬件协同的特点搭建系统,使用ARM端OpenCV进行图像预处理,FPGA端CNN IP进行实时识别.ARM与FPGA之间实现了权重可重加载结构,无需修改FPGA硬件而实现在线升级.系统采用fashion-minist数据集作为网络训练样本,根据系统资源配置CNN IP的加速引擎的数量来提高卷积运算的并行性.实验表明,本系统针对电商平台下的图片能够实时准确识别和显示,准确率达92.39%.在100 MHz工作频率下,图像处理速度每帧可达到1.361 ms,功耗仅为0.53 W. 相似文献

9.

基于Mixer Layer的人脸表情识别

简腾飞王佳曹少中杨树林张寒《计算机系统应用》2022,31(7):128-134

目前人脸表情识别研究多数采用卷积神经网络(CNN)提取人脸特征并分类, CNN的缺点是网络结构复杂, 消耗计算资源. 针对以上缺点, 本文采用基于多层感知机(MLP)的Mixer Layer网络结构用于人脸表情识别. 采用数据增强和迁移学习方法解决数据集样本不足的问题, 搭建了不同层数的Mixer Layer网络. 经过实验比较, 4层Mixer Layer网络在CK+和JAFFE 数据集上的识别准确率分别达到了98.71%和95.93%, 8层Mixer Layer网络在Fer2013数据集上的识别准确率达到了63.06%. 实验结果表明, 无卷积结构的Mixer Layer网络在人脸表情识别任务上表现出良好的学习能力和泛化能力. 相似文献

10.

基于张量虚拟机的深度神经网络模型加速方法

申云飞申飞李芳张俊《计算机应用》2023,(9):2836-2844

随着人工智能（AI）技术的蓬勃发展，深度神经网络（DNN）模型被大规模应用到各类移动端与边缘端。然而，边缘端算力低、内存容量小，且实现模型加速需要深入掌握边缘端硬件知识，这增加了模型的部署难度，也限制了模型的推广应用。因此，基于张量虚拟机（TVM）提出一种DNN加速与部署方法，从而实现卷积神经网络（CNN）模型在现场可编程门阵列（FPGA）上的加速，并在分心驾驶分类应用场景下验证了所提方法的可行性。通过计算图优化方法减小了模型的访存和计算开销，通过模型量化方法减小了模型尺寸，通过计算图打包方法将卷积计算卸载到FPGA上执行以提高模型推理速度。与微处理器（MPU）相比，所提方法可使ResNet50和ResNet18在MPU+FPGA上的推理时间分别减少88.63%和77.53%；而在AUC(American University in Cairo)数据集上，相较于MPU，两个模型在MPU+FPGA上的top1推理精度仅下降了0.26和0.16个百分点。可见，所提方法可以降低不同模型在FPGA上的部署难度。相似文献