首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
余成宇    李志远    毛文宇  鲁华祥       《智能系统学报》2020,15(2):323-333
针对卷积神经网络计算硬件化实现困难的问题,之前大部分卷积神经网络加速器的设计都集中于解决计算性能和带宽瓶颈,忽视了卷积神经网络稀疏性对加速器设计的重要意义,近来少量的能够利用稀疏性的卷积神经网络加速器设计也往往难以同时兼顾计算灵活度、并行效率和资源开销。本文首先比较了不同并行展开方式对利用稀疏性的影响,分析了利用稀疏性的不同方法,然后提出了一种能够利用激活稀疏性加速卷积神经网络计算的同时,相比于同领域其他设计,并行效率更高、额外资源开销更小的并行展开方法,最后完成了这种卷积神经网络加速器的设计并在FPGA上实现。研究结果表明:运行VGG-16网络,在ImageNet数据集下,该并行展开方法实现的稀疏卷积神经网络加速器和使用相同器件的稠密网络设计相比,卷积性能提升了108.8%,整体性能提升了164.6%,具有明显的性能优势。  相似文献   

2.
黄程程  董霄霄  李钊 《计算机应用》2021,41(8):2258-2264
针对二维Winograd卷积算法中存储器带宽需求过高、计算复杂度高、设计探索周期漫长、级联的卷积存在层间计算延迟等问题,提出一种基于二维Winograd算法的双缓冲区5×5卷积层设计方法。首先使用列缓冲结构完成数据布局,以重用相邻分块之间的重叠数据,降低存储器带宽需求;然后精确搜索并复用Winograd算法加法计算过程中重复的中间计算结果,来降低加法运算量,从而减小加速器系统的能耗开销和设计面积;最后根据Winograd算法计算过程来完成6级流水线结构的设计,并实现针对5×5卷积的高效率计算。实验结果表明,这种5×5卷积的计算方法在基本不影响卷积神经网络(CNN)预测准确率的前提下,与传统卷积相比降低了83%的乘法运算量,加速倍率为5.82;该方法与级联3×3二维Winograd卷积组成5×5卷积的方法相比降低了12%的乘法运算量,降低了约24.2%的存储器带宽需求,并减少了20%的运算时间。  相似文献   

3.
《电子技术应用》2020,(1):57-61
针对FPGA实现卷积神经网络中卷积计算的过程中,高并行度带来长广播、多扇入/扇出的数据通路问题,采用脉动阵列来实现卷积神经网络中卷积计算模块,将权重固定到每个处理单元中,并按照输入和输出特征图的维度来设置脉动阵列的大小,最后通过Vivado高层次综合实现卷积计算模块的硬件设计。实验结果表明,本设计在实现1级流水化时序要求的同时,具有较低的资源占用和良好的扩展性。  相似文献   

4.
近年来,深度卷积神经网络在图像识别和语音识别等领域被广泛运用,取得了很好的效果。深度卷积神经网络是层数较多的卷积神经网络,有数千万参数需要学习,计算开销大,导致训练非常耗时。针对这种情况,本文提出深度卷积神经网络的多GPU并行框架,设计并实现模型并行引擎,依托多GPU的强大协同并行计算能力,结合深度卷积神经网络在训练中的并行特点,实现快速高效的深度卷积神经网络训练。   相似文献   

5.
FPGA因具有较好的并行处理能力和灵活性,使其在卷积神经网络硬件加速计算中得到广泛的应用,但是传统的FPGA图像卷积实现中存在模块化设计以及空间开销较大的问题.本文提出了一种面向硬件加速的通用图像卷积开发平台.通过模块化设计,极大提高针对不同卷积核实现图像卷积开发的灵活性;另外通过图像批次处理技术,充分利用数据重复性实...  相似文献   

6.
针对目前在中央处理器(CPU)中部署卷积神经网络速度慢、在图形处理器(GPU)中功耗高等问题,采用基于现场可编程门阵列(FPGA)平台开发的卷积神经网络识别系统,对卷积神经网络的各个环节进行算法加速。考虑到算法的计算量和逻辑资源的消耗主要集中在卷积层,提出了在特征图的通道方向进行双卷积并行模块设计。在卷积神经网络的池化层和激活函数Softmax中,设计了流式池化,并提出改进的分段查表计算Softmax函数的方法。另外,在归一化和预处理阶段也分别进行了优化。卷积神经网络识别系统选用XILINX公司的ZCU104开发平台。该平台内部包含片上系统与可编程逻辑控制器。通过自制水果数据集,分别在ZCU104、CPU和GPU上进行试验。试验结果显示,ZCU104分类的准确率达到了95.8%,识别速度约为计算机端上CPU实现同种网络模型的3倍,并且高于GPU。此外,该系统通用性高、资源占用率低,可应用在其他神经网络模型中。  相似文献   

7.
《微型机与应用》2019,(3):77-81
为了解决卷积神经网络硬件实现阶段的资源限制问题,提出了基于FPGA动态重构的卷积神经网络加速器设计。首先,设计了卷积神经网络加速器的整体并行策略和VLSI架构,并针对卷积神经网络的功能模块进行了流水线设计。其次,对卷积神经网络加速器进行动态重构设计,建立动态重构区域及其模块功能划分;并选用BPI Flash存储配置文件,通过内部配置端口读取配置文件对动态重构区域进行动态配置。实验结果表明,针对Lenet-5手写体识别网络,基于动态重构设计的加速器与相应的静态设计相比,使用的Slice LUTs、Slice Registers与DSP资源分别减少44%、27. 8%与71%。与基于软件平台实现作对比,系统执行时间大幅度降低。但是由于内部配置端口的带宽限制,重构配置时间延长了整个卷积网络的执行时间。  相似文献   

8.
针对卷积神经网络(CNN)中卷积核的多样性导致加速器难以实现高效计算的问题,提出了一种可重构卷积神经网络加速器实现方法.加速器包括18个处理引擎(PE),每个PE包含9个乘累加单元,3个PE构建一个5×5卷积核实现卷积核重构,调度器通过控制每层所需的卷积核大小和通道数分配PE实现卷积处理.加速器支持常见的3×3,5×5...  相似文献   

9.
图像检测、识别任务已经被应用在越来越多的生产生活场景中,基于卷积神经网络的方法凭借着精度高的特点被广泛应用.但是卷积神经网络存在着权重参数多、对算力要求高的问题,算力有限且型号多样的边缘计算设备使得这些应用在使用中受限.在跨平台上运行高性能代码,以及基于GPU的卷积神经网络优化愈发重要.针对卷积神经网络中的卷积规模和其他通用矩阵乘(general matrix multiplication, GEMM)方法的不足,根据分块规模、分支执行、访存和计算比例,提出了一种针对卷积神经网络规模优化的GEMM优化方法,将其应用于Winograd算法,并结合算子合并,实现对卷积进一步优化.同时基于遍历的自调优选择性能最优的卷积算子,结合离线编译、内存池、16 b量化、网络规模裁剪等方法,来提升卷积神经网络的性能.最后在AMD V1605B平台上进行实验验证算法的效果,通过和其他GEMM算法以及深度学习网络的性能进行对比,验证了该方法能够获得比GEMM算法和Winograd算法更好的加速效果,并能有效地加速卷积神经网络.  相似文献   

10.
陈力  丁世飞  于文家 《计算机应用》2020,40(12):3451-3457
针对传统卷积神经网络参数量过多、计算复杂度高的问题,提出了基于跨通道交叉融合和跨模块连接的轻量级卷积神经网络架构C-Net。首先,提出了跨通道交叉融合的方法,它在一定程度上克服了分组卷积中各分组之间存在缺乏信息流动的问题,简单高效地实现了不同分组之间的信息通信;其次,提出了一种跨模块连接的方法,它克服了传统轻量级架构中各基本构建块之间彼此独立的缺点,实现了同一阶段内具有相同分辨率特征映射的不同模块之间的信息融合,从而增强了特征提取能力;最后,基于提出的两种方法设计了一种新型的轻量级卷积神经网络架构C-Net。C-Net在Food_101数据集上的准确率为69.41%,在Caltech_256数据集上的准确率为63.93%。实验结果表明,与目前先进的轻量级卷积神经网络模型相比,C-Net降低了存储开销和计算复杂度。在Cifar_10数据集上的消融实验验证了所提出的两种方法的有效性。  相似文献   

11.
卷积在统计学、信号处理、图像处理、深度学习等领域有着广泛的应用,且起到了至关重要的作用.在深度神经网络中,使用卷积运算对输入信息进行特征提取的方法是实现神经网络的基础计算单元之一.如何优化卷积的运算速度,提高卷积计算效率一直是亟需探讨的问题.近年来,很多研究指出分布式计算架构可以提高卷积神经网络的计算速度,进而优化深度...  相似文献   

12.
为满足卷积神经网络业务处理的灵活性和高性能需求,提出一种基于软件定义的可重构卷积神经网络架构.该架构采用归一化处理流程实现卷积层网络的动态重构与运算模式的加速.采用AHB和AXI的双总线架构,实现卷积神经网络的流水计算.通过软件定义在FPGA上实现了不同网络结构下的数据集实时处理.实验结果表明,所设计的FPGA电路能够...  相似文献   

13.
本文提出设计了一种在ZCU102平台上加速卷积神经网络(CNN)卷积运算的方法,使用1个DSP IP实现卷积操作中1个int8类型或者unit8类型输入特征图像数据和2个int8类型卷积核参数的乘法运算。卷积运算是卷积神经网络的基本操作,提高卷积运算并行度可使卷积运算速率提升一倍。8-bit卷积神经网络量化技术是设计实现的基础,减少了处理器(PS)数据传输带宽需求。ZCU102 MPSoC的可编程逻辑(PL)资源较少,充分利用DSP IP资源可降低逻辑资源需求,提升逻辑资源利用率,增加SoC系统设计灵活性。  相似文献   

14.
卷积神经网络在检测不同尺度的人脸时所需要的计算量很大,检测过程由多个分离的步骤组成,过于复杂。针对这两方面的不足,提出一种多尺度卷积神经网络模型。根据卷积神经网络各个层具有大小不同的感受野,从不同层提取多个尺度的特征向量分别进行人脸分类与回归,并将网络的全连接层改成卷积层,以适应不同大小的图片输入。该方法将人脸检测的多个步骤集成到一个卷积神经网络中,降低了模型复杂度。实验结果表明,相同测试条件下,所提方法相比其他人脸检测模型在准确率和检测速度上均有显著提升。  相似文献   

15.
陈力  丁世飞  于文家 《计算机应用》2005,40(12):3451-3457
针对传统卷积神经网络参数量过多、计算复杂度高的问题,提出了基于跨通道交叉融合和跨模块连接的轻量级卷积神经网络架构C-Net。首先,提出了跨通道交叉融合的方法,它在一定程度上克服了分组卷积中各分组之间存在缺乏信息流动的问题,简单高效地实现了不同分组之间的信息通信;其次,提出了一种跨模块连接的方法,它克服了传统轻量级架构中各基本构建块之间彼此独立的缺点,实现了同一阶段内具有相同分辨率特征映射的不同模块之间的信息融合,从而增强了特征提取能力;最后,基于提出的两种方法设计了一种新型的轻量级卷积神经网络架构C-Net。C-Net在Food_101数据集上的准确率为69.41%,在Caltech_256数据集上的准确率为63.93%。实验结果表明,与目前先进的轻量级卷积神经网络模型相比,C-Net降低了存储开销和计算复杂度。在Cifar_10数据集上的消融实验验证了所提出的两种方法的有效性。  相似文献   

16.
为了提高动态温度测量的精度,提出了基于卷积网络的双热电偶动态温度测量方法.采用不同强度的高斯噪声,仿真获得两支时间常数互异的热电偶在高低温双温度源激励下的理论测量值.将理论测量值视为时间序列,采用卷积网络中的卷积神经网络和时间卷积网络对其进行建模,重建真实温度.计算结果表明,基于时间卷积网络的测量方法的均方根误差(RM...  相似文献   

17.
针对目前家用电器电机采用人工听诊方式判断电机故障的现状,设计基于深度学习的电机故障诊断方法,旨在实现电机生产线的自动化与智能化。文章设计一个二分支的一维卷积神经网络,并在该基础上优化混合切片二分支卷积神经网络模型。经实验验证,该网络使用后,训练集准确率能达到99.67%,测试集准确率能达到98%,采用该方法进行电机故障噪声诊断准确率高且实用性好。  相似文献   

18.
针对静态手势识别任务中,传统基于人工提取特征方法耗时耗力,识别率较低,现有卷积神经网络依赖单一卷积核提取特征不够充分的问题,提出双通道卷积神经网络模型。输入手势图片通过两个相互独立的通道进行特征提取,双通道具有尺度不同的卷积核,能够提取输入图像中不同尺度的特征,然后在全连接层进行特征融合,最后经过softmax分类器进行分类。在Thomas Moeslund和Jochen Triesch手势数据库上进行实验验证,结果表明该模型提高了静态手势识别的准确率,增强了卷积神经网络的泛化能力。  相似文献   

19.
深度卷积神经网络的存储和计算需求巨大,难以在一些资源受限的嵌入式设备上进行部署。为尽可能减少深度卷积神经网络模型在推理过程中的资源消耗,引入基于几何中值的卷积核重要性判断标准,提出一种融合弱层惩罚的结构化非均匀卷积神经网络模型剪枝方法。使用欧式距离计算各层卷积核间的信息距离,利用各卷积层信息距离的数据分布特征识别弱层,通过基于贡献度的归一化函数进行弱层惩罚,消除各层间的差异性。在全局层面评估卷积核重要性,利用全局掩码技术对所有卷积核实现动态剪枝。在CIFAR-10、CIFAR-100和SVHN数据集上的实验结果表明,与SFP、PFEC、FPGM和MIL剪枝方法相比,该方法剪枝得到的VGG16单分支、Resnet多分支、Mobilenet-v1轻量化网络模型在保证精度损失较小的情况下,有效地减少了模型参数量和浮点操作数。  相似文献   

20.
目前在中央处理器(CPU)中,卷积神经网络存在速度慢、功耗高的缺点,针对深度学习中的卷积神经网络所需计算时间长、消耗资源多、卷积运算量大的问题,提出了使用现场可编程门阵列(FPGA)硬件平台对卷积神经网络图像识别系统进行加速,对卷积神经网络的进行算法改进和加速。设计了卷积层并行计算的流水线模块和池化层改进模块,还通过数据量化的方式减少FPGA资源耗费。最后,使用MINST数据集对算法进行评估,在Zynq7010和CPU上进行验证。实验结果表明,设计的方法资源占用率低,识别速度快,适合实际领域使用。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号