共查询到20条相似文献,搜索用时 109 毫秒
1.
2.
多视图人群计数,指从多个视角的图片中估计当前场景的人数.大多数基于卷积神经网络的方法使用多个同构但独立的分支处理不同视图,在增加模型复杂性的同时,引入大量的冗余特征.针对此问题,本文提出一种基于视图分支共享的卷积神经网络模型,使用同一视图分支从不同视角的图片提取出多个尺度对齐的特征图.这些特征图被投影到同一个世界平面上进行融合,进而回归出当前场景人群分布密度图.在视图分支内部,该模型在保持一定的结构复杂性的同时,减少各卷积层的核数量,极大降低模型可学习的参数数量.本文在两个公开数据集(PETS2009、CityStreet)上测试了性能,与5种已有方法相比较,本文方法能达到更好的性能. 相似文献
3.
4.
卷积神经网络优异的性能使其在图像处理领域占有重要地位,然而模型的实际应用多依赖于GPU,难以部署在对功耗敏感的嵌入式设备上。为了使模型能够高效部署在以FPGA为基础的平台上,本文提出一种卷积神经网络定点化方法,以数据精度与资源消耗为设计指标,根据模型中数据分布的统计以及数据类型的划分,确定不同的定点化策略,并给出了不同量化方法与溢出模式和硬件资源消耗的关系。使用Xilinx定点化库进行测试,实验结果表明,使用16位定点数对模型进行统一量化,能够在较小的精度损失下降低硬件资源消耗,且不同的量化模式下硬件资源消耗相同,不同的溢出模式下硬件资源消耗区别较大。 相似文献
5.
为提升在资源、功耗受限的嵌入式平台上运行的深度卷积网络算法的速度和能效,提出一种基于现场可编程门阵列(FPGA)的卷积并行加速方案。利用卷积层与批归一化(batch normalization,BN)层融合减少计算复杂度;利用数据分片减少片上存储消耗;利用数据复用、并行计算提升运算速度,减少系统硬件开销;利用设计空间探索找到最符合硬件资源约束的计算并行度。实验结果表明,在100MHz的工作频率下,加速器的峰值计算性能可以达到52.56GFLOPS,性能是CPU的4.1倍,能耗仅为GPU的9.9%,与其它FPGA方案相比综合性能有一定的提升。 相似文献
6.
针对现有卷积神经网络(CNN)模型计算效率低、内存带宽浪费大等问题,提出了一种基于现场可编程门阵列(FPGA)优化压缩策略。对预先训练好的CNN模型进行分层剪枝,采用基于新型的遗传算法进行信道剪枝,同时设计了两步逼近适应度函数,进一步提高了遗传过程的效率。此外,通过对剪枝CNN模型进行数据量化,使得卷积层和全连接层的权值根据各自的数据结构以完全不同的方式存储,从而减少了存储开销。实验结果表明,在输入4 000个训练图像进行压缩过程中,该方法所耗压缩时间仅为15.9 s。 相似文献
7.
针对现有海量数字图像信息落后,提出了新型的压缩算法,设计出基于FPGA的视频图像采集系统.应用深度卷积神经网络优化视频图像编码算法和聚类算法实现数据特征提取,将图像与距离信息作为深度卷积神经网络的输入与输出,并利用其特征提取能力学习图像特征的距离信息,提取深度卷积神经网络中的全连接层作为编码,通过迭代调整确定图像编码,完成图像压缩.应用测试结果显示,该算法具有较高效率优势,且图像压缩解码后质量较好. 相似文献
8.
9.
肺结节CT图像表征复杂且多样,导致对肺结节进行分类较为困难。虽然越来越多的深度学习模型被应用到计算机辅助肺癌诊断系统的肺结节分类任务中,但这些模型的"黑盒"特性无法解释模型从数据中学习到了哪些知识,以及这些知识是如何影响决策的,导致诊断结果缺乏可信性。为此,文中提出了一种可解释的多分支卷积神经网络模型来判别肺结节的良恶性。该模型利用医生诊断时所用的肺结节语义特征信息来辅助诊断肺结节的良恶性,并将这些特征与肺结节良恶性判别网络融合成多分支网络,在完成肺结节良恶性诊断任务的同时,得到肺结节相关语义特征的预测结果,为医生提供可信的诊断依据。在LIDC-IDRI数据集上的实验结果表明,与现有方法相比,所提模型不仅可以得到可解释的诊断结果,而且实现了更好的肺结节良恶性分类效果,其准确率可达97.8%。 相似文献
10.
针对目前交通流预测中未充分考虑到交通流量与密度、交通流量与速度之间的关联性特征信息,以及忽略多尺度时间特征的问题,提出了一种面向交通流预测的双分支时空图卷积神经网络。首先,依据交通数据的周期性,将交通数据划分为近期与周期两种时间粒度的数据输入;其次,在每个输入分支中,先通过关联性门控线性单元(AGLU)提取流量与密度、流量与速度之间的关联性特征信息;然后,通过图卷积层和多尺度时间卷积层提取关联性特征中的空间与时间上下文信息,并采用预测卷积层输出近期、周期双分支预测结果;最后,通过门控机制融合预测结果,从而实现交通流量的准确预测。实验结果表明,所提模型在交通流预测准确性与稳定性方面整体优于其他模型。 相似文献
11.
为了提高中小规模设备卷积神经网络的推理速度,提出一种基于FPGA的卷积神经网络硬件加速器设计方案。针对模型中的卷积运算单元,该硬件加速器采用输入、输出二维循环展开和循环分块的方法,设计128个并行乘法器单元。模型的输入输出接口采用双缓存设计,通过乒乓操作,降低数据传输带来的时间延迟。同时,采用16位定点量化模型中权重参数,偏置参数和输入输出特征图的像素值。实验结果表明,与通用CPU酷睿i5-4440处理器相比,在COCO数据集上准确率几乎不变的情况下,计算性能提高5.77倍。在系统时钟频率为150 MHz时,硬件加速器的计算性能达到28.88 GOPS。 相似文献
12.
13.
针对卷积神经网络计算硬件化实现困难的问题,之前大部分卷积神经网络加速器的设计都集中于解决计算性能和带宽瓶颈,忽视了卷积神经网络稀疏性对加速器设计的重要意义,近来少量的能够利用稀疏性的卷积神经网络加速器设计也往往难以同时兼顾计算灵活度、并行效率和资源开销。本文首先比较了不同并行展开方式对利用稀疏性的影响,分析了利用稀疏性的不同方法,然后提出了一种能够利用激活稀疏性加速卷积神经网络计算的同时,相比于同领域其他设计,并行效率更高、额外资源开销更小的并行展开方法,最后完成了这种卷积神经网络加速器的设计并在FPGA上实现。研究结果表明:运行VGG-16网络,在ImageNet数据集下,该并行展开方法实现的稀疏卷积神经网络加速器和使用相同器件的稠密网络设计相比,卷积性能提升了108.8%,整体性能提升了164.6%,具有明显的性能优势。 相似文献
14.
15.
根据卷积神经网络的特点,提出了深度流水的FPGA加速方案,设计了卷积层的通用卷积电路。该卷积电路可以在一个时钟周期内获得一个计算结果。理论上,该方案对于MNIST数据集,在28×28个时钟周期内可以获得一幅图片的运算结果。针对网络训练过程的前向传播阶段,在网络结构和数据集相同的情况下,对GPU,FPGA,CPU进行了在计算效率和能耗之间的比较。其中在计算效率方面,50 MHz频率的FPGA就可以相较于GPU实现近5倍的加速,相较于12核的CPU实现8倍的加速。而在功耗方面,该FPGA的实现方案只有GPU版本的26.7%。 相似文献
16.
针对卷积神经网络(CNN)在资源受限的硬件设备上运行功耗高及运行慢的问题,提出一种基于现场可编程门阵列(FPGA)的CNN定点计算加速方法。首先提出一种定点化方法,并且每层卷积设计不同的尺度参数,使用相对散度确定位宽的长度,以减小CNN参数的存储空间,而且研究不同量化区间对CNN精度的影响;其次,设计参数复用方法及流水线计算方法来加速卷积计算。为验证CNN定点化后的加速效果,采用了人脸和船舶两个数据集进行验证。结果表明,相较于传统的浮点卷积计算,所提方法在保证CNN精度损失很小的前提下,当权值参数和输入特征图参数量化到7-bit时,在人脸识别CNN模型上的压缩后的权重参数文件大小约为原来的22%,卷积计算加速比为18.69,同时使FPGA中的乘加器的利用率达94.5%。实验结果表明了该方法可以提高卷积计算速度,并且能够高效利用FPGA硬件资源。 相似文献
17.
数字识别所依靠的经典网络模型主要为BP神经网络和卷积神经网络。相比较,卷积神经网络的识别效果更好,更适合处理图像识别问题。目前,卷积神经网络多为软件实现,而硬件有着并行性与速度快的优点。因此,意图以硬件描述语言(Verilog)实现卷积神经网络,在保证在高识别率的情况下,充分挖掘硬件实现的优点。通过研究网络的工作原理及结构,构造完整电路模型,给出了现场可编程门阵列(Field-Programmable Gate Array,FPGA)的实现方案。卷积神经网络通过反向传播训练MNIST数据库中60?000幅数字样本图片,提取准确率最高的权重与偏置,再进行网络的前向传播,完成数字识别。完整过程借助ModelSim和Quartus II仿真工具实现。仿真结果表明,全部样本在100?MHz时钟下训练耗时50?ms,相较软件实现而言,速度明显提高,满足硬件设计的实时性,且准确率较高,可达95.4%。该研究为应用于嵌入式设备的图像识别提供了方法和策略,具有实际应用价值。 相似文献
18.
随着卷积神经网络的快速发展,研究者不断加深或加宽网络的结构以追求更高精度,但这种方式会带来延迟和计算成本的增加。在带有多分支结构的自蒸馏方法中存在浅层网络不能充分学习深层网络性能的问题。因此,提出一种基于多分支的自蒸馏方法(SDA),将网络中所有分支的集成结果作为教师指导最后分支的输出,同时用最后分支输出指导其他分支,使得模型更好更早地退出网络。实验结果表明,该方法在ResNet一系列模型上取得了0.46%~1.51%的精度提升。 相似文献
19.
当前,卷积神经网络越来越多的应用于工业生产中,传统的基于CPU及GPU的神经网络平台存在体积大、能耗高等缺点,在工业生产现场部署存在困难.基于ARM的嵌入式平台虽然易于部署,但存在算力低的缺点,难以高效的实现卷积神经网络.针对此问题,本文设计并实现了一种基于Zynq平台的卷积神经网络单元,通过充分利用Zynq平台上FP... 相似文献
20.
针对卷积神经网络(CNN)在资源受限的硬件设备上运行功耗高及运行慢的问题,提出一种基于现场可编程门阵列(FPGA)的CNN定点计算加速方法。首先提出一种定点化方法,并且每层卷积设计不同的尺度参数,使用相对散度确定位宽的长度,以减小CNN参数的存储空间,而且研究不同量化区间对CNN精度的影响;其次,设计参数复用方法及流水线计算方法来加速卷积计算。为验证CNN定点化后的加速效果,采用了人脸和船舶两个数据集进行验证。结果表明,相较于传统的浮点卷积计算,所提方法在保证CNN精度损失很小的前提下,当权值参数和输入特征图参数量化到7-bit时,在人脸识别CNN模型上的压缩后的权重参数文件大小约为原来的22%,卷积计算加速比为18.69,同时使FPGA中的乘加器的利用率达94.5%。实验结果表明了该方法可以提高卷积计算速度,并且能够高效利用FPGA硬件资源。 相似文献