首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 203 毫秒
1.
视频行为识别是图像和视觉领域的一个基础问题,在基于深度学习的行为识别模型中,2D卷积方法模型参数较少,但是准确率不高;3D卷积方法在一定程度上提高了准确率,但会产生较多的参数和计算量。为了在保持准确率的前提下降低3D卷积神经网络行为识别模型的参数量,减少计算资源消耗,提出了时域零填充卷积网络行为识别算法,对视频进行3D卷积时不在时间维度上填充额外数据,以此来保证时域信息的完整性。为了充分利用有限的时间信息,设计了适合此填充方式的网络结构:先以时域不填充的方式使用3D卷积提取时空信息,然后利网络重组结构将3D卷积变为2D卷积来进一步提取特征。实验表明,该网络的参数量为10.385×106,不使用预训练权重的情况下在UCF101数据集上准确率为60.28%,与其他3D卷积网络行为识别方法相比在资源占用和准确率上都有明显优势。  相似文献   

2.
徐访  黄俊  陈权 《计算机工程》2021,47(11):283-291
在不带有标志帧的手势视频上进行动态手势识别,容易导致识别准确率下降。提出一种具有分级网络结构的动态手势识别模型。以手势检测模型为第1级网络,手势分类模型为第2级网络,分步完成识别任务。同时,将三维卷积核拆分为时间域和空间域卷积分阶段完成任务,解决三维卷积神经网络中因参数过多造成模型训练或运行时间过长的问题。实验结果表明,在保证实时性的前提下,该模型在EgoGesture数据集上的识别准确率高达93.35%,优于C3D、ResNeXt101、MTUT等模型。  相似文献   

3.
针对现有的动态手势识别3D卷积方法计算参数量大和对2D卷积长时间序列的空时特征难以提取的问题,提出一种基于2D卷积神经网络和长短期记忆网络相结合的提取时空域特征的动态手势识别方法.首先基于2D卷积神经网络提取空域特征,再通过长短期记忆网络进行序列图像时序上的相互关联提取时间维度上的信息.为验证算法的有效性,使用自采集的...  相似文献   

4.
《计算机工程》2017,(8):243-248
传统2D卷积神经网络对于视频连续帧图像的特征提取容易丢失目标时间轴上的运动信息,导致识别准确度较低。为此,提出一种基于多列深度3D卷积神经网络(3D CNN)的手势识别方法。采用3D卷积核对连续帧图像进行卷积操作,提取目标的时间和空间特征捕捉运动信息。为避免因单组3D CNN特征提取不充分而导致的误分类,训练多组具有较强分类能力的3D CNN结构组成多列深度3D CNN,该结构通过对多组3D CNN的输出结果进行权衡,将权重最大的类别判定为最终的输出结果。实验结果表明,将多列深度3D CNN应用于CHGDs数据集上进行手势识别,识别率达到95.09%,与单组3D CNN及传统2D CNN相比分别提高近7%,20%,对连续图像目标识别具有较好的识别能力。  相似文献   

5.
王中杰  张鸿 《计算机应用》2019,39(12):3697-3702
针对传统的机器学习算法对大数据量的航运监控视频识别分类的效果不佳,以及现有的三维(3D)卷积的识别准确率较低的问题,基于3D卷积神经网络模型,结合较为流行的视觉几何组(VGG)网络结构以及GoogleNet的Inception网络结构,提出了一种基于VGG-16的3D卷积网络并引入Inception模块的VIC3D模型对航运货物实时监控视频进行智能识别。首先,将从摄像头获取到的视频数据处理成图片;然后,将等间隔取帧的视频帧序列按照类别进行分类并构建训练集与测试集;最后,在保证运行环境相同并且训练方式相同的前提下,将结合后的VIC3D模型与原模型分别进行训练,根据测试集的测试结果对各种模型进行比较。实验结果表明,VIC3D模型的识别准确率在原模型的基础上有所提升,相较于组约束循环卷积神经网络(GCRNN)模型的识别准确率提高了11.1个百分点,且每次识别所需时间减少了1.349 s;相较于C3D的两种模型的识别准确率分别提高了14.6个百分点和4.2个百分点。VIC3D模型能有效地应用到航运视频监控项目中。  相似文献   

6.
提出一种基于深度神经网络的多模态动作识别方法,根据不同模态信息的特性分别采用不同的深度神经网络,适应不同模态的视频信息,并将多种深度网络相结合,挖掘行为识别的多模态特征。主要考虑人体行为静态和动态2种模态信息,结合微软Kinect的多传感器摄像机获得传统视频信息的同时也能获取对应的深度骨骼点信息。对于静态信息采用卷积神经网络模型,对于动态信息采用递归循环神经网络模型。最后将2种模型提取的特征相融合进行动作识别和分类。在MSR 3D的行为数据库上实验结果表明,本文的方法对动作识别具有良好的分类效果。  相似文献   

7.
《软件》2019,(6):109-112
手势识别是当前计算机视觉的一个重要研究课题,由于手势旋转,角度等因素的影响,视频手势识别仍是一项具有挑战性的任务。该文提出了一种基于三维密集卷积神经网络和门限循环单元的双通道手势识别算法,通过三维密集卷积神经网络获取手势的空间信息,使用门限循环单元学习视频中手势的时序信息,最后融合RGB图像和深度图像的深度学习模型特征以此对手势进行识别。在ISOGD数据集上的实验表明,该手势识别算法能够有效提高了视频手势识别的准确率。  相似文献   

8.
Facebook提出的C3D三维卷积神经网络虽然能达到良好的视频动作识别准确率,但是在速度方面还有很大的改进余地,而且训练得到的模型过大,不便于移动设备使用。本文利用小型卷积核能够减少参数的特点,对已有网络结构进行优化,提出一种新的动作识别方案,将原C3D神经网络常用的3×3×3卷积核分解成深度卷积和点卷积(1×1×1卷积核),并且在UCF101数据集和ActivityNet数据集训练测试。结果表明,与原C3D网络进行对比:改进后的C3D网络准确率比C3D提升了2.4%,在速度方面比C3D提升了12.9%,模型大小压缩到原来的25.8%。  相似文献   

9.
传统的基于卷积神经网络的车型识别算法存在识别相似车型的准确率不高,以及在网络训练时只能使用图像的灰度图从而丢失了图像的颜色信息等缺陷。对此,提出一种基于深度卷积神经网络(Deep Convolution Neural Network,DCNN)的提取图像特征的方法,运用深度卷积神经网络对背景较复杂的车型进行网络训练,以达到识别车型的目的。文中采用先进的深度学习框架Caffe,基于AlexNet结构提出了深度卷积神经网络的模型,分别对车型的图像进行训练,并与传统CNN算法进行比较。实验结果显示,DCNN网络模型的准确率达到了96.9%,比其他算法的准确率更高。  相似文献   

10.
深度学习在人物动作识别方面已取得较好的成效,但当前仍然需要充分利用视频中人物的外形信息和运动信息。为利用视频中的空间信息和时间信息来识别人物行为动作,提出一种时空双流视频人物动作识别模型。该模型首先利用两个卷积神经网络分别抽取视频动作片段空间和时间特征,接着融合这两个卷积神经网络并提取中层时空特征,最后将提取的中层特征输入到3D卷积神经网络来完成视频中人物动作的识别。在数据集UCF101和HMDB51上,进行视频人物动作识别实验。实验结果表明,所提出的基于时空双流的3D卷积神经网络模型能够有效地识别视频人物动作。  相似文献   

11.
深度学习已成为图像识别领域的一个研究热点。与传统图像识别方法不同,深度学习从大量数据中自动学习特征,并且具有强大的自学习能力和高效的特征表达能力。但在小样本条件下,传统的深度学习方法如卷积神经网络难以学习到有效的特征,造成图像识别的准确率较低。因此,提出一种新的小样本条件下的图像识别算法用于解决SAR图像的分类识别。该算法以卷积神经网络为基础,结合自编码器,形成深度卷积自编码网络结构。首先对图像进行预处理,使用2D Gabor滤波增强图像,在此基础上对模型进行训练,最后构建图像分类模型。该算法设计的网络结构能自动学习并提取小样本图像中的有效特征,进而提高识别准确率。在MSTAR数据集的10类目标分类中,选择训练集数据中10%的样本作为新的训练数据,其余数据为验证数据,并且,测试数据在卷积神经网络中的识别准确率为76.38%,而在提出的卷积自编码结构中的识别准确率达到了88.09%。实验结果表明,提出的算法在小样本图像识别中比卷积神经网络模型更加有效。  相似文献   

12.
目的 与传统分类方法相比,基于深度学习的高光谱图像分类方法能够提取出高光谱图像更深层次的特征。针对现有深度学习的分类方法网络结构简单、特征提取不够充分的问题,提出一种堆叠像元空间变换信息的数据扩充方法,用于解决训练样本不足的问题,并提出一种基于不同尺度的双通道3维卷积神经网络的高光谱图像分类模型,来提取高光谱图像的本质空谱特征。方法 通过对高光谱图像的每一像元及其邻域像元进行旋转、行列变换等操作,丰富中心像元的潜在空间信息,达到数据集扩充的作用。将扩充之后的像素块输入到不同尺度的双通道3维卷积神经网络学习训练集的深层特征,实现更高精度的分类。结果 5次重复实验后取平均的结果表明,在随机选取了10%训练样本并通过8倍数据扩充的情况下,Indian Pines数据集实现了98.34%的总体分类精度,Pavia University数据集总体分类精度达到99.63%,同时对比了不同算法的运行时间,在保证分类精度的前提下,本文算法的运行时间短于对比算法,保证了分类模型的稳定性、高效性。结论 本文提出的基于双通道卷积神经网络的高光谱图像分类模型,既解决了训练样本不足的问题,又综合了高光谱图像的光谱特征和空间特征,提高了高光谱图像的分类精度。  相似文献   

13.
目的 随着3D扫描技术和虚拟现实技术的发展,真实物体的3D识别方法已经成为研究的热点之一。针对现有基于深度学习的方法训练时间长,识别效果不理想等问题,提出了一种结合感知器残差网络和超限学习机(ELM)的3D物体识别方法。方法 以超限学习机的框架为基础,使用多层感知器残差网络学习3D物体的多视角投影特征,并利用提取的特征数据和已知的标签数据同时训练了ELM分类层、K最近邻(KNN)分类层和支持向量机(SVM)分类层识别3D物体。网络使用增加了多层感知器的卷积层替代传统的卷积层。卷积网络由改进的残差单元组成,包含多个卷积核个数恒定的并行残差通道,用于拟合不同数学形式的残差项函数。网络中半数卷积核参数和感知器参数以高斯分布随机产生,其余通过训练寻优得到。结果 提出的方法在普林斯顿3D模型数据集上达到了94.18%的准确率,在2D的NORB数据集上达到了97.46%的准确率。该算法在两个国际标准数据集中均取得了当前最好的效果。同时,使用超限学习机框架使得本文算法的训练时间比基于深度学习的方法减少了3个数量级。结论 本文提出了一种使用多视角图识别3D物体的方法,实验表明该方法比现有的ELM方法和深度学习等最新方法的识别率更高,抗干扰性更强,并且其调节参数少,收敛速度快。  相似文献   

14.
针对深度卷积神经网络随着卷积层数增加而导致网络模型难以训练和性能退化等问题,提出了一种基于深度残差网络的人脸表情识别方法。该方法利用残差学习单元来改善深度卷积神经网络模型训练寻优的过程,减少模型收敛的时间开销。此外,为了提高网络模型的泛化能力,从KDEF和CK+两种表情数据集上选取表情图像样本组成混合数据集用以训练网络。在混合数据集上采用十折(10-fold)交叉验证方法进行了实验,比较了不同深度的带有残差学习单元的残差网络与不带残差学习单元的常规卷积神经网络的表情识别准确率。当采用74层的深度残差网络时,可以获得90.79%的平均识别准确率。实验结果表明采用残差学习单元构建的深度残差网络可以解决网络深度和模型收敛性之间的矛盾,并能提升表情识别的准确率。  相似文献   

15.
张强  张勇  刘芝国  周文军  刘佳慧 《计算机工程》2020,46(3):237-245,253
针对基于人工建模方式的手势识别方法准确率低、速度慢的问题,提出一种基于改进YOLOv3的静态手势实时识别方法。采用卷积神经网络YOLOv3模型,将通过Kinect设备采集的IR、Registration of RGB、RGB和Depth图像代替常用的RGB图像作为数据集,并融合四类图像的识别结果以提高识别准确率。采用k-means聚类算法对YOLOv3中的初始候选框参数进行优化,从而加快识别速度。在此基础上,利用迁移学习的方法对基础特征提取器进行改进,以缩短模型的训练时间。实验结果表明,该方法对流式视频静态手势的平均识别准确率为99.8%,识别速度高达52 FPS,模型训练时间为12 h,与Faster R-CNN、SSD、YOLOv2等深度学习方法相比,其识别精度更高,识别速度更快。  相似文献   

16.
针对视频中存在噪音,无法更好地获取特征信息,造成动作识别不精准的问题.提出了一种基于时空卷积神经网络的人体行为识别网络.将长时段视频进行分段处理,分别把RGB图片和计算出的光流图输入到两个卷积神经网络(CNN)中,使用权重相加的融合算法将提取的时域特征和空域特征融合成时空特征.形成的中层语义信息输入到R(2+1)D的卷积中,利用ResNet提高网络性能,最后在softmax层进行行行为识别.在UCF-101和HMDB-51数据集上进行实验,获得了92.1%和66.1%的准确率.实验表明,提出的双流融合与时空卷积网络模型有助于视频行为识别的准确率提高.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号