首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
最近,基于骨架的动作识别研究受到了广泛关注.因为图卷积网络可以更好地建模非规则数据的内部依赖,ST-GCN (spatial temporal graph convolutional network)已经成为该领域的首选网络框架.针对目前大多数基于ST-GCN的改进方法忽视了骨架序列所蕴含的几何特征.本文利用骨架关节几何特征,作为ST-GCN框架的特征补充,其具有视觉不变性和无需添加额外参数学习即可获取的优势,进一步地,利用时空图卷积网络建模骨架关节几何特征和早期特征融合方法,构成了融合几何特征的时空图卷积网络框架.最后,实验结果表明,与ST-GCN、2s-AGCN和SGN等动作识别模型相比,我们提出的框架在NTU-RGB+D数据集和NTU-RGB+D 120数据集上都取得了更高准确率的效果.  相似文献   

2.
视频动作识别是计算机视觉领域一个十分具有挑战性的课题,主要任务是利用深度学习等视频智能分析技术识别的深层信息推导出视频人体行为动作.通过结合双流卷积神经网络和三维卷积神经网络的结构特点,提出了一种面向时空特征融合的GSTIN(GoogLeNet based on spatio-temporal intergration network).GSTIN中设计了时空特征融合模块InBST(inception blend spatio-temporal feature),提升网络对空间特征与时间特征的利用能力;在时空特征融合模块InBST基础上,构建了适合动作识别的多流网络结构.GSTIN在动作识别数据集UCF101、HMDB51上识别精度分别达到了93.8%和70.6%,这表明GSTIN与其他动作识别网络相比具有较好的识别性能.  相似文献   

3.
得益于图卷积网络(GCN)对于处理非欧几里得数据有着非常好的效果,同时人体的骨骼点数据相对于RGB视频数据具有更好的环境适应性和动作表达能力.因此,基于骨骼点的人体动作识别方法得到了越来越多的关注和研究.将人体骨骼建模为时空图形的数据进行基于GCN模型的动作识别取得了显著的性能提升,但是现有的基于GCN的动作识别模型往往无法捕获动作视频流中的细节特征.针对此问题,本文提出了一种基于分段时间注意力时空图卷积骨骼点动作识别方法.通过将数据的时间帧进行分段处理,提取注意力,来提高模型对细节特征的提取能力.同时引入协调注意力模块,将位置信息嵌入注意力图中,这种方法增强了模型的泛化能力.在NTU-RGBD数据集和Kinetics-Skeleton数据集上的大量实验表明,本文所提模型可以获得比目前多数文献更高的动作识别精度,有更好的识别效果.  相似文献   

4.
本文针对已有的动作网络训练方法中单种注意力机制难以捕获足够的关键信息,以及缺少综合考虑空间特征和运动特征,将两者进行有效融合的现状,提出一种结合时空注意力和十字交叉注意力的动作识别系统.首先,对视频进行预处理,获得RGB图像序列与光流图像序列,并分别提取图像特征表示;然后,将训练样本集输入到时空注意力模块和特征融合模块...  相似文献   

5.
目的 抑郁症是一种常见的情感性精神障碍,会带来诸多情绪和身体问题。在实践中,临床医生主要通过面对面访谈并结合自身经验评估抑郁症的严重程度。这种诊断方式具有较强的主观性,整个过程比较耗时,且易造成误诊、漏诊。为了客观便捷地评估抑郁症的严重程度,本文围绕面部图像研究深度特征提取及其在抑郁症自动识别中的应用,基于人脸图像的全局和局部特征,构建一种融合通道层注意力机制的多支路卷积网络模型,进行抑郁症严重程度的自动识别。方法 首先从原始视频提取图像,使用多任务级联卷积神经网络检测人脸关键点。在对齐后分别裁剪出整幅人脸图像和眼睛、嘴部区域图像,然后将它们分别送入与通道层注意力机制结合的深度卷积神经网络以提取全局特征和局部特征。在训练时,将训练图像进行标准化预处理,并通过翻转、裁剪等操作增强数据。在特征融合层将3个支路网络提取的特征拼接在一起,最后输出抑郁症严重程度的分值。结果 在AVEC2013(The Continuous Audio/Visual Emotion and Depression Recognition Challenge)抑郁症数据库上平均绝对误差为6.74、均方根误差为8.70,相较于Baseline分别降低4.14和4.91;在AVEC2014抑郁症数据库上平均绝对误差和均方根误差分别为6.56和8.56,相较于Baseline分别降低2.30和2.30。同时,相较于其他抑郁症识别方法,本文方法取得了最低的平均绝对误差和均方根误差。结论 本文方法能够以端到端的形式实现抑郁症的自动识别,将特征提取和抑郁症严重程度识别在统一框架下进行和调优,学习到的多种视觉特征更加具有鉴别性,实验结果表明了该算法的有效性和可行性。  相似文献   

6.
人脸表情是人类内心情绪最真实最直观的表达方式之一,不同的表情之间具有细微的类间差异信息。因此,提取表征能力较强的特征成为表情识别的关键问题。为提取较为高级的语义特征,在残差网络(ResNet)的基础上提出一种注意力金字塔卷积残差网络模型(APRNET50)。该模型融合金字塔卷积模块、通道注意力和空间注意力。首先用金字塔卷积提取图像的细节特征信息,然后对所提特征在通道和空间维度上分配权重,按权重大小定位显著区域,最后通过全连接层构建分类器对表情进行分类。以端到端的方式进行训练,使得所提网络模型更适合于精细的面部表情分类。实验结果表明,在FER2013和CK+数据集上识别准确率可以达到73.001%和94.949%,与现有的方法相比识别准确率分别提高了2.091个百分点和0.279个百分点,达到了具有相对竞争力的效果。  相似文献   

7.
近年来基于深度学习的人脸表情识别技术已取得很大进展,但对于表情特征的多尺度提取,以及在不受约束的现实场景中进行面部表情识别仍然是具有挑战性的工作。为解决此问题,提出一种金字塔卷积神经网络与注意力机制结合的表情识别方法。对于初始的一张人脸表情图像,将其按照区域采样裁剪成多张子图像,将原图像和子图像输入到金字塔卷积神经网络进行多尺度特征提取,将提取到的特征图输入到全局注意力模块,给每一张图像分配一个权重,从而得到有重要特征信息的图像,将子图像和原始图像的特征进行加权求和,得到新的含有注意力信息的全局特征,最终进行表情识别分类。在CK+、RAF-DB、AffectNet三个公开表情数据集上分别取得了98.46%、87.34%、60.45%的准确率,提高了表情的识别精度。  相似文献   

8.
目前深度学习算法已经广泛应用于步态识别领域,但是大多数现有方法通过卷积神经网络提取步态全局特征时,忽略了许多包含关键步态信息的局部特征,在一定程度上削弱了步态识别的精度和提升潜力.针对上述问题,提出了一种结合注意力卷积神经网络与分块特征的跨视角步态识别方法,该方法以步态轮廓图序列为输入,每帧图片分别经过相同结构的注意力...  相似文献   

9.
寻找场景中的有效信息是场景识别领域中的关键性问题.针对构建场景图像的有效表示,提出了一种基于多尺度注意力网络的场景识别方法.通过在模型中融入改进的通道注意力结构,获得值得关注的局部特征和全局特征;同时针对空间注意力计算过程中的信息丢失问题,提出了基于不同尺度的空间注意力结构,利用特征互补得到场景图像的最终表示;并且引入...  相似文献   

10.
针对深度学习图像去噪算法存在网络过深导致细节丢失的问题,提出一种双通道扩张卷积注意力网络CEANet。拼接信息保留模块将每一层的输出特征图融合,弥补卷积过程中丢失的图像细节特征进行密集学习;扩张卷积可以在去噪性能和效率之间进行权衡,用更少的参数获取更多的信息,增强模型对噪声图像的表示能力,基于扩张卷积的稀疏模块通过扩大感受野获得重要的结构信息和边缘特征,恢复复杂噪声图像的细节;基于注意力机制的特征增强模块通过全局特征和局部特征进行融合,进一步指导网络去噪。实验结果表明,在高斯白噪声等级为25和50时,CEANet都获得了较高的峰值信噪比均值和结构相似性均值,能够更高效地捕获图像细节信息,在边缘保持和噪声抑制方面,具有较好的性能。相关实验证明了该算法进行图像去噪的有效性。  相似文献   

11.
针对人脸表情呈现方式多样化以及人脸表情识别易受光照、姿势、遮挡等非线性因素影响的问题,提出了一种深度多尺度融合注意力残差网络(deep multi-scale fusion attention residual network, DMFA-ResNet)。该模型基于ResNet-50残差网络,设计了新的注意力残差模块,由7个具有三条支路的注意残差学习单元构成,能够对输入图像进行并行多卷积操作,以获得多尺度特征,同时引入注意力机制,突出重点局部区域,有利于遮挡图像的特征学习。通过在注意力残差模块之间增加过渡层以去除冗余信息,简化网络复杂度,在保证感受野的情况下减少计算量,实现网络抗过拟合效果。在3组数据集上的实验结果表明,本文提出的算法均优于对比的其他先进方法。  相似文献   

12.
针对现有中文句子级唇语识别技术存在的视觉歧义、特征提取不充分导致识别准确率偏低的问题,提出了一种基于时域卷积网络,采用三维时空卷积的中文句子级唇语识别算法——3DT-CHLipNet(Chinese LipNet based on 3DCNN,TCN)。首先,针对特征提取不充分的问题,所提算法采用了比长短期记忆网络(LSTM)感受野更大的时域卷积网络(temporal convolutional network, TCN)来提取长时依赖信息;其次,针对中文唇语识别中存在的“同型异义”视觉歧义问题,将自注意力机制应用于中文句子级唇语识别,以更好地捕获上下文信息,提升了句子预测准确率;最后,在数据预处理方面引入了时间掩蔽数据增强策略,进一步降低了算法模型的错误率。在最大的开源汉语普通话句子级数据集CMLR上的实验测试表明,与现有中文句子级唇语识别代表性算法相比,所提算法的识别准确率提高了2.17%至23.99%。  相似文献   

13.
针对现有的交通标志识别算法在识别率和识别速度等方面存在的不足,在空间不变性方面还可以进一步利用的问题,提出一种基于空间变换网络和注意力机制的交通标志识别算法.首先将交通标志图片经过数据增强,然后输入到空间变换网络中,使得图片具有空间不变性,经过卷积层提取特征和池化层降维,提取图片抽象语义信息进行分类,在模型中加入改进的...  相似文献   

14.
针对现有人体动作识别方法需输入固定长度的视频段、未充分利用时空信息等问题,提出一种基于时空金字塔和注意力机制相结合的深度神经网络模型,将包含时空金字塔的3D-CNN和添加时空注意力机制的LSTM模型相结合,实现了对视频段的多尺度处理和对动作的复杂时空信息的充分利用。以RGB图像和光流场作为空域和时域的输入,以融合金字塔池化层的运动和外观特征后的融合特征作为融合域的输入,最后采用决策融合策略获得最终动作识别结果。在UCF101和HMDB51数据集上进行实验,分别取得了94.2%和70.5%的识别准确率。实验结果表明,改进的网络模型在基于视频的人体动作识别任务上获得了较高的识别准确率。  相似文献   

15.
针对视频人体动作识别中动作信息利用率不高、时间信息关注度不足等问题,提出了一种基于紧耦合时空双流卷积神经网络的人体动作识别模型。首先,采用两个2D卷积神经网络分别提取视频中的空间特征和时间特征;然后,利用长短期记忆(LSTM)网络中的遗忘门模块在各采样片段之间建立特征层次的紧耦合连接以实现信息流的传递;接着,利用双向长短期记忆(Bi-LSTM)网络评估各采样片段的重要性并为其分配自适应权重;最后,结合时空双流特征以完成人体动作识别。在数据集UCF101和HMDB51上进行实验验证,该模型在这两个数据集上的准确率分别为94.2%和70.1%。实验结果表明,所提出的紧耦合时空双流卷积网络模型能够有效提高时间信息利用率和动作整体表达能力,由此明显提升人体动作识别的准确度。  相似文献   

16.
针对视频人体动作识别中动作信息利用率不高、时间信息关注度不足等问题,提出了一种基于紧耦合时空双流卷积神经网络的人体动作识别模型。首先,采用两个2D卷积神经网络分别提取视频中的空间特征和时间特征;然后,利用长短期记忆(LSTM)网络中的遗忘门模块在各采样片段之间建立特征层次的紧耦合连接以实现信息流的传递;接着,利用双向长短期记忆(Bi-LSTM)网络评估各采样片段的重要性并为其分配自适应权重;最后,结合时空双流特征以完成人体动作识别。在数据集UCF101和HMDB51上进行实验验证,该模型在这两个数据集上的准确率分别为94.2%和70.1%。实验结果表明,所提出的紧耦合时空双流卷积网络模型能够有效提高时间信息利用率和动作整体表达能力,由此明显提升人体动作识别的准确度。  相似文献   

17.
针对基于深度学习的动态手势识别方法网络规模庞大、提取的时空特征尺度单一、有效特征的提取能力不足等问题,提出了一种深度网络框架。首先,使用时域多尺度信息融合的时空卷积模块改进3D残差网络结构,大幅度缩小网络规模,获得多种尺度的时空感受野特征;其次,引入一种全局信息同步的时空特征通道注意力机制,使用极少量参数构建特征图通道之间的全局依赖关系,使模型更加高效地获取动态手势的关键特征。在自建手势数据集SHC和公开手势数据集SKIG上的实验结果显示,提出的手势识别方法参数量更少且多尺度时空特征提取能力强,识别率高于目前的主流算法。  相似文献   

18.
传统人体动作识别算法无法充分利用视频中人体动作的时空信息,且识别准确率较低。提出一种新的三维密集卷积网络人体动作识别方法。将双流网络作为基本框架,在空间网络中运用添加注意力机制的三维密集网络提取视频中动作的表观信息特征,结合时间网络对连续视频序列运动光流的运动信息进行特征提取,经过时空特征和分类层的融合后得到最终的动作识别结果。同时为更准确地提取特征并对时空网络之间的相互作用进行建模,在双流网络之间加入跨流连接对时空网络进行卷积层的特征融合。在UCF101和HMDB51数据集上的实验结果表明,该模型识别准确率分别为94.52%和69.64%,能够充分利用视频中的时空信息,并提取运动的关键信息。  相似文献   

19.
人体行为识别中的关键问题是如何构建时空特征的提取和分类网络.针对目前提取的时空特征尺度单一、网络结构复杂等问题,本文提出一种结合注意力机制和多尺度时空信息的卷积网络(Multiscale Channels separation Spatiotemporal convolu-tion Network,MCST-Net)....  相似文献   

20.
为解决TCN使用可穿戴传感器数据进行人体行为识别准确率不高的问题,提出适用于可穿戴传感器数据的双注意力时间卷积网络的人体行为识别模型。为TCN引入两类不同的注意力模块,提取与当前行为高度相关的深层特征。利用LN层代替TCN中残差模块的WN层,优化模型的残差结构。创新性地应用三元组损失函数区分高相似传感器数据的异类行为。实验结果表明,在公共人体行为数据集PAMAP2上采用该模型的识别准确率高达98.25%,相较原始TCN模型提升了5.28%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号