首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 171 毫秒
1.
针对视频序列中人体动作识别存在信息冗余大、准确率低的问题,提出基于关键帧的双流卷积网络的人体动作识别方法.该方法构建了由特征提取、关键帧提取和时空特征融合3个模块构成的网络框架.首先将空间域视频的单帧RGB图像和时间域多帧叠加后的光流图像作为输入,送入VGG16网络模型,提取视频的深度特征;其次提取视频的关键帧,通过不断预测每个视频帧的重要性,选取有足够信息的有用帧并汇聚起来送入神经网络进行训练,选出关键帧并丢弃冗余帧;最后将两个模型的Softmax输出加权融合作为输出结果,得到一个多模型融合的人体动作识别器,实现了对视频的关键帧处理和对动作的时空信息的充分利用.在UCF-101公开数据集上的实验结果表明,与当前人体动作识别的主流方法相比,该方法具有较高的识别率,并且相对降低了网络的复杂度.  相似文献   

2.
为了解决双流融合网络对动态手势关键帧及手部轮廓特征检测不足的问题,提出一种手势时空特征与通道注意力融合的动态手势识别方法.首先,在双流融合网络中引入有效通道注意力(eficient channel attention,ECA)增强双流识别算法对手势关键帧的关注度,并利用双流中的空间卷积网络和时间卷积网络分别提取动态手势中的空间和时序特征;其次,通过ECA在空间流中选取最高关注度的手势帧,利用单发多框检测器技术(single shot multibox detector,SSD)提取相应手部轮廓特征;最后,将手部轮廓特征与双流中提取的人体姿态特征、时序特征融合后分类识别手势.该方法在Chalearn 2013多模态手语识别数据集上进行了验证,准确率为66.23%,相比之前在该数据集上仅使用RGB信息进行双流识别的方法获得了更好的手势识别效果.  相似文献   

3.
针对公共空间中人脸情绪识别准确率不高的问题,提出一种结合不同感受野和双流卷积神经网络的人脸情绪识别方法。首先建立基于公共空间视频的人脸表情数据集;然后设计一个双流卷积网络,以尺寸为224×224的单帧人脸图像输入卷积神经网络(convolution neural network,CNN),分析图像纹理静态特征;以尺寸为336×336视频序列输入CNN网络,再将提取的特征送入长短期记忆网络(long short term memory network,LSTM)分析局部、全局运动特征;最后通过Softmax分类器将两通道网络的描述子进行加权融合,得到分类结果。结果表明,本文方法能有效利用不同感受野的信息特征清晰识别公共空间的4种典型人脸情绪,识别准确率达88.89%。  相似文献   

4.
为了提高多帧视频序列中动态手势的识别效果,结合计算机视觉分析,提出了基于卷积神经网络视觉融合的动态手势识别方法.采用模糊数据多频谱方法进行多帧视频序列中动态手势视觉图像采集,对采集的图像用Harris角点检测和多传感识别方法进行多模状态分层特征点标定,用卷积神经网络视觉融合方法提取多帧视频序列中动态手势动作的边界轮廓特征点信息,分析多帧视频序列中动态手势的层次化分割特征,用图像分割和边缘信息增强方法,提高动态手势图像的分辨能力,结合角点优化检测技术,用视觉动态跟踪分析实现对手势动作特征点的自动化标定,根据动态手势的帧点分布规则实现多帧视频序列中动态手势动作图像的自适应特征检测和识别.仿真结果表明,采用该方法进行多帧视频序列中动态手势识别的准确性较高、实时性较好.  相似文献   

5.
针对较小数据集识别时的过拟合和误差传递问题,提出了一种基于卷积神经网络的常见人体动作识别方法.该方法首先利用经典雷达信号处理方法对人体动作回波进行预处理,生成人体动作的时频图像;然后构建卷积神经网络(CNN),并以时频图作为CNN输入数据对网络参数进行训练;最后利用网络公开数据集对所提方法进行了实验验证.实验结果表明,构建的CNN能够准确识别4类不同的人体动作,准确率不低于97%.  相似文献   

6.
针对已有的动作识别方法的特征提取不足、识别率较低等问题,结合双流网络、3D卷积神经网络和卷积LSTM网络的优势,提出一种融合模型. 该融合模型为了更好地提取人体动作特征,采用SSD目标检测方法将人体目标分割出作为局部特征和原视频的全局特征共同训练,并采用后期融合进行分类; 将3D卷积块注意模块采用shortcut结构的方式融合到3D卷积神经网络中,加强神经网络对视频的通道和空间特征提取; 并且通过将神经网络中部分3D卷积层替换为ConvLSTM层的方法,更好地得到视频的时序关系. 实验在公开的KTH数据集  相似文献   

7.
为了准确地评估VR视频引起不适的程度,提出基于3D双流卷积神经网络的VR病评估模型.模仿人类视觉系统的2条通路,建立外观流和运动流2个子网络;将2D-ResNet50模型改为3D模型,增加一个深度通道,用以学习视频中的时序信息.加入3D-CBAM注意力模块提高了各帧通道之间的空间关联,增强关键信息,去除冗余信息.采用后端融合的方法,实现2个子网络结果的融合.在公开视频数据集上进行实验验证,结果表明,通过3D-CBAM注意力模块引入注意力机制,使得外观流和运动流网络的VR病评估精度分别提升了1.7%和3.6%,与现有文献相比,融合的双流网络模型的精度得到了较大的提升,精度达到93.7%.  相似文献   

8.
针对使用深度传感器采集的深度图像序列,在3D运动历史图像的基础上提出一种基于Gabor特征提取和多任务学习的人体动作识别方法。为了解决基于轮廓特征对运动历史图像不能充分表达的问题,引入Gabor滤波器组对3D运动历史图像进行特征提取;为了刻画在不同时间维度上人体动作的变化过程,引入时域金字塔对动作视频进行划分;最后,为了挖掘动作识别任务间的相关性,采用多任务学习训练动作分类模型。实验结果表明,该方法可有效提高动作识别的准确率。  相似文献   

9.
针对图卷积神经网络的双人交互行为识别方法存在交互语义信息表达不充分的问题,提出了一种新的双人交互时空图卷积神经网络(DHI-STGCN)用于行为识别的方法。该网络包含空间子网络模块和时间子网络模块。将基于交互动作视频获取的3D骨架数据生成一种双人交互动作的空间动作图用于空间信息的表示,图中根据关节点位置信息对双人之间的连接边赋予不同的权重。时间信息处理中,在构造的邻接矩阵中增加了上下文时间信息的联系,图中关节点与其一定时间范围内的节点增加连接。将生成的时空图数据送入空间图卷积网络模块,结合时间图卷积网络模块增强帧间运动特征连续性进行时序建模。该模型充分考虑了双人交互动作的紧密关系,具有较强的鲁棒性,获得了比现有模型更好的交互动作识别效果。  相似文献   

10.
针对现有的视觉位置识别方法在图像外观变化和视角变化时准确性和鲁棒性表现不佳的问题,提出了一个与注意力机制结合的视觉位置识别方法。首先,采用在大型位置数据集上预训练的卷积神经网络HybridNet提取特征。然后,运用上下文注意力机制对图像不同区域分配权重值,构建基于多层卷积特征的注意力掩码。最后,将掩码与卷积特征结合,构建融合注意力机制的图像特征描述符,从而提高特征的鲁棒性。在两个典型位置识别数据集上做测试实验,结果表明结合注意力机制的方法可以有效区分图像中与位置识别有关的区域和无关的区域,提高在外观变化和视角变化场景中识别的准确性和鲁棒性。  相似文献   

11.
深度视频中的人体行为的识别研究主要集中在对深度视频进行特征表示上,为了获得具有判别性的特征表示,首先提出了深度视频中一种基于表面法向信息的局部二值模式( local binary pattern, LBP)算子作为初级特征,然后基于稀疏表示模型训练初级特征字典,获取初级特征的稀疏表示,最后对用自适应的时空金字塔划分的若干个子序列使用时空池化方法进行初级特征与稀疏系数的规格化,得到深度视频的高级特征,最终的特征表示实现了深度视频中的准确的人体行为识别。在公开的动作识别库MSR Action3D和手势识别库MSR Gesture3D上的实验证明了本文提出的特征表示的有效性和优越性。  相似文献   

12.
在人类交互行为识别领域,基于RGB视频的局部特征往往不能有效区分近似动作,将深度图像(Depth)与彩色图像(RGB)在识别过程中进行融合,提出一种融合Depth信息的整体和个体分割融合的双人交互行为识别算法。该算法首先分别对RGB和Depth视频进行兴趣点提取,在RGB视频上采用3DSIFT进行特征描述,在Depth视频上利用YOLO网络对左右两人兴趣点进行划分,并使用视觉共生矩阵对局部关联信息进行描述。最后使用最近邻分类器分别对RGB特征和Depth特征进行分类识别,进一步通过决策级融合两者识别结果,提高识别准确率。结果表明,结合深度视觉共生矩阵可以大大提高双人交互行为识别准确率,对于SBU Kinect interaction数据库中的动作可以达90%的正确识别率,验证了所提算法的有效性。  相似文献   

13.
RGB-D显著性目标检测是计算机视觉领域的研究任务之一,很多模型在简单场景下取得了较好的检测效果,却无法有效地处理多目标、深度图质量低下以及显著性目标色彩与背景相似等复杂场景。因此,本文提出一种三分支多层次Transformer特征交互的RGB-D显著性目标检测模型。首先,本文采用坐标注意力模块抑制RGB和深度图的噪声信息,提取出更为显著的特征用于后续解码。其次,通过特征融合模块将高层的三层特征图调整到相同的分辨率送入Transformer层,有效获取远距离显著性目标之间的关联关系和整幅图像的全局信息。然后,本文提出一个多层次特征交互模块,该模块通过有效地利用高层特征和低层特征对显著性目标的位置和边界进行细化。最后,本文设计一个密集扩张特征细化模块,利用密集扩张卷积获取丰富的多尺度特征,有效地应对显著性目标数量和尺寸变化。通过在5个公开的基准数据集与19种主流模型相比,实验结果表明:本文方法在多个测评指标上有较好的提升效果,提高了在特定复杂场景下的检测精度,从P-R曲线、F-measure曲线和显著图也可以直观看出本文方法实现了较好的检测结果,生成的显著图更完整、更清晰,相比其他模型更加接近真值图。  相似文献   

14.
随着万物智联成为时代所趋,传统视频编码与压缩方法难以有效去除视频数据中的大量冗余信息,势必会降低传输效率。针对这一挑战,提出了一种面向语义通信的3D骨骼点数据信源编码与压缩方法(DMDCT)。针对骨骼点数据中的冗余问题,从语义概念出发,提出多尺度骨骼点表示方法,自适应地描述参与每个不同动作语义的骨骼点运动的状态的同时保留人体骨骼架构;引入离散余弦变换(DCT)从频域层面分离多尺度骨骼点表示的直流分量与交流分量,进一步减少了整体数据量。区别于传统通信传输原始视频数据的方式,结合语义通信只传输与高层任务相关的骨骼点数据,提高了数据传输效率。在公开数据集NTU RGB+D上以动作识别为例的实验表明,DMDCT在同等压缩率下,TOP-1准确率比同类算法提高了约5%,且仅保留10%DCT系数仍可达到74.2%的准确率,而数据量仅为原始数据量的6%。  相似文献   

15.
为使特征提取更适合复杂矿石图像识别,提出并实现一种结合RGB颜色特征及其纹理特征映射的图像内容识别新方法,并将聚类方法应用于图像识别系统中。首先将图像分块,基于不同的颜色空间提取子块的纹理特征,并应用主成份分析进行纹理特征映射。然后提取图像的RGB颜色特征,每个子块的特征向量由上述2种特征组成。最后基于每个子块的特征向量应用Kmeans聚类方法对图像内容进行识别。实验结果表明,该方法能有效结合图像的纹理信息及其颜色构成和分布信息,具有较好的复杂矿石图像理解与识别的效果。  相似文献   

16.
提出了一种用于视频会议及可视电话的头肩序列图像人脸定位方法。该方法利用序列图像的运动信息,在帧间差分的基础上进行二值图像边缘提取,利用人的头肩办吧及彩色图像的色系坐标变换进行运动的人脸定位。实验证明该方法能够自动执行头肩分割,人脸定位,简单快速而且有效。  相似文献   

17.

结合多尺度有向深度运动图和Log-Gabor滤波器的人体行为识别

赵晓叶,吉训生,李元祥,彭力

(江南大学 物联网工程学院物联网应用技术教育部工程中心,江苏 无锡214122)

创新点说明:

1)考虑到动作执行速度的不同,本文提出了一种新的基于能量均分的视频分割方法,传统方法对第n层金字塔进行了 等分,其中,第n-1层金字塔的细节信息完全可以在第n层金字塔中体现出来。因此,为了在金字塔的不同层更大限度的包含细节信息,本文在第n层金字塔进行了 等分,构建多尺度深度运动图。

2)在行为识别中,除了身体形状和运动信息外,运动方向也至关重要。考虑到动作执行时,时间顺序的不同,本文提出了有向深度运动图。有向DMM分为正向DMM(Positive DMM,PDMM)、反向DMM(Negative DMM,NDMM),前者反映的是当前帧图像的深度值比前一帧图像的深度值大的形状和运动信息,后者反映的是当前帧图像的深度值比前一帧图像的深度值小的形状和运动信息,相似但时间排序相反的两个动作的PDMM和NDMM正好是相反的,因此基于PDMM和NDMM表示可以区别两个动作。最后综合得到基于能量的多尺度有向深度运动图。

3)为描述多尺度有向深度运动图纹理细节,本文采用在纹理表征方面具有优势同时符合人眼视觉特性的Log-Gabor作为特征表示。

针对上述新的算法进行了实验验证,且对参数设置进行了大量对比实验,得到对应的最佳参数。结果表明, 本文算法准确率分别达95.79%和96.43%,与现存许多算法相比,有更高的识别率、鲁棒性。

研究目的:

DMM是基于整个深度序列得到的,丢失了人体行为本身的时间信息,对于动作相似但时间顺序不同的两个人体动作,是很难区分的,比如“坐下”和“站起”。另外,DMMs并没有考虑到动作执行速度差异造成的类内误差,从而降低识别率。本文的目的就是在尽量满足实时性的前提下,提高动作的识别率。

研究方法:

研究方法:主要是使用MATLAB进行仿真实验。在公开动作识别库MSRAction3D和手势识别库MSRGesture3D上进行实验验证。最后将本文识别率与其他现有算法识别率进行对比,结果表明本文具有更高的识别率,分别达到95.79%和96.43%。另外混淆矩阵也显示了在两个数据库中各个动作识别的情况,从而进一步显示本文方法有效地减少了相似动作的误判率。另外,针对参数选择,本文也进行了对比试验。

实验设置:动作识别库MSRAction3D:一个包含20种动作,由10个表演者对每个动作重复2~3次得到的人体行为公共数据库,共557个视频序列。该数据库许多动作高度相似,具有很大挑战性。为了便于性能比较,本文将20个动作作为一个集合,在10个表演者中选择第奇数个的数据作为训练集,第偶数个的数据作为测试集。在实验中,正面、侧面、顶面的MsdDMM尺寸分别归一化为102*54,102*75和75*54,Log-Gabor滤波器尺寸设置为10*11,CRC中的正则化参数λ设置为0.001。

手势识别库MSRGesture3D:是一个包含12个由美国标准手语定义的动态手势,由10个表演者对每个动作重复2~3次得到的人体手势测试评价数据库,共333个视频序列,该数据库存在很多自遮挡问题。本文采用Leave one-subject-out交叉验证方法,总共进行10次实验。第n次实验使用第n个表演者的所有数据作为测试集,其余表演者的数据作为训练集,最终取10次实验结果的平均值作为最终识别率。

结果:

1)在公开动作识别库MSRAction3D和手势识别库MSRGesture3D上,识别率可分别达到95.79%和96.43%,与现存许多算法相比,有更高识别率。

2)在公开动作识别库MSRAction3D上, =0.001,特征子为Log-Gabor时,取得最高识别率95.79%。

3)在手势识别库MSRGesture3D上, =0.01,特征子为Log-Gabor时,取得最高识别率96.43%。

结论:

MSRAction3D数据集:

取不同值时的识别率

λ

0.0001

0.001

0.01

0.1

1

Accuracy(%)

95.41

95.79

95.05

95.05

94.34

采用不同特征描述子时的识别率

operators

HOG

LBP

Gabor

Log-Gabor

Accuracy(%)

92.22

94.35

94.70

95.79

混淆矩阵

MSRGesture3D数据集:

取不同值时的识别率

λ

0.0001

0.001

0.01

0.1

1

Accuracy(%)

94.60

96.32

96.43

95.88

93.98

采用不同特征描述子时的识别率

operators

HOG

LBP

Gabor

Log-Gabor

Accuracy(%)

93.60

94.70

95.44

96.43

混淆矩阵

本文提出了一种结合基于能量的MsdDMM和Log-Gabor滤波器的人体行为识别方法算法。该算法首先提出一种考虑动作执行速度和时间顺序的基于能量的MsdDMM表示;然后,提取Log-Gabor纹理特征作为动作的特征描述子刻画MsdDMM的细节信息;最后,使用CRC进行动作识别。实验表明:本文算法与现存许多算法相比,人体行为识别上都有更高的识别率、鲁棒性。

关键词:人体行为识别;深度运动图;Log-Gabor滤波器;协同分类器

  相似文献   

18.
对于一次学习手势识别,噪声和全局经验运动约束严重影响时空特征的精确与充分提取,为此提出了一种融合颜色和深度( RGB-D)信息的自适应局部时空特征提取方法。首先建立连续两灰度帧和两深度帧的金字塔以及相应的光流金字塔作为尺度空间。然后根据灰度和深度光流的水平与垂直方差自适应提取运动感兴趣区域( motion regions of interest, MRoIs)。接着仅在MRoIs内检测角点作为兴趣点,当兴趣点的灰度和深度光流同时满足局部运动约束时即为关键点,局部运动约束是在每个MRoI内自适应确定的。最后在改进的梯度运动空间计算SIFT-like描述子。 Chalearn数据库上的实验结果表明:提出方法得到了较高的识别准确率,其识别性能优于现已发表的方法。  相似文献   

19.
针对全局特征描述过分依赖精确定位、背景减除和跟踪技术等问题,同时也为了解决视角变化、噪声和遮挡等干扰带来的影响,对基于局部特征描述的视频人体动作识别方法进行了研究,提出了一种基于判别性区域提取的视频人体动作识别方法.首先通过迭代训练和筛选过程对视频的内容进行分析和学习,自动提取视频中有代表性和区分性的判别性区域,然后使用词袋模型对提取到的判别性区域进行统计和描述,最后采用支持向量机方法确定人体运动的类型.在KTH和Youtube数据集上分别对提出的方法进行了论证,结果表明:该方法具有较高的识别准确率,同时对复杂背景等干扰不敏感.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号