首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 218 毫秒
1.
为了提高人与机器人的语音交互能力,提出一个基于视频特征与音频特征融合的动作三元组分类的神经网络框架,其本质是从音视频中提取高度概括动作的指令组。该框架包含三个模块,分别是视频特征提取网络模块、音频特征提取网络模块、特征融合模块。视频特征提取网络模块使用I3D网络结构提取视频特征;音频特征提取网络模块使用卷积神经网络以及双向长短期记忆网络提取音频特征;特征融合模块将视频特征和音频特征进行融合并输出动作三元组的分类。通过在制作的动作音视频数据集上的实验证明,所提出的音视频特征融合网络能达到74.92%的准确率,且具有较强的鲁棒性。  相似文献   

2.
目的 在人体行为识别算法的研究领域,通过视频特征实现零样本识别的研究越来越多。但是,目前大部分研究是基于单模态数据展开的,关于多模态融合的研究还较少。为了研究多种模态数据对零样本人体动作识别的影响,本文提出了一种基于多模态融合的零样本人体动作识别(zero-shot human action recognition framework based on multimodel fusion, ZSAR-MF)框架。方法 本文框架主要由传感器特征提取模块、分类模块和视频特征提取模块组成。具体来说,传感器特征提取模块使用卷积神经网络(convolutional neural network, CNN)提取心率和加速度特征;分类模块利用所有概念(传感器特征、动作和对象名称)的词向量生成动作类别分类器;视频特征提取模块将每个动作的属性、对象分数和传感器特征映射到属性—特征空间中,最后使用分类模块生成的分类器对每个动作的属性和传感器特征进行评估。结果 本文实验在Stanford-ECM数据集上展开,对比结果表明本文ZSAR-MF模型比基于单模态数据的零样本识别模型在识别准确率上提高了4 %左右。结论 本文所提出的基于多模态融合的零样本人体动作识别框架,有效地融合了传感器特征和视频特征,并显著提高了零样本人体动作识别的准确率。  相似文献   

3.
传统人体动作识别算法无法充分利用视频中人体动作的时空信息,且识别准确率较低。提出一种新的三维密集卷积网络人体动作识别方法。将双流网络作为基本框架,在空间网络中运用添加注意力机制的三维密集网络提取视频中动作的表观信息特征,结合时间网络对连续视频序列运动光流的运动信息进行特征提取,经过时空特征和分类层的融合后得到最终的动作识别结果。同时为更准确地提取特征并对时空网络之间的相互作用进行建模,在双流网络之间加入跨流连接对时空网络进行卷积层的特征融合。在UCF101和HMDB51数据集上的实验结果表明,该模型识别准确率分别为94.52%和69.64%,能够充分利用视频中的时空信息,并提取运动的关键信息。  相似文献   

4.
针对视频理解中的时序难点以及传统方法计算量大的困难,提出了一种带有时空模块的方法用于动作识别.该方法采用残差网络作为框架,加入时空模块提取图像以及时序信息,并且加入RGB差值信息增强数据,采用NetVLAD方法聚合所有的特征信息,最后实现行为动作的分类.实验结果表明,基于时空模块的多模态方法具有较好的识别精度.  相似文献   

5.
陈家乐 《信息与电脑》2023,(22):161-163
为实现人体动作的精准识别,判断人体行为,提出基于Transformer的人体动作识别方法。以注意力机制神经网络为基础,引入Transformer框架,构建人体动作识别网络模型;该模型利用注意力机制提取视频中关键信息特征,同时依据Transformer模块提取动作帧的时间特征,将提取的两种特征融合后输入分类器中,经由模型的分类器完成动作分类识别。测试结果表明,该方法具有较好的应用效果,能够精准识别视频图像中的人体动作情况,判断人体行为。  相似文献   

6.
针对现有的人体骨架动作识别方法对肢体信息挖掘不足以及时间特征提取不足的问题,提出了一种基于姿态校正模块与姿态融合模块的模型PTF-SGN,实现了对骨架图关键时空信息的充分利用。首先,对骨架图数据进行预处理,挖掘肢体和关节点的位移信息并提取特征;然后,姿态校正模块通过无监督学习的方式获取姿态调整因子,并对人体姿态进行自适应调整,增强了模型在不同环境下的鲁棒性;其次,提出一种基于时间注意力机制的姿态融合模块,学习骨架图中的短时刻特征与长时刻特征并融合长短时刻特征,加强了对时间特征的表征能力;最后,将骨架图的全局时空特征输入到分类网络中得到动作识别结果。在NTU60 RGB+D、NTU120 RGB+D两个3D骨架数据集和Penn-Action、HARPET两个2D骨架数据集上的实验结果表明,该模型能够有效地识别骨架时序数据的动作。  相似文献   

7.
针对现有的动作识别算法的特征提取复杂、识别率低等问题,提出了基于批归一化变换(batch normalization)与GoogLeNet网络模型相结合的网络结构,将图像分类领域的批归一化思想应用到动作识别领域中进行训练算法改进,实现了对视频动作训练样本的网络输入进行微批量(mini-batch)归一化处理。该方法以RGB图像作为空间网络的输入,光流场作为时间网络输入,然后融合时空网络得到最终动作识别结果。在UCF101和HMDB51数据集上进行实验,分别取得了93.50%和68.32%的准确率。实验结果表明,改进的网络架构在视频人体动作识别问题上具有较高的识别准确率。  相似文献   

8.
为解决卷积神经网络提取特征遗漏、手势多特征提取不充分问题,本文提出基于残差双注意力与跨级特征融合模块的静态手势识别方法.设计了一种残差双注意力模块,该模块对ResNet50网络提取的低层特征进行增强,能够有效学习关键信息并更新权重,提高对高层特征的注意力,然后由跨级特征融合模块对不同阶段的高低层特征进行融合,丰富高级特征图中不同层级之间的语义和位置信息,最后使用全连接层的Softmax分类器对手势图像进行分类识别.本文在ASL美国手语数据集上进行实验,平均准确率为99.68%,相比基础ResNet50网络准确率提升2.52%.结果验证本文方法能充分提取与复用手势特征,有效提高手势图像的识别精度.  相似文献   

9.
基于深度模型的视频动作识别通常先对输入视频进行采样,然后对获得的视频帧进行特征表达,输出动作类别,因此视频帧采样方法对动作识别的效果有直接的影响。为了在采样到关键有效的特征同时,并增强视频运动信息,提出了一种基于特征级采样策略的局部—全局运动信息增强的动作识别网络(local-global motion enhancement network,LGMeNet)。首先,利用特征级采样模块对输入数据进行相同运动信息间隔均匀取帧;其次,局部运动特征提取模块使用相似性函数计算单帧短期运动特征;最后,全局运动特征提取模块利用LSTM网络计算多尺度长期运动特征。通过实验评估,LGMeNet在UCF101和Something-SomethingV1数据集上分别取得了97.7%和56.9%的精确度。结果表明,采用LGMeNet能够有效提升动作识别的效果,对进一步改进相关领域的研究具有重要意义。  相似文献   

10.
为了改善电力服务行业场景复杂,服务行为识别困难的问题,提出了一种供电营业厅服务行为识别融合网络。该网络主要包括时空分割网络模型和改进C3D网络模型。首先,在从视频中提取光流帧和RGB帧。其次,将提取出的光流帧和RGB帧带入时空分割网络和改进C3D网络经过训练,从而有效提取动作特征和图像特征。最后,在分类层,计算每个网络对每类服务动作的识别准确率,通过Softmax公式确定权重,并得到最终动作识别结果。仿真阶段,以南方电网公司提供的服务视频数据集为例,对所提模型进行验证。仿真结果表明,所提方法识别准确率为98.99%,召回率为90.2%,F分数为94.39%。仿真结果进一步验证了所提模型对服务行为具有较高的准确性和稳定的识别率。  相似文献   

11.
行为识别是当前计算机视觉方向中视频理解领域的重要研究课题。从视频中准确提取人体动作的特征并识别动作,能为医疗、安防等领域提供重要的信息,是一个十分具有前景的方向。本文从数据驱动的角度出发,全面介绍了行为识别技术的研究发展,对具有代表性的行为识别方法或模型进行了系统阐述。行为识别的数据分为RGB模态数据、深度模态数据、骨骼模态数据以及融合模态数据。首先介绍了行为识别的主要过程和人类行为识别领域不同数据模态的公开数据集;然后根据数据模态分类,回顾了RGB模态、深度模态和骨骼模态下基于传统手工特征和深度学习的行为识别方法,以及多模态融合分类下RGB模态与深度模态融合的方法和其他模态融合的方法。传统手工特征法包括基于时空体积和时空兴趣点的方法(RGB模态)、基于运动变化和外观的方法(深度模态)以及基于骨骼特征的方法(骨骼模态)等;深度学习方法主要涉及卷积网络、图卷积网络和混合网络,重点介绍了其改进点、特点以及模型的创新点。基于不同模态的数据集分类进行不同行为识别技术的对比分析。通过类别内部和类别之间两个角度对比分析后,得出不同模态的优缺点与适用场景、手工特征法与深度学习法的区别和融合多模态的优...  相似文献   

12.
传统的2D卷积神经网络在进行视频识别时容易丢失目标在时间维度上的相关特征信息,导致识别准确率降低。针对该问题,本文采用3D卷积网络作为基本的网络框架,使用3D卷积核进行卷积操作提取视频中的时空特征,同时集成多个3D卷积神经网络模型对动态手势进行识别。为了提高模型的收敛速度和训练的稳定性,运用批量归一化(BN)技术优化网络,使优化后的网络训练时间缩短。实验结果表明,本文方法对于动态手势的识别具有较好的识别结果,在Sheffield Kinect Gesture (SKIG)数据集上识别准确率达到98.06%。与单独使用RGB信息、深度信息以及传统2D CNN相比,手势识别率均有所提高,验证了本文方法的可行性和有效性。  相似文献   

13.
倪苒岩  张轶 《计算机应用》2023,43(2):521-528
针对双流网络提取运动信息需要预先计算光流图,从而无法实现端到端的识别以及三维卷积网络参数量巨大的问题,提出了一种基于视频时空特征的行为识别方法。该方法能够高效提取视频中的时空信息,且无需添加任何光流计算和三维卷积操作。首先,利用基于注意力机制的运动信息提取模块捕获相邻两帧之间的运动位移信息,从而模拟双流网络中光流图的作用;其次,提出了一种解耦的时空信息提取模块代替三维卷积,从而实现时空信息的编码;最后,在将两个模块嵌入二维的残差网络中后,完成端到端的行为识别。将所提方法在几个主流的行为识别数据集上进行实验,结果表明在仅使用RGB视频帧作为输入的情况下,在UCF101、HMDB51、Something-Something-V1数据集上的识别准确率分别为96.5%、73.1%和46.6%,与使用双流结构的时间分段网络(TSN)方法相比,在UCF101数据集上的识别准确率提高了2.5个百分点。可见,所提方法能够高效提取视频中的时空特征。  相似文献   

14.
二维卷积难以对视频数据进行有效的时间信息建模。针对这个问题,提出了一个高效的基于二维卷积的时间建模网络。该网络只需要RGB图像作为输入,避免了复杂的光流计算,在低计算复杂度的前提下,可以在行为识别任务中达到先进的准确性。网络主要由两个部分组成,即运动特征增强模块和时序聚集模块。具体来说,运动特征增强模块主要实现短期时序建模,它利用当前帧与相邻帧的差异信息对当前帧中的运动信息进行自适应性的增强,让网络能够了解图像中的哪一部分将要产生运动。时序聚集模块实现长期的时序建模,主要应用于网络的后期,通过二维卷积对时序上的信息进行信息聚合,让每一帧图像经过网络提取特征后,都能够结合时序上所有帧序列的信息。在三个常见的视频动作识别数据集(UCF101、HMDB51和Something-Something V1)上进行的大量实验表明,与大多数现有方法相比,所提出的时序建模网络可以获得先进的识别性能。  相似文献   

15.
为了高效、准确地获得视频中的行为类别和运动信息,减少计算的复杂度,文中提出一种融合特征传播和时域分割网络的视频行为识别算法.首先将视频分为3个小片段,分别从相应片段中提取关键帧,从而实现对长时间视频的建模;然后设计一个包含特征传播表观信息流和FlowNet运动信息流的改进时域分割网络(P-TSN),分别以RGB关键帧、RGB非关键帧、光流图为输入提取视频的表观信息流和运动信息流;最后将改进时域分割网络的BN-Inception描述子进行平均加权融合后送入Softmax层进行行为识别.在UCF101和HMDB51这2个数据集上分别取得了94.6%和69.4%的识别准确率,表明该算法能够有效地获得视频中空域表观信息和时域运动信息,提高了视频行为识别的准确率.  相似文献   

16.
行为识别技术在视频检索具有重要的应用价值;针对基于卷积神经网络的行为识别方法存在的长时序行为识别能力不足、尺度特征提取困难、光照变化及复杂背景干扰等问题,提出一种多模态特征融合的长视频行为识别方法;首先,考虑到长时序行为帧间差距较小,易造成视频帧的冗余,基于此,通过均匀稀疏采样策略完成全视频段的时域建模,在降低视频帧冗余度的前提下实现长时序信息的充分保留;其次,通过多列卷积获取多尺度时空特征,弱化视角变化对视频图像带来的干扰;后引入光流数据信息,通过空间注意力机制引导的特征提取网络获取光流数据的深层次特征,进而利用不同数据模式之间的优势互补,提高网络在不同场景下的准确性和鲁棒性;最后,将获取的多尺度时空特征和光流信息在网络的全连接层进行融合,实现了端到端的长视频行为识别;实验结果表明,所提方法在UCF101和HMDB51数据集上平均精度分别为97.2%和72.8%,优于其他对比方法,实验结果证明了该方法的有效性.  相似文献   

17.
为了融合深度图中不易受光照等环境因素影响的深度信息和RGB视频序列中丰富的纹理信息,提出一种基于深度运动图(Depth Motion Maps,DMMs)和密集轨迹的人体行为识别算法。利用卷积神经网络训练DMMs数据并提取高层特征作为行为视频的静态特征表示,使用密集轨迹来描述RGB视频序列的动态运动信息,将行为视频的静态特征和动态特征串联,作为整个视频的行为特征表示并输入到线性支持向量机(Support Vector Machine,SVM)进行识别。实验结果表明,在公开的动作识别库UTD-MHAD和MSR Daily Activity 3D上,该算法能够有效提取深度信息和纹理信息,并取得了较好的识别效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号