首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
针对动态复杂场景下的操作动作识别,提出一种基于手势特征融合的动作识别框架,该框架主要包含RGB视频特征提取模块、手势特征提取模块与动作分类模块。其中RGB视频特征提取模块主要使用I3D网络提取RGB视频的时间和空间特征;手势特征提取模块利用Mask R-CNN网络提取操作者手势特征;动作分类模块融合上述特征,并输入到分类器中进行分类。在EPIC-Kitchens数据集上,提出的方法识别抓取手势的准确性高达89.63%,识别综合动作的准确度达到了74.67%。  相似文献   

2.
目的 在人体行为识别算法的研究领域,通过视频特征实现零样本识别的研究越来越多。但是,目前大部分研究是基于单模态数据展开的,关于多模态融合的研究还较少。为了研究多种模态数据对零样本人体动作识别的影响,本文提出了一种基于多模态融合的零样本人体动作识别(zero-shot human action recognition framework based on multimodel fusion, ZSAR-MF)框架。方法 本文框架主要由传感器特征提取模块、分类模块和视频特征提取模块组成。具体来说,传感器特征提取模块使用卷积神经网络(convolutional neural network, CNN)提取心率和加速度特征;分类模块利用所有概念(传感器特征、动作和对象名称)的词向量生成动作类别分类器;视频特征提取模块将每个动作的属性、对象分数和传感器特征映射到属性—特征空间中,最后使用分类模块生成的分类器对每个动作的属性和传感器特征进行评估。结果 本文实验在Stanford-ECM数据集上展开,对比结果表明本文ZSAR-MF模型比基于单模态数据的零样本识别模型在识别准确率上提高了4 %左右。结论 本文所提出的基于多模态融合的零样本人体动作识别框架,有效地融合了传感器特征和视频特征,并显著提高了零样本人体动作识别的准确率。  相似文献   

3.
陈家乐 《信息与电脑》2023,(22):161-163
为实现人体动作的精准识别,判断人体行为,提出基于Transformer的人体动作识别方法。以注意力机制神经网络为基础,引入Transformer框架,构建人体动作识别网络模型;该模型利用注意力机制提取视频中关键信息特征,同时依据Transformer模块提取动作帧的时间特征,将提取的两种特征融合后输入分类器中,经由模型的分类器完成动作分类识别。测试结果表明,该方法具有较好的应用效果,能够精准识别视频图像中的人体动作情况,判断人体行为。  相似文献   

4.
针对在视频行为检测中卷积神经网络(CNN)对时域信息理解能力不足的问题,提出了一种融合非局部神经网络的行为检测模型.模型采用一种双分支的CNN结构,分别提取视频的空间特征和运动特征.将视频单帧和视频连续帧序列作为网络输入,空间网络对视频当前帧进行2D CNN特征提取,时空网络采用融合非局部模块的3D CNN来捕获视频帧...  相似文献   

5.
传统人体动作识别算法无法充分利用视频中人体动作的时空信息,且识别准确率较低。提出一种新的三维密集卷积网络人体动作识别方法。将双流网络作为基本框架,在空间网络中运用添加注意力机制的三维密集网络提取视频中动作的表观信息特征,结合时间网络对连续视频序列运动光流的运动信息进行特征提取,经过时空特征和分类层的融合后得到最终的动作识别结果。同时为更准确地提取特征并对时空网络之间的相互作用进行建模,在双流网络之间加入跨流连接对时空网络进行卷积层的特征融合。在UCF101和HMDB51数据集上的实验结果表明,该模型识别准确率分别为94.52%和69.64%,能够充分利用视频中的时空信息,并提取运动的关键信息。  相似文献   

6.
当前对视频的分析通常是基于视频帧,但视频帧通常存在大量冗余,所以关键帧的提取至关重要.现有的传统手工提取方法通常存在漏帧,冗余帧等现象.随着深度学习的发展,相对传统手工提取方法,深度卷积网络可以大大提高对图像特征的提取能力.因此本文提出使用深度卷积网络提取视频帧深度特征与传统方法提取手工特征相结合的方法提取关键帧.首先使用卷积神经网络对视频帧进行深度特征提取,然后基于传统手工方法提取内容特征,最后融合内容特征和深度特征提取关键帧.由实验结果可得本文方法相对以往关键帧提取方法有更好的表现.  相似文献   

7.
视频动作识别是计算机视觉领域一个十分具有挑战性的课题,主要任务是利用深度学习等视频智能分析技术识别的深层信息推导出视频人体行为动作.通过结合双流卷积神经网络和三维卷积神经网络的结构特点,提出了一种面向时空特征融合的GSTIN(GoogLeNet based on spatio-temporal intergration network).GSTIN中设计了时空特征融合模块InBST(inception blend spatio-temporal feature),提升网络对空间特征与时间特征的利用能力;在时空特征融合模块InBST基础上,构建了适合动作识别的多流网络结构.GSTIN在动作识别数据集UCF101、HMDB51上识别精度分别达到了93.8%和70.6%,这表明GSTIN与其他动作识别网络相比具有较好的识别性能.  相似文献   

8.
针对视频中人体动作行为的空间复杂性和时间复杂性问题,提出一种融合图卷积神经网络和长短期记忆神经网络的双流网络方法2 S-LSGCN.从人体关节点组成的骨架关节图中,提取动作的空间与时间特征;利用GCN提取骨架关节点间潜在的空间信息,LSTM提取人体动作前后之间的时间序列特征作为补充,分别将两个网络的预测输出进行晚融合,...  相似文献   

9.
在伪造人脸视频检测中,大多数方法都以单一的卷积神经网络作为特征提取模块,提取的特征可能与人类的视觉机制不符。针对此类问题,提出基于有监督注意力网络的伪造人脸视频检测方法。基于胶囊网络检测伪造人脸视频,使用注意力分支提高对伪造人脸图像细节特征的提取能力,使用焦点损失提高模型对难检测样本的检测能力。在数据集FaceForensics++上的实验结果表明,提出方案有更优越的性能。  相似文献   

10.
目的 视频行为识别和理解是智能监控、人机交互和虚拟现实等诸多应用中的一项基础技术,由于视频时空结构的复杂性,以及视频内容的多样性,当前行为识别仍面临如何高效提取视频的时域表示、如何高效提取视频特征并在时间轴上建模的难点问题。针对这些难点,提出了一种多特征融合的行为识别模型。方法 首先,提取视频中高频信息和低频信息,采用本文提出的两帧融合算法和三帧融合算法压缩原始数据,保留原始视频绝大多数信息,增强原始数据集,更好地表达原始行为信息。其次,设计双路特征提取网络,一路将融合数据正向输入网络提取细节特征,另一路将融合数据逆向输入网络提取整体特征,接着将两路特征加权融合,每一路特征提取网络均使用通用视频描述符——3D ConvNets (3D convolutional neural networks)结构。然后,采用BiConvLSTM (bidirectional convolutional long short-term memory network)网络对融合特征进一步提取局部信息并在时间轴上建模,解决视频序列中某些行为间隔相对较长的问题。最后,利用Softmax最大化似然函数分类行为动作。结果 为了验证本文算法的有效性,在公开的行为识别数据集UCF101和HMDB51上,采用5折交叉验证的方式进行整体测试与分析,然后针对每类行为动作进行比较统计。结果表明,本文算法在两个验证集上的平均准确率分别为96.47%和80.03%。结论 通过与目前主流行为识别模型比较,本文提出的多特征模型获得了最高的识别精度,具有通用、紧凑、简单和高效的特点。  相似文献   

11.
基于COM规范的实时音频特征提取技术及实现   总被引:2,自引:0,他引:2  
蔡波  于俊清  周洞汝 《计算机工程》2003,29(11):116-118
数字视频中含有大量的音频信息,通过声音分类建立基于内容的视频索引是一个有效的途径。该文提出了基于COM规范的实时音频特征提取的系统框架,并按此框架使用DirectShow样本捕捉器进行了音频帧和音频特征实时提取的试验,取得了满意的结果。  相似文献   

12.
人脸深度伪造检测技术对于打击虚假图像/视频泛滥具有至关重要的意义.提出了一种融合传统特征与神经网络的检测算法,算法结合了传统特征具有可解释性与神经网络高准确率的优点,利用图像灰度共生矩阵以及XceptionNet组成双特征提取模块,然后在全卷积网络中充分考虑双流融合特征信息,最终根据网络多损失实现图像真伪分类判决.在F...  相似文献   

13.
针对单模态特征条件下监控视频的场景识别精度与鲁棒性不高的问题,提出一种基于特征融合的半监督学习场景识别系统.系统模型首先通过卷积神经网络预训练模型分别提取视频帧与音频的场景描述特征;然后针对场景识别的特点进行视频级特征融合;接着通过深度信念网络进行无监督训练,并通过加入相对熵正则化项代价函数进行有监督调优;最后对模型分...  相似文献   

14.
针对现有的情感分析方法缺乏对短视频中信息的充分考虑,从而导致不恰当的情感分析结果.基于音视频的多模态情感分析(AV-MSA)模型便由此产生,模型通过利用视频帧图像中的视觉特征和音频信息来完成短视频的情感分析.模型分为视觉与音频2分支,音频分支采用卷积神经网络(CNN)架构来提取音频图谱中的情感特征,实现情感分析的目的;...  相似文献   

15.
针对现有视频关键帧提取算法对运动类视频中运动特征提取不准导致的漏检和误检问题,提出一种融合多路特征和注意力机制的强化学习关键帧提取算法。该算法首先通过人体姿态识别算法对视频序列进行人体骨骼关节点提取;然后使用S-GCN和ResNet50网络分别提取视频序列中的运动特征和静态特征,并将两者进行加权融合;最后应用注意力机制对特征序列进行视频帧重要性计算,并利用强化学习进行关键帧的提取和优化。实验结果表明,该算法能较好地解决运动类视频在关键帧提取中出现的漏误检问题,在检测含有关键性动作的视频帧时表现较好,算法准确率高、稳定性强。  相似文献   

16.
针对背景紊乱、字符残缺的卷烟图像,提出多尺度特征融合的残缺卷烟编码识别方法,以进行端到端的训练与应用.首先使用特征提取网络从图像中提取多尺度融合特征;然后提出区域优化模块,对提取到的融合特征进一步优化,识别与定位网络学习这些优化后的特征能更加鲁棒地完成识别与定位任务;最后使用匹配算法对识别与定位结果进行匹配,得到最终结...  相似文献   

17.
文章主要研究半监督视频目标分割任务,输入一个完整视频及首帧的像素级标注(掩膜),使用端到端的深度神经网络模型来预测后续帧的掩膜.该模型使用残差卷积网络进行深度特征提取,通过层次级联模块实现各层次不同分辨率特征的交互融合,以此捕捉不同尺寸的目标,并通过尺度融合模块处理视频帧的细节和语义信息,生成像素级分类标注.在主流视频...  相似文献   

18.
情感标签标注是情感计算中的一个重要领域。该领域中针对音频、图像和多媒体内容的情感标签标注已有多个相关工作发表。为分析某个基于脑电图的大脑编码的多媒体情感标签标注中音频信号的重要性,情感计算公开数据库DEAP被用作测试基准。基于DEAP数据库的多媒体刺激,共提取了音频特征和三类视频特征。首先仅使用视频特征基于该框架进行多媒体标签标注任务,之后联合使用音频和视频特征进行同样的工作。实验结果表明,与仅使用视频特征的结果相比,联合使用音视频特征可以提高标注准确率,并且没有因为增加特征维数造成性能损失。  相似文献   

19.
为提高对足球射门视频图像的自动识别和动作纠正能力,提出一种基于机器视觉和特征提取的足球射门视频图像轨迹跟踪方法。通过视觉信息融合和模糊跟踪识别方法进行足球射门视频图像的轨迹线跟踪识别,建立足球射门视频图像的关键动作特征点提取模型,通过空间三维信息融合方法进行机器视觉下的图像信息融合和有效动作特征点检测,结合角点的动态分布特征提取方法,实现足球射门视频图像的相关性动作特征点提取和轨迹跟踪。仿真结果表明,与传统方法相比,采用该方法进行足球射门视频图像轨迹跟踪的准确性最高达到0.8,该方法的准确性较高,特征提取能力较好,提高了足球射门视频图像识别和动作纠正能力。  相似文献   

20.
基于深度模型的视频动作识别通常先对输入视频进行采样,然后对获得的视频帧进行特征表达,输出动作类别,因此视频帧采样方法对动作识别的效果有直接的影响。为了在采样到关键有效的特征同时,并增强视频运动信息,提出了一种基于特征级采样策略的局部—全局运动信息增强的动作识别网络(local-global motion enhancement network,LGMeNet)。首先,利用特征级采样模块对输入数据进行相同运动信息间隔均匀取帧;其次,局部运动特征提取模块使用相似性函数计算单帧短期运动特征;最后,全局运动特征提取模块利用LSTM网络计算多尺度长期运动特征。通过实验评估,LGMeNet在UCF101和Something-SomethingV1数据集上分别取得了97.7%和56.9%的精确度。结果表明,采用LGMeNet能够有效提升动作识别的效果,对进一步改进相关领域的研究具有重要意义。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号