首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 62 毫秒
1.
快速有效地识别出视频中的人体动作,具有极其广泛的应用前景及潜在的经济价值,深度学习的火热给视频动作自动识别带来了巨大的发展。提出了一种基于深度学习和非局域平均法的自注意时间段网络,作用于剪切好的视频片段。通过构造非局域模块并将其加入到以ResNet为基本模型的时间段网络,可以得到新模型。经过在TDAP数据集上验证,该模型可较为精确地识别出人体动作,与原有模型相比在不增加时间复杂度的前提下有一定程度的提升。  相似文献   

2.
在人机交互领域,针对复杂背景下手势识别率低、算法鲁棒性差的问题,基于深度学习提出一种手势识别算法HGDR-Net(hand gesture detection and recognition network).该算法由手势检测和识别2部分构成.在手势检测阶段,为解决复杂背景下手势区域提取困难的问题,基于改进的YOLO(you only look once)算法进行手势检测.改进的YOLO算法结合了手势检测的特点,解决了原始YOLO对小物体检测效果差、定位准确度不高的问题.在识别阶段,利用卷积神经网络(CNN)进行识别,并针对手势区域的尺寸多样性引入了空间金字塔池化(SPP)来解决CNN的多尺度输入问题.最后在训练过程中联合线下和实时2种数据增强方法避免过拟合问题,提升HGDR-Net的泛化能力.在NUS-II和Marcel两个复杂背景的公共数据集上进行了验证实验,识别率分别达到98.65%和99.59%.结果表明本文算法能准确地从各种复杂背景中识别手势,相比于基于人工提取特征的传统算法和其他基于CNN的算法具有更高的识别准确率和更强的鲁棒性.  相似文献   

3.
本文提出了一种基于深度学习的手势识别来控制机器人做复杂动作的解决方案.本文提出的方案展现出有效的开放性和可扩展性,无论是手势识别还是在机器人复杂动作方面,都可以根据需求做相应调整.同时,本研究工作创建了一个有效的基于人工智能网络的机器人控制实用实验平台.实验设计分别以运用6个基础手势控制机器人在危险环境中清除可疑物品为...  相似文献   

4.
在自动扶梯场景下的视频人体动作识别中,视频数据源不稳定,如遮挡、多视角、光照、低分辨率、动态背景以及背景混乱等均导致动作分类及检测不准确.针对这些问题,提出使用基于改进的SlowFast网络的人体动作识别方法,以更好地捕获视频连续帧中隐藏的时间和空间信息.通过与R(2+1)D卷积网络模型的识别准确率进行对比,改进的Sl...  相似文献   

5.
深度学习在人物动作识别方面已取得较好的成效,但当前仍然需要充分利用视频中人物的外形信息和运动信息。为利用视频中的空间信息和时间信息来识别人物行为动作,提出一种时空双流视频人物动作识别模型。该模型首先利用两个卷积神经网络分别抽取视频动作片段空间和时间特征,接着融合这两个卷积神经网络并提取中层时空特征,最后将提取的中层特征输入到3D卷积神经网络来完成视频中人物动作的识别。在数据集UCF101和HMDB51上,进行视频人物动作识别实验。实验结果表明,所提出的基于时空双流的3D卷积神经网络模型能够有效地识别视频人物动作。  相似文献   

6.
针对视频理解中的时序难点以及传统方法计算量大的困难,提出了一种带有时空模块的方法用于动作识别.该方法采用残差网络作为框架,加入时空模块提取图像以及时序信息,并且加入RGB差值信息增强数据,采用NetVLAD方法聚合所有的特征信息,最后实现行为动作的分类.实验结果表明,基于时空模块的多模态方法具有较好的识别精度.  相似文献   

7.
8.
提出一种基于深度神经网络的多模态动作识别方法,根据不同模态信息的特性分别采用不同的深度神经网络,适应不同模态的视频信息,并将多种深度网络相结合,挖掘行为识别的多模态特征。主要考虑人体行为静态和动态2种模态信息,结合微软Kinect的多传感器摄像机获得传统视频信息的同时也能获取对应的深度骨骼点信息。对于静态信息采用卷积神经网络模型,对于动态信息采用递归循环神经网络模型。最后将2种模型提取的特征相融合进行动作识别和分类。在MSR 3D的行为数据库上实验结果表明,本文的方法对动作识别具有良好的分类效果。  相似文献   

9.
周凯烨 《工业控制计算机》2021,34(7):99-100,103
足球是世界上最受欢迎的运动之一,大量的人通过电视或者互联网来观看足球比赛.一场足球比赛通常需要90分钟,但是一些观众可能只想观看这场比赛中的精彩场面来节省时间.为了解决这个问题,设计了一个基于深度学习的足球赛事视频动作识别系统,该系统可以识别足球比赛中红黄牌和射门等关键动作,这些动作可以作为足球比赛中的精彩片段.该系统...  相似文献   

10.
基于时序深度置信网络的在线人体动作识别   总被引:1,自引:0,他引:1  
在线人体动作识别是人体动作识别的最终目标,但由于如何分割动作序列是一个待解决的难点问题,因此目前大多数人体动作识别方法仅关注在分割好的动作序列中进行动作识别,未关注在线人体动作识别问题.本文针对这一问题,提出了一种可以完成在线人体动作识别的时序深度置信网络(Temporal deep belief network, TDBN)模型.该模型充分利用动作序列前后帧提供的上下文信息,解决了目前深度置信网络模型仅能识别静态图像的问题,不仅大大提高了动作识别的准确率,而且由于该模型不需要人为对动作序列进行分割,可以从动作进行中的任意时刻开始识别,实现了真正意义上的在线动作识别,为实际应用打下了较好的理论基础.  相似文献   

11.
人体行为识别作为计算机视觉领域的重要研究热点,在智能监控、智能家居、虚拟现实等诸多领域中具有重要的研究意义和广泛的应用前景,备受国内外学者的关注。基于传统手工特征的方法难以处理复杂场景下的人体行为识别。随着深度学习在图像分类方面取得巨大成功,将深度学习用于人体行为识别方法中已逐渐成为一种发展趋势,但其仍然存在一些困难与挑战。首先,根据特征提取方法的不同,简单回顾了早期基于传统手工特征的行为识别方法;然后,从网络结构的角度着重对近年来一些基于深度学习的人体行为识别方法进行论述和分析,其中包括目前常用的双流网络架构和三维卷积网络架构等;另外,还介绍了目前用于评价方法性能的人体行为识别数据集,同时总结了部分典型方法在UCF-101和HMDB51两个著名的公开数据集上的性能;最后,从性能和应用两个方面对基于深度学习的人体行为识别方法的未来发展方向进行了展望,并指出了当前方法存在的不足之处。  相似文献   

12.
为了高效、准确地获得视频中的行为类别和运动信息,减少计算的复杂度,文中提出一种融合特征传播和时域分割网络的视频行为识别算法.首先将视频分为3个小片段,分别从相应片段中提取关键帧,从而实现对长时间视频的建模;然后设计一个包含特征传播表观信息流和FlowNet运动信息流的改进时域分割网络(P-TSN),分别以RGB关键帧、RGB非关键帧、光流图为输入提取视频的表观信息流和运动信息流;最后将改进时域分割网络的BN-Inception描述子进行平均加权融合后送入Softmax层进行行为识别.在UCF101和HMDB51这2个数据集上分别取得了94.6%和69.4%的识别准确率,表明该算法能够有效地获得视频中空域表观信息和时域运动信息,提高了视频行为识别的准确率.  相似文献   

13.
以对比语言−图像预训练(Contrastive language-image pre-training, CLIP)模型为基础, 提出一种面向视频行为识别的多模态模型, 该模型从视觉编码器的时序建模和行为类别语言描述的提示学习两个方面对CLIP模型进行拓展, 可更好地学习多模态视频表达. 具体地, 在视觉编码器中设计虚拟帧交互模块(Virtual-frame interaction module, VIM), 首先, 由视频采样帧的类别分词做线性变换得到虚拟帧分词; 然后, 对其进行基于时序卷积和虚拟帧分词移位的时序建模操作, 有效建模视频中的时空变化信息; 最后, 在语言分支上设计视觉强化提示模块(Visual-reinforcement prompt module, VPM), 通过注意力机制融合视觉编码器末端输出的类别分词和视觉分词所带有的视觉信息来获得经过视觉信息强化的语言表达. 在4个公开视频数据集上的全监督实验和2个视频数据集上的小样本、零样本实验结果, 验证了该多模态模型的有效性和泛化性.  相似文献   

14.
视频中的人体动作识别在计算机视觉领域得到广泛关注,基于人体骨架的动作识别方法可以明确地表现人体动作,因此已逐渐成为该领域的重要研究方向之一。针对多数主流人体动作识别方法网络参数量大、计算复杂度高等问题,设计一种融合多流数据的轻量级图卷积网络,并将其应用于人体骨架动作识别任务。在数据预处理阶段,利用多流数据融合方法对4种特征数据流进行融合,通过一次训练就可得到最优结果,从而降低网络参数量。设计基于图卷积网络的非局部网络模块,以捕获图像的全局信息从而提高动作识别准确率。在此基础上,设计空间Ghost图卷积模块和时间Ghost图卷积模块,从网络结构上进一步降低网络参数量。在动作识别数据集NTU60 RGB+D和NTU120 RGB+D上进行实验,结果表明,与近年主流动作识别方法ST-GCN、2s AS-GCN、2s AGCN等相比,基于该轻量级图卷积网络的人体骨架动作识别方法在保持较低网络参数量的情况下能够取得较高的识别准确率。  相似文献   

15.
行为识别是当今计算机视觉领域的一个研究热点,是一项具有挑战性的任务.行为识别分析与其网络输入数据类型、网络结构、特征融合环节具有密切联系.目前,主流的行为识别网络输入数据为RGB图像和光流图像,网络结构主要以双流和3D卷积为主;而特征选择直接影响到识别的效率,多层次的特征融合工作还有很多问题有待解决.针对主流的双流卷积网络输入数据为RGB图像和光流图像的局限,利用低秩空间中稀疏特征能够有效捕捉视频中运动物体信息的特点,对网络输入数据进行补充.同时,针对网络中缺乏信息交互的特点,将深度网络中高层语义信息和低层细节信息结合起来共同识别行为动作,使时序分割网络性能更具优势.在行为识别数据集UCF101和HMDB51上取得了97.1%和76.7%的识别效果,较目前主流算法有了较大的提升.实验结果表明,该方法能够有效地提高行为识别的识别率.  相似文献   

16.
基于深度学习的行为识别算法往往由于复杂的网络设计而难以在实际应用中达到快速、准确的识别效果.针对以上情况,提出一种轻量型的基于时移和片组注意力融合的端到端双流神经网络模型.算法在RGB与光流分支网络中,采用时间稀疏分组随机采样策略实现长时程建模,利用时移模块在时间维度上置换部分通道从而结合邻帧信息来提升时序表征能力,同...  相似文献   

17.
人体动作识别是视频理解领域的重要课题之一,在视频监控、人机交互、运动分析、视频信息检索等方面有着广泛的应用.根据骨干网络的特点,从2D卷积神经网络、3D卷积神经网络、时空分解网络三个角度介绍了动作识别领域的最新研究成果,并对三类方法的优缺点进行了定性的分析和比较.然后,从场景相关和时间相关两方面,全面归纳了常用的动作视...  相似文献   

18.
赵国川  王姮  张华  庞杰  周建 《计算机工程》2022,48(9):277-285
水电枢纽在长期运行过程中容易受水流侵蚀、应力变化等因素影响,导致形成裂缝、渗漏、脱落、露筋等缺陷,造成重大安全隐患。目前,水电枢纽缺陷识别主要依靠人工巡检,存在效率低、风险高等问题。提出一种水电枢纽缺陷识别方法,基于完全自注意力机制构建缺陷识别网络,以提高网络捕捉长距离全局信息的能力和缺陷识别精度。设计2个同尺寸的自注意力编码器分支,通过双分支结构完成不同尺度自注意力计算,从而提取多尺度缺陷特征,增强全局语义表达能力。构建一个基于类别向量的自注意力混合融合模块,并对2条分支的多尺度特征进行融合,以有效应对水电枢纽缺陷图像尺度变化大、形态多样等问题。在四川某水电站枢纽缺陷数据集上的实验结果表明,该方法宏查准率可达98.87%,缺陷识别效果优于SVM、ResNet-50、MobileNet v3等方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号