首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
由于弱监督时序动作定位模型使用视频级的标签作为监督信号,模型在识别出动作实例中最具区分性的视频片段时,也会将和视频级标签有关的背景片段误认为是动作,难以产生完整的动作提议。为了进一步检测动作片段,通过分析动作片段在多时间尺度上标记的一致性,提出了一种多时间尺度一致性的弱监督时序动作定位方法。对输入的视频帧提取RGB和光流的特征,设计一种多时间尺度的模块,使用不同尺寸的卷积核建模视频的时序关系。通过估计多时间尺度特征的时间类激活图,并对多分支的时间类激活图进行融合,获得多时间尺度一致性的动作预测标签。为了进一步优化模型预测的动作标签,采用迭代优化策略,在每次迭代中更新预测标签,并为模型训练提供有效的帧级监督信号。在THUMOS14和ActivityNet1.3数据集上进行实验验证,实验结果表明,方法性能优于现有弱监督时序动作定位方法。  相似文献   

2.
目的 视频动作检测是视频理解领域的重要问题,该任务旨在定位视频中动作片段的起止时刻并预测动作类别。动作检测的关键环节包括动作模式的识别和视频内部时序关联的建立。目前主流方法往往试图设计一种普适的检测算法以定位所有类别的动作,忽略了不同类别间动作模式的巨大差异,限制了检测精度。此外,视频内部时序关联的建立对于检测精度至关重要,图卷积常用于全局时序建模,但其计算量较大。针对当前方法的不足,本文提出动作片段的逐类检测方法,并借助门控循环单元以较低的计算代价有效建立了视频内部的全局时序关联。方法 动作模式识别方面,首先对视频动作进行粗略分类,然后借助多分支的逐类检测机制对每类动作进行针对性检测,通过识别视频局部特征的边界模式来定位动作边界,通过识别动作模式来评估锚框包含完整动作的概率;时序建模方面,构建了一个简洁有效的时序关联模块,利用门控循环单元建立了当前时刻与过去、未来时刻间的全局时序关联。上述创新点整合为类别敏感的全局时序关联视频动作检测方法。结果 为验证本文方法的有效性,使用多种视频特征在两个公开数据集上进行实验,并与其他先进方法进行比较。在ActivityNet-1.3数据集中,该方法在双流特征下的平均mAP(mean average precision)达到35.58%,优于其他现有方法;在THUMOS-14数据集中,该方法在多种特征下的指标均取得了最佳性能。实验结果表明,类别敏感的逐类检测思路和借助门控循环单元的时序建模方法有效提升了视频动作检测精度。此外,提出的时序关联模块计算量低于使用图卷积建模的其他主流模型,且具备一定的泛化能力。结论 提出了类别敏感的全局时序关联视频动作检测模型,实现了更为细化的逐类动作检测,同时借助门控循环单元设计了时序关联模块,提升了视频动作检测的精度。  相似文献   

3.
针对视频动作识别中的时空建模问题,在深度学习框架下提出基于融合时空特征的时序增强动作识别方法.首先对输入视频应用稀疏时序采样策略,适应视频时长变化,降低视频级别时序建模成本.在识别阶段计算相邻特征图间的时序差异,以差异计算结果增强特征级别的运动信息.最后,利用残差结构与时序增强结构的组合方式提升网络整体时空建模能力.实验表明,文中算法在UCF101、HMDB51数据集上取得较高准确率,并在实际工业操作动作识别场景下,以较小的网络规模达到较优的识别效果.  相似文献   

4.
针对视频理解中的时序难点以及传统方法计算量大的困难,提出了一种带有时空模块的方法用于动作识别.该方法采用残差网络作为框架,加入时空模块提取图像以及时序信息,并且加入RGB差值信息增强数据,采用NetVLAD方法聚合所有的特征信息,最后实现行为动作的分类.实验结果表明,基于时空模块的多模态方法具有较好的识别精度.  相似文献   

5.
组合动作识别是计算机视觉领域一个新的挑战,它旨在识别未见过的动作与物体的组合。传统的动作识别模型往往会在物体外观与动作类别之间建立联系,引入错误的偏置,在面对未见过的动作与物体的组合时性能急剧恶化。现有解决方法是忽视外观信息,以物体的坐标和身份等信息作为输入,建立以物体为中心的模型。受此启发,提出了时空增强式交互模型。首先在基础网络的不同深度提取并聚合多级别物体特征;然后构建物体分支,使用时空增强模块和物体交互模块分别对物体特征进行增强以及建模物体的移动和交互模式;最终将该分支的输出与基础网络的输出融合用于动作分类,使模型兼顾外观信息和物体交互信息。在多个数据集上的广泛实验证明了所提模型的有效性。  相似文献   

6.
琚生根  李天宁  孙界平 《软件学报》2021,32(8):2545-2556
细粒度命名实体识别是对文本中的实体进行定位,并将其分类至预定义的细粒度类别中.目前,中文细粒度命名实体识别仅使用预训练语言模型对句子中的字符进行上下文编码,并没有考虑到类别的标签信息具有区分实体类别的能力.由于预测句子不带有实体标签,使用关联记忆网络来捕获训练集句子的实体标签信息,并将标签信息融入预测句子的字符表示中.该方法将训练集中带实体标签的句子作为记忆单元,利用预训练语言模型获取原句子和记忆单元句子的上下文表示,再通过注意力机制将记忆单元句子的标签信息与原句子的表示结合,从而提升识别效果.在CLUENER 2020中文细粒度命名实体识别任务上,该方法对比基线方法获得了提升.  相似文献   

7.
基于时序深度置信网络的在线人体动作识别   总被引:1,自引:0,他引:1  
在线人体动作识别是人体动作识别的最终目标,但由于如何分割动作序列是一个待解决的难点问题,因此目前大多数人体动作识别方法仅关注在分割好的动作序列中进行动作识别,未关注在线人体动作识别问题.本文针对这一问题,提出了一种可以完成在线人体动作识别的时序深度置信网络(Temporal deep belief network, TDBN)模型.该模型充分利用动作序列前后帧提供的上下文信息,解决了目前深度置信网络模型仅能识别静态图像的问题,不仅大大提高了动作识别的准确率,而且由于该模型不需要人为对动作序列进行分割,可以从动作进行中的任意时刻开始识别,实现了真正意义上的在线动作识别,为实际应用打下了较好的理论基础.  相似文献   

8.
人体动作识别因其难以结合时空域信息成为计算机视觉方向中一项具有挑战性的任务.提出一个多注意力时空图卷积网络,其核心思想是根据时间序列信息和人体骨架的自然连接构建一个连通图,然后利用具有多注意力机制的时空图卷积网络自动地学习空间和时间特征并且优化该连通图,最后实现对人体动作的预测.引入图注意力模块,模型构建的图的拓扑结构在初始化后会随着网络训练的过程进行优化,最终得到更适合表达人体动作的拓扑结构.此外,加入通道注意力模块,使网络能够更加注意相对重要的通道信息,从而提取更有效描述动作的特征.在公认的大型数据集NTU-RGBD和Kinetics上进行了大量的实验,结果表明该方法具有更高的识别准确率.  相似文献   

9.
人体动作识别是计算机视觉领域的核心研究方向之一,在很多场合都有应用。深 度卷积神经网络在静态图像识别方面已取得了巨大成功,并逐渐扩展到视频内容识别领域,但 应用依然面临很大挑战。为此提出一种基于 ResNeXt 深度神经网络模型用于视频中的人体动作 识别,主要包括:①使用新型 ResNeXt 网络结构代替原有的各种卷积神经网络结构,并使用 RGB 和光流 2 种模态的数据,使模型可充分地利用视频中动作外观及时序信息;②将端到端的 视频时间分割策略应用于 ResNeXt 网络模型,同时将视频分为 K 段实现对视频序列的长范围时 间结构进行建模,并通过测试得到最优视频分段值 K,使模型能更好地区分存在子动作共享现 象的相似动作,解决某些由于子动作相似而易发生的误判问题。通过在动作识别数据集 UCF101 和 HMDB51 上进行的测试表明,该模型和方法的动作识别准确率性能优于目前文献中的一些模 型和方法的性能。  相似文献   

10.
为了满足在复杂环境下对人体动作识别的需求,提出了一种基于场景理解的双流网络识别结构。将场景信息作为辅助信息加入了人体动作识别网络结构中,改善识别网络的识别准确率。对场景识别网络与人体动作识别网络不同的融合方式进行研究,确定了网络最佳识别结构。通过分析不同参数对识别准确率的影响,最终确定了双流网络的所有结构参数,设计并训练完成了双流网络结构。通过在UCF50,UCF101等公开数据集上实验,分别取得了95%,93%的准确率,高于典型的识别网络结果。对其他一些典型识别网络加入同样场景信息进行了研究,其实验结果证明了此方法可以有效改善识别准确率。  相似文献   

11.
目的 为了提高静态图像在遮挡等复杂情况下的动作识别效果和鲁棒性,提出融合多种姿势估计得到的特征信息进行动作识别的方法。方法 利用已得到的多个动作模型对任意一幅图像进行姿势估计,得到图像的多组姿势特征信息,每组特征信息包括关键点信息和姿势评分。将训练集中各个动作下所有图像的区分性关键点提取出来,并计算每一幅图像中区分性关键点之间的相对距离,一个动作所有图像的特征信息共同构成该动作的模板信息。测试图像在多个动作模型下进行姿势估计,得到多组姿势特征,从每组姿势特征中提取与对应模板一致的特征信息,将提取的多组姿势特征信息分别与对应的模板进行匹配,并通过姿势评分对匹配值优化,根据最终匹配值进行动作分类。结果 在两个数据集上,本文方法与5种比较流行的动作识别方法进行比较,获得了较好的平均准确率,在数据集PASCAL VOC 2011-val上较其他一些最新的经典方法平均准确率至少提高近2%。在数据集Stanford 40 actions上,较其他一些最新的经典方法平均准确率至少提高近6%。结论 本文方法融合了多个姿势特征,并且能够获取关键部位的遮挡信息,所以能较好应对遮挡等复杂环境情况,具有较高的平均识别准确率。  相似文献   

12.
基于特征点轨迹的动作识别   总被引:1,自引:0,他引:1  
文中提出一种基于时空特征点轨迹的动作识别方法.首先为了克服局部时空特征时间信息缺失的问题,该方法采用KLT跟踪器对时空局部特征进行跟踪,将得到的时空特征跟踪轨迹作为基本的处理、描述单元.与局部时空特征相比,它能在更长的时间尺度上对运动进行描述,进而更好地捕获运动的动态变化与转变过程.其次在时空特征轨迹基础上,该方法提出了轨迹相对位置、相对速度关系元来对轨迹之间的关系进行建模.对轨迹之间的关系进行建模有助于捕获不同动作在特征分布上存在的一些比较稳定的模式.最后利用多核学习方法融合多种特征来训练动作分类器.在交互动作数据库上对提出的方法进行了实验,实验结果证明了方法的有效性.  相似文献   

13.
近年来,随着深度学习技术的发展,已有很多新颖的基于骨架的人体动作识别算法被提出,极大地推动了该领域的发展.对基于骨架的人体动作识别领域的主要数据集和算法进行全面、细致的总结.首先对NTU,Kinetics-Skeleton和SYSU 3DHOI等骨架相关的数据集进行回顾;然后将基于骨架的人体动作识别算法归纳为基于监督学习的、基于半监督学习的和基于无监督学习的3大类,并对分属不同类别的算法进行介绍和比较;最后分析和总结得出该领域当前面临过度依赖大数据、大算力和大模型等挑战,并针对性地提出缓解以上挑战的3点未来发展方向:高精度骨架数据集建设、细粒度骨架动作识别和数据有效学习的骨架动作识别.  相似文献   

14.
针对目前大多数的动作识别方法使用深层网络训练模型导致模型参数量大、验证成本高以及语义信息利用不足等问题,提出一种基于轻量级语义信息融合的动作识别方法(LSIF-GCN),实现了模型的轻量化和对语义信息的充分利用。首先,LSIF-GCN将数据预处理后的关节流、速度流和骨骼流三种不同的输入信息编码至高维空间后,经过一层图卷积操作,以达到特征增强和降低维度的目的,再把三种信息流在通道维度上进行拼接融合。然后,为了充分利用语义信息提取不同关节之间潜在的权重关系,提出一种“瓶颈型”的四层图卷积模块。最后,采用分流网络设计的时间卷积模块,并引入自注意力机制,在减少模型参数量的同时也提高了网络的性能。该模型具有简单的结构和训练过程,便于在低成本的嵌入式设备的实时动作识别系统中部署。在NTU-RGB+D 60和NTU-RGB+D 120数据集上的大量实验表明,该方法不仅在识别精度和模型复杂度(参数量和GFLOPs)上优于目前一些主流的轻量级方法,而且与一些近几年的SOTA方法相比也具有一定的优势。  相似文献   

15.
针对现有的人体骨架动作识别方法对肢体信息挖掘不足以及时间特征提取不足的问题,提出了一种基于姿态校正模块与姿态融合模块的模型PTF-SGN,实现了对骨架图关键时空信息的充分利用。首先,对骨架图数据进行预处理,挖掘肢体和关节点的位移信息并提取特征;然后,姿态校正模块通过无监督学习的方式获取姿态调整因子,并对人体姿态进行自适应调整,增强了模型在不同环境下的鲁棒性;其次,提出一种基于时间注意力机制的姿态融合模块,学习骨架图中的短时刻特征与长时刻特征并融合长短时刻特征,加强了对时间特征的表征能力;最后,将骨架图的全局时空特征输入到分类网络中得到动作识别结果。在NTU60 RGB+D、NTU120 RGB+D两个3D骨架数据集和Penn-Action、HARPET两个2D骨架数据集上的实验结果表明,该模型能够有效地识别骨架时序数据的动作。  相似文献   

16.
得益于图卷积网络(GCN)对于处理非欧几里得数据有着非常好的效果,同时人体的骨骼点数据相对于RGB视频数据具有更好的环境适应性和动作表达能力.因此,基于骨骼点的人体动作识别方法得到了越来越多的关注和研究.将人体骨骼建模为时空图形的数据进行基于GCN模型的动作识别取得了显著的性能提升,但是现有的基于GCN的动作识别模型往往无法捕获动作视频流中的细节特征.针对此问题,本文提出了一种基于分段时间注意力时空图卷积骨骼点动作识别方法.通过将数据的时间帧进行分段处理,提取注意力,来提高模型对细节特征的提取能力.同时引入协调注意力模块,将位置信息嵌入注意力图中,这种方法增强了模型的泛化能力.在NTU-RGBD数据集和Kinetics-Skeleton数据集上的大量实验表明,本文所提模型可以获得比目前多数文献更高的动作识别精度,有更好的识别效果.  相似文献   

17.
针对视频人体动作识别中动作信息利用率不高、时间信息关注度不足等问题,提出了一种基于紧耦合时空双流卷积神经网络的人体动作识别模型。首先,采用两个2D卷积神经网络分别提取视频中的空间特征和时间特征;然后,利用长短期记忆(LSTM)网络中的遗忘门模块在各采样片段之间建立特征层次的紧耦合连接以实现信息流的传递;接着,利用双向长短期记忆(Bi-LSTM)网络评估各采样片段的重要性并为其分配自适应权重;最后,结合时空双流特征以完成人体动作识别。在数据集UCF101和HMDB51上进行实验验证,该模型在这两个数据集上的准确率分别为94.2%和70.1%。实验结果表明,所提出的紧耦合时空双流卷积网络模型能够有效提高时间信息利用率和动作整体表达能力,由此明显提升人体动作识别的准确度。  相似文献   

18.
羽毛球运动要求步伐灵活、动作准确,无论是日常健身、教育教学还是参加体育竞技,对运动员步伐训练都非常重要.羽毛球动作训练中对于步态的识别分析对于科学评估动作质量、提升运动员训练效果、改进训练方案等具有实际意义.本文针对羽毛球运动员步伐动作特点,研究设计一种步态识别分析系统,包括识别算法、数据采集系统、步态仿真模型等,辅助羽毛球运动员提升技术水平.  相似文献   

19.
针对动态复杂场景下的操作动作识别,提出一种基于手势特征融合的动作识别框架,该框架主要包含RGB视频特征提取模块、手势特征提取模块与动作分类模块。其中RGB视频特征提取模块主要使用I3D网络提取RGB视频的时间和空间特征;手势特征提取模块利用Mask R-CNN网络提取操作者手势特征;动作分类模块融合上述特征,并输入到分类器中进行分类。在EPIC-Kitchens数据集上,提出的方法识别抓取手势的准确性高达89.63%,识别综合动作的准确度达到了74.67%。  相似文献   

20.
针对现有摔倒检测方法在不同场景下适应性弱、用户体验差、识别率不可靠等缺点,本文提出一种结合门控循环单元和时空注意力模块(STM-GRU)摔倒识别模型,利用骨架数据对摔倒动作进行识别的方法.该方法首先对原始骨架数据进行预处理去除误差数据;然后对人体在米字型8个方向上的摔倒倾斜姿态进行分析,提取骨架空间特征,接着从连续时刻骨架序列中提取时序变化特征,解决了尺度、位移变化问题;最后将时空特征输入STM-GRU,时空注意力模块分别应用注意力机制,模型融合各模块输出张量后进行后续动作识别任务.在自建数据集上的实验结果表明,该方法适用于老年人摔倒动作识别.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号