期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

邹浩立《计算机系统应用》2022,31(10):261-269

最近, 基于骨架的动作识别研究受到了广泛关注. 因为图卷积网络可以更好地建模非规则数据的内部依赖, ST-GCN (spatial temporal graph convolutional network)已经成为该领域的首选网络框架. 针对目前大多数基于ST-GCN的改进方法忽视了骨架序列所蕴含的几何特征. 本文利用骨架关节几何特征, 作为ST-GCN框架的特征补充, 其具有视觉不变性和无需添加额外参数学习即可获取的优势, 进一步地, 利用时空图卷积网络建模骨架关节几何特征和早期特征融合方法, 构成了融合几何特征的时空图卷积网络框架. 最后, 实验结果表明, 与ST-GCN、2s-AGCN和SGN等动作识别模型相比, 我们提出的框架在NTU-RGB+D数据集和 NTU-RGB+D 120数据集上都取得了更高准确率的效果. 相似文献

2.

基于GCN的局部增强人体骨骼行为识别算法

谢伙生罗洪文《计算机工程与设计》2022,(6):1777-1784

为使人体骨骼这种非欧几里得结构数据更好地应用于人体行为识别任务中,将多种模态的特征融合后作为模型的输入,探讨关节的全局与局部的信息共现性,构建一个完整的空间信息推理模型。通过使用多层时间膨胀卷积网络提取骨骼数据在时间维度中的上下文依赖关系,使模型可以兼具捕获短期和长期的时序上下文依赖关系,有效提高时间信息的提取能力。提出的分层次时空图卷积神经网络模型在NTU-RGB+D-60和NTU-RGB+D-120数据集上均取得了较好的识别准确率。相似文献

3.

融合因果关系和时空图卷积网络的人体动作识别

叶松涛周扬正范红杰陈正雷《计算机科学》2021,48(z2):130-135

基于人体骨骼的动作识别因具有简洁、鲁棒的特点,近年来受到了广泛的关注.目前大部分基于骨骼的动作识别方法,如时空图卷积网络(ST-GCN),通过提取连续帧的时间特征和帧内骨骼关节的空间特征来区分不同的动作,取得了良好的效果.考虑人体运动中存在的因果性关系,提出了一种融合因果关系和时空图卷积网络的动作识别方法.针对计算关节力矩获取权重复杂的情况,根据关节之间的因果关系为骨骼图分配边权重,并将权重作为辅助信息增强图卷积网络,来提高驱动力较强的关节在神经网络中的权重,降低重要性低的关节的关注度,增强重要性高的关节的关注度.相比ST-GCN等方法,在Kinetics公开数据集上,所提方法无论是Top-1还是Top-5都有较大的提升,在构建的真实太极拳数据集上的识别精度达97.38％(Top-1)和99.79％(Top-5),证明了该方法可以有效地增强动作特征,提升识别的准确率. 相似文献

4.

面向人体动作识别的局部特征融合时间卷积网络

宋震周元峰贾金公辛士庆刘毅《计算机辅助设计与图形学学报》2020,32(3):418-424

针对3D人体骨架序列动作识别这一问题,提出了一种结合了局部特征融合的时间卷积网络方法.首先,对一个动作中整个骨架序列的所有关节点的空间位置变化进行建模,提取其骨架序列的全局空间特征;然后,根据人体关节点及连接关系的拓扑结构将全局空间特征划分为人体局部空间特征,并将得到的局部空间特征分别作为对应TCN的输入,进而学习各关节内部的特征关系;最后,对输出的各部分特征向量进行融合,学习各部分关节之间的协作关系,从而完成对动作的识别.运用该方法在当前最具挑战性的数据集NTU-RGB+D进行了分类识别实验,结果表明,与已有的基于CNN,LSTM以及TCN的方法相比,其在对象交叉(cross-subject)和视图交叉(cross-view)的分类准确率上分别提高到了79.5%和84.6%. 相似文献

5.

图神经网络在人体骨架序列中的动作识别

刘晓群韩志恒《软件》2022,(8):1-3

在骨架序列的动作识别中,为了更好的突出身体中不同部位的关联性,提出一种将人体骨架图定义为有向图来提取身体部位中的关键信息。首先找到每个关键部位的顶点,对任意的骨架关节点进行拼接工作;其次对给定的张量乘以对应部位的关联矩阵并执行聚合函数;最后根据依靠图卷积网络对得到的邻接矩阵进行空间流和时间流的卷积,并在训练阶段增加Res结构增强模型的稳定性。结果表明:该方法在NTU-RGBD数据集上的CS和CV子集上取得了87.6%和96.5%的准确率,更好的提高了视频中人体动作的准确率。相似文献

6.

基于骨骼时序散度特征的人体行为识别算法

田志强邓春华张俊雯《计算机应用》2021,41(5):1450-1457

人体行为识别是智能监控、人机交互、机器人等领域的一项重要的基础技术。图卷积神经网络（GCN）在基于骨骼的人体行为识别上取得了卓越的性能。不过GCN在人体行为识别研究中存在以下问题：1）人体骨架的骨骼点采用坐标表示,缺乏骨骼点的运动细节信息;2）在某些视频中,人体骨架的运动幅度太小导致关键骨骼点的表征信息不明显。针对上述问题,首先提出骨骼点的时序散度模型来描述骨骼点的运动状态,从而放大了不同人体行为的类间方差。并进一步提出了时序散度特征的注意力机制,以突显关键骨骼点,进一步扩大类间方差。最后根据原始骨架的空间数据特征和时序散度特征的互补性构建了双流融合模型。所提算法在权威的人体行为数据集NTU-RGB+D的两种划分策略下分别达到了82.9%和83.7%的准确率,相比自适应图卷积网络（AGCN）提高了1.3个百分点和0.5个百分点,准确率的提升证明了所提算法的有效性。相似文献

7.

基于语义引导神经网络的人体动作识别算法

郭宗洋刘立东蒋东华刘子翔朱熟康陈京华《图学学报》2024,(1):26-34

近年来,采用深度前馈神经网络对骨骼关节的三维坐标建模成为了一种趋势。但网络识别准确率低、巨大的参数量以及实时性差仍然是基于骨骼数据动作识别领域中急需解决的问题。为此,提出一种基于语义引导神经网络(SGN)改进的网络模型。首先,在原网络中引入了非局部特征提取模块用于增强其在高级语义指导模型训练和预测的表现,降低了其在自然语言处理任务中的计算复杂性和推理时间;其次,引入注意力机制学习每个图卷积网络层的通道权重并减少通道间的冗余信息,进一步提高模型的计算效率和识别准确率;此外,以可变形卷积模块动态学习不同图卷积网络(GCN)层通道的权重,并有效地聚合不同通道中的关节特征用于网络最后的分类识别,从而提高特征信息的利用率。最后,在NTU RGB+D和NTU RGB+D 120公开数据集上进行人体动作识别实验。实验结果表明,所提出的网络比大多数网络小一个数量级,并且在识别准确率上明显优于原网络和其他一些先进的算法。相似文献

8.

基于特征交互与自适应融合的骨骼动作识别

李豆豆李汪根夏义春束阳高坤《计算机应用》2023,(8):2581-2587

当前骨骼动作识别任务中仍存在数据预处理不合理、模型参数量大、识别精度低的缺点。为解决以上问题,提出了一种基于特征交互与自适应融合的骨骼动作识别方法 AFFGCN。首先,提出一种自适应分池数据预处理算法,以解决数据帧分布不均匀和数据帧代表性差的问题;其次,引入一种多信息特征交互的方法来挖掘更深的特征,以提高模型的性能;最后,提出一种自适应特征融合（AFF）模块用于图卷积特征融合,以进一步提高模型性能。实验结果表明,该方法在NTU-RGB+D 60数据集上较基线方法轻量级多信息图卷积神经网络（LMI-GCN）在交叉主题（CS）与交叉视角（CV）两种评估设置上均提升了1.2个百分点,在NTU-RGB+D 120数据集上较基线方法 LMI-GCN在CS和交叉设置号（SS）评估设置上分别提升了1.5和1.4个百分点。而在单流和多流网络上的实验结果表明,相较于语义引导神经网络（SGN）等当前主流骨骼动作识别方法,所提方法的模型参数量更低、准确度更高,模型性能优势明显,更加适用于移动设备的部署。相似文献

9.

基于骨架关键关节构建时空金字塔模型的人体行为识别

司宇航周天彤冯珂垚《计算机应用与软件》2024,(1):153-160

针对当前骨骼数据信噪比低及特征信息不足的问题,提出人体关键关节构建时空金字塔模型的动作识别方法。该算法利用人体骨架关键关节构建空间域金字塔特征,保留骨架铰链系统的空间结构;利用多层级叠加协方差,构建时序金字塔特征,解决需要预处理视频序列长度的问题。在MSR-Action3D和UTKinect数据集上的实验结果表明,该方法准确率高、实时性好,可广泛应用于行为识别的各个领域。相似文献

10.

基于双流网络融合与时空卷积的人体行为识别

秦悦石跃祥《计算技术与自动化》2021,40(2):140-147

针对视频中存在噪音,无法更好地获取特征信息,造成动作识别不精准的问题.提出了一种基于时空卷积神经网络的人体行为识别网络.将长时段视频进行分段处理,分别把RGB图片和计算出的光流图输入到两个卷积神经网络(CNN)中,使用权重相加的融合算法将提取的时域特征和空域特征融合成时空特征.形成的中层语义信息输入到R(2+1)D的卷积中,利用ResNet提高网络性能,最后在softmax层进行行行为识别.在UCF-101和HMDB-51数据集上进行实验,获得了92.1％和66.1％的准确率.实验表明,提出的双流融合与时空卷积网络模型有助于视频行为识别的准确率提高. 相似文献

11.

融合显著性图像语义特征的人体相似动作识别

下载免费PDF全文

白忠玉丁其川徐红丽吴成东《中国图象图形学报》2023,28(9):2872-2886

目的基于骨骼的动作识别技术由于在光照变化、动态视角和复杂背景等情况下具有更强的鲁棒性而成为研究热点。利用骨骼/关节数据识别人体相似动作时,因动作间关节特征差异小,且缺少其他图像语义信息,易导致识别混乱。针对该问题,提出一种基于显著性图像特征强化的中心连接图卷积网络（saliency image feature enhancement based center-connected graph convolutional network,SIFE-CGCN）模型。方法首先,设计一种骨架中心连接拓扑结构,建立所有关节点到骨架中心的连接,以捕获相似动作中关节运动的细微差异;其次,利用高斯混合背景建模算法将每一帧图像与实时更新的背景模型对比,分割出动态图像区域并消除背景干扰作为显著性图像,通过预训练的VGG-Net(Visual Geometry Group network)提取特征图,并进行动作语义特征匹配分类;最后,设计一种融合算法利用分类结果对中心连接图卷积网络的识别结果强化修正,提高对相似动作的识别能力。此外,提出了一种基于骨架的动作相似度的计算方法,并建立一个相似动作数据集。结果 ... 相似文献

12.

用于骨架行为识别的多维特征嵌合注意力机制

下载免费PDF全文

姜权晏吴小俊徐天阳《中国图象图形学报》2022,27(8):2391-2403

目的在行为识别任务中,妥善利用时空建模与通道之间的相关性对于捕获丰富的动作信息至关重要。尽管图卷积网络在基于骨架信息的行为识别方面取得了稳步进展,但以往的注意力机制应用于图卷积网络时,其分类效果并未获得明显提升。基于兼顾时空交互与通道依赖关系的重要性,提出了多维特征嵌合注意力机制(multi-dimensional feature fusion attention mechanism,M2FA)。方法不同于现今广泛应用的行为识别框架研究理念,如卷积块注意力模块(convolutional block attention module,CBAM)、双流自适应图卷积网络(two-stream adaptive graph convolutional network,2s-AGCN)等,M2FA通过嵌入在注意力机制框架中的特征融合模块显式地获取综合依赖信息。对于给定的特征图,M2FA沿着空间、时间和通道维度使用全局平均池化操作推断相应维度的特征描述符。特征图使用多维特征描述符的融合结果进行过滤学习以达到细化自适应特征的目的,并通过压缩全局动态信息的全局特征分支与仅使用逐点卷积层的局部特征分支相互嵌合获取多尺度动态信息。结果实验在骨架行为识别数据集NTU-RGBD和Kinetics-Skeleton中进行,分析了M2FA与其基线方法2s-AGCN及最新提出的图卷积模型之间的识别准确率对比结果。在Kinetics-Skeleton验证集中,相比于基线方法2s-AGCN,M2FA分类准确率提高了1.8%;在NTU-RGBD的两个不同基准分支中,M2FA的分类准确率比基线方法2s-AGCN分别提高了1.6%和1.0%。同时,消融实验验证了多维特征嵌合机制的有效性。实验结果表明,提出的M2FA改善了图卷积骨架行为识别方法的分类效果。结论通过与基线方法2s-AGCN及目前主流图卷积模型比较,多维特征嵌合注意力机制获得了最高的识别精度,可以集成至基于骨架信息的体系结构中进行端到端的训练,使分类结果更加准确。相似文献

13.

时空双仿射微分不变量及骨架动作识别

下载免费PDF全文

李琪墨瀚林赵婧涵郝宏翔李华《中国图象图形学报》2021,26(12):2879-2891

目的人体骨架的动态变化对于动作识别具有重要意义。从关节轨迹的角度出发,部分对动作类别判定具有价值的关节轨迹传达了最重要的信息。在同一动作的每次尝试中,相应关节的轨迹一般具有相似的基本形状,但其具体形式会受到一定的畸变影响。基于对畸变因素的分析,将人体运动中关节轨迹的常见变换建模为时空双仿射变换。方法首先用一个统一的表达式以内外变换的形式将时空双仿射变换进行描述。基于变换前后轨迹曲线的微分关系推导设计了双仿射微分不变量,用于描述关节轨迹的局部属性。基于微分不变量和关节坐标在数据结构上的同构特点,提出了一种通道增强方法,使用微分不变量将输入数据沿通道维度扩展后,输入神经网络进行训练与评估,用于提高神经网络的泛化能力。结果实验在两个大型动作识别数据集NTU（Nanyang Technological University）RGB+D（NTU 60）和NTU RGB+D 120（NTU 120）上与若干最新方法及两种基线方法进行比较,在两种实验设置（跨参与者识别与跨视角识别）中均取得了明显的改进结果。相比于使用原始数据的时空图神经卷积网络（spatio-temporal graph convolutional networks,ST-GCN）,在NTU 60数据集中,跨参与者与跨视角的识别准确率分别提高了1.9%和3.0%;在NTU 120数据集中,跨参与者与跨环境的识别准确率分别提高了5.6%和4.5%。同时对比于数据增强,基于不变特征的通道增强方法在两种实验设置下都能有明显改善,更为有效地提升了网络的泛化能力。结论本文提出的不变特征与通道增强,直观有效地综合了传统特征和深度学习的优点,有效提高了骨架动作识别的准确性,改善了神经网络的泛化能力。相似文献

14.

基于CNN与双向LSTM的行为识别算法

吴潇颖李锐吴胜昔《计算机工程与设计》2020,41(2):361-366

针对传统行为识别依赖手工提取特征,智能化程度不高,识别精度低的问题,提出一种基于3D骨骼数据的卷积神经网络(CNN)与双向长短期记忆网络(Bi-LSTM)的混合模型。使用3D骨骼数据作为网络输入,CNN提取每个时间步的3D输入数据间的空间特征,Bi-LSTM更深层地提取3D数据序列的时间特征。该混合模型自动提取特征完成分类,实现骨骼数据到识别结果的端对端学习。在UTKinect-Action3D标准数据集上,模型的识别率达到97.5%,在自制Kinect数据集上的准确率达到98.6%,实验结果表明,该网络有效提高了分类准确率,具备可用性和有效性。相似文献

15.

多模态数据的行为识别综述

下载免费PDF全文

王帅琛黄倩张云飞李兴聂云清雒国萃《中国图象图形学报》2022,27(11):3139-3159

行为识别是当前计算机视觉方向中视频理解领域的重要研究课题。从视频中准确提取人体动作的特征并识别动作,能为医疗、安防等领域提供重要的信息,是一个十分具有前景的方向。本文从数据驱动的角度出发,全面介绍了行为识别技术的研究发展,对具有代表性的行为识别方法或模型进行了系统阐述。行为识别的数据分为RGB模态数据、深度模态数据、骨骼模态数据以及融合模态数据。首先介绍了行为识别的主要过程和人类行为识别领域不同数据模态的公开数据集;然后根据数据模态分类,回顾了RGB模态、深度模态和骨骼模态下基于传统手工特征和深度学习的行为识别方法,以及多模态融合分类下RGB模态与深度模态融合的方法和其他模态融合的方法。传统手工特征法包括基于时空体积和时空兴趣点的方法（RGB模态）、基于运动变化和外观的方法（深度模态）以及基于骨骼特征的方法（骨骼模态）等;深度学习方法主要涉及卷积网络、图卷积网络和混合网络,重点介绍了其改进点、特点以及模型的创新点。基于不同模态的数据集分类进行不同行为识别技术的对比分析。通过类别内部和类别之间两个角度对比分析后,得出不同模态的优缺点与适用场景、手工特征法与深度学习法的区别和融合多模态的优势。最后,总结了行为识别技术当前面临的问题和挑战,并基于数据模态的角度提出了未来可行的研究方向和研究重点。相似文献

16.

基于轻量级图卷积的人体骨架动作识别方法

孙琪翔何宁张聪聪刘圣杰《计算机工程》2022,48(5):306-313

视频中的人体动作识别在计算机视觉领域得到广泛关注,基于人体骨架的动作识别方法可以明确地表现人体动作,因此已逐渐成为该领域的重要研究方向之一。针对多数主流人体动作识别方法网络参数量大、计算复杂度高等问题,设计一种融合多流数据的轻量级图卷积网络,并将其应用于人体骨架动作识别任务。在数据预处理阶段,利用多流数据融合方法对4种特征数据流进行融合,通过一次训练就可得到最优结果,从而降低网络参数量。设计基于图卷积网络的非局部网络模块,以捕获图像的全局信息从而提高动作识别准确率。在此基础上,设计空间Ghost图卷积模块和时间Ghost图卷积模块,从网络结构上进一步降低网络参数量。在动作识别数据集NTU60 RGB+D和NTU120 RGB+D上进行实验,结果表明,与近年主流动作识别方法ST-GCN、2s AS-GCN、2s AGCN等相比,基于该轻量级图卷积网络的人体骨架动作识别方法在保持较低网络参数量的情况下能够取得较高的识别准确率。相似文献

17.

基于全局时空编码网络的猴类动物行为识别

下载免费PDF全文

孙峥张素才马喜波《图学学报》2022,43(5):832-840

猴类动物行为的准确量化是临床前药物安全评价的一个基本目标。视频中猴类动物行为分析的一个重要路径是使用目标的骨架序列信息,然而现有的大部分骨架行为识别方法通常在时间和空间维度分别提取骨架序列的特征,忽略了骨架拓扑结构在时空维度的整体性。针对该问题,提出了一种基于全局时空编码网络 (GSTEN)的骨架行为识别方法。该方法在时空图卷积网络(ST-GCN)的基础上,并行插入全局标志生成器(GTG) 和全局时空编码器(GSTE)来提取时间和空间维度的全局特征。为了验证提出的 GSTEN 性能,在自建的猴类动物行为识别数据集上开展实验。实验结果表明,该网络在基本不增加模型参数量的情况下,准确率指标达到 76.54%,相较于基准模型 ST-GCN 提升 6.79%。相似文献

18.

采用蒸馏训练的时空图卷积动作识别融合模型

下载免费PDF全文

杨清山穆太江《中国图象图形学报》2022,27(4):1290-1301

目的基于深度学习的动作识别方法识别准确率显著提升,但仍然存在很多挑战和困难。现行方法在一些训练数据大、分类类别多的数据集以及实际应用中鲁棒性较差,而且许多方法使用的模型参数量较大、计算复杂,提高模型准确度和鲁棒性的同时对模型进行轻量化仍然是一个重要的研究方向。为此,提出了一种基于知识蒸馏的轻量化时空图卷积动作识别融合模型。方法改进最新的时空卷积网络,利用分组卷积等设计参数量较少的时空卷积子模型;为了训练该模型,选取两个现有的基于全卷积的模型作为教师模型在数据集上训练,在得到训练好的教师模型后,再利用知识蒸馏的方法结合数据增强技术训练参数量较少的时空卷积子模型;利用线性融合的方法将知识蒸馏训练得到的子模型融合得到最终的融合模型。结果在广泛使用的NTU RGB + D数据集上与前沿的多种方法进行了比较,在CS(cross-subject)和CV(cross-view)两种评估标准下,本文模型的准确率分别为90.9%和96.5%,与教师模型2s-AGCN(two-stream adaptive graph convolutional networks for skeleton-based action)相比,分别提高了2.4%和1.4%;与教师模型DGNN(directed graph neural network)相比,分别提高了1.0%和0.4%;与MS-AAGCN(multi-stream attention-enhanced adaptive graph convolutional neural network)模型相比,分别提高了0.9%和0.3%。结论本文提出的融合模型,综合了知识蒸馏、数据增强技术和模型融合的优点,使动作识别更加准确和鲁棒。相似文献

19.

骨骼信息的人体行为识别综述

下载免费PDF全文

卢健李萱峰赵博周健《中国图象图形学报》2023,28(12):3651-3669

基于骨骼信息的人体行为识别旨在从输入的包含一个或多个行为的骨骼序列中,正确地分析出行为的种类,是计算机视觉领域的研究热点之一。与基于图像的人体行为识别方法相比,基于骨骼信息的人体行为识别方法不受背景、人体外观等干扰因素的影响,具有更高的准确性、鲁棒性和计算效率。针对基于骨骼信息的人体行为识别方法的重要性和前沿性,对其进行全面和系统的总结分析具有十分重要的意义。本文首先回顾了9个广泛应用的骨骼行为识别数据集,按照数据收集视角的差异将它们分为单视角数据集和多视角数据集,并着重探讨了不同数据集的特点和用法。其次,根据算法所使用的基础网络,将基于骨骼信息的行为识别方法分为基于手工制作特征的方法、基于循环神经网络的方法、基于卷积神经网络的方法、基于图卷积网络的方法以及基于Transformer的方法,重点阐述分析了这些方法的原理及优缺点。其中,图卷积方法因其强大的空间关系捕捉能力而成为目前应用最为广泛的方法。采用了全新的归纳方法,对图卷积方法进行了全面综述,旨在为研究人员提供更多的思路和方法。最后,从8个方面总结现有方法存在的问题,并针对性地提出工作展望。相似文献

20.

Mixed graph convolution and residual transformation network for skeleton-based action recognition

Liu Shuhua Bai Xiaoying Fang Ming Li Lanting Hung Chih-Cheng 《Applied Intelligence》2022,52(2):1544-1555

Action recognition based on a human skeleton is an extremely challenging research problem. The temporal information contained in the human skeleton is more difficult to extract than the spatial information. Many researchers focus on graph convolution networks and apply them to action recognition. In this study, an action recognition method based on a two-stream network called RNXt-GCN is proposed on the basis of the Spatial-Temporal Graph Convolutional Network (ST-GCN). The human skeleton is converted first into a spatial-temporal graph and a SkeleMotion image which are input into ST-GCN and ResNeXt, respectively, for performing the spatial-temporal convolution. The convolved features are then fused. The proposed method models the temporal information in action from the amplitude and direction of the action and addresses the shortcomings of isolated temporal information in the ST-GCN. The experiments are comprehensively performed on the four datasets: 1) UTD-MHAD, 2) Northwestern-UCLA, 3) NTU RGB-D 60, and 4) NTU RGB-D 120. The proposed model shows very competitive results compared with other models in our experiments. On the experiments of NTU RGB?+?D 120 dataset, our proposed model outperforms those of the state-of-the-art two-stream models.

相似文献