首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 187 毫秒
1.
针对当前行为识别方法无法有效提取非欧式3维骨架序列的时空信息与缺乏针对特定关节关注的问题,该文提出了一种基于3维图卷积与注意力增强的行为识别模型.首先,介绍了3维卷积与图卷积的具体工作原理;其次,基于图卷积中可处理变长邻居节点的图卷积核,引入3维卷积的3维采样空间将2维图卷积核改进为具有3维采样空间的3维图卷积核,提出一种3维图卷积方法.针对3维采样空间内的邻居节点,通过3维图卷积核,实现了对骨架序列中时空信息的有效提取;然后,为增强对于特定关节的关注,聚焦重要的动作信息,设计了一种注意力增强结构;再者,结合3维图卷积方法与注意力增强结构,构建了基于3维图卷积与注意力增强的行为识别模型;最后,基于NTU-RGBD和MSR Action 3D骨架动作数据集开展了骨架行为识别的研究.研究结果进一步验证了基于3维图卷积与注意力增强的行为识别模型针对时空信息的有效提取能力及识别准确率.  相似文献   

2.
针对骨架行为识别对时空特征提取不充分以及难以捕捉全局上下文信息的问题,研究了一种将时空注意力机制和自适应图卷积网络相结合的人体骨架行为识别方案。首先,构建基于非局部操作的时空注意力模块,辅助模型关注骨架序列中最具判别性的帧和区域;其次,利用高斯嵌入函数和轻量级卷积神经网络的特征学习能力,并考虑人体先验知识在不同时期的影响,构建自适应图卷积网络;最后,将自适应图卷积网络作为基本框架,并嵌入时空注意力模块,与关节信息、骨骼信息以及各自的运动信息构建双流融合模型。该算法在NTU RGB+D数据集的两种评价标准下分别达到了90.2%和96.2%的准确率,在大规模的数据集Kinetics上体现出模型的通用性,验证了该算法在提取时空特征和捕捉全局上下文信息上的优越性。   相似文献   

3.
近年来,基于骨架的人体动作识别任务因骨架数据的鲁棒性和泛化能力而受到了广泛关注。其中,将人体骨骼建模为时空图的图卷积网络取得了显著的性能。然而图卷积主要通过一系列3D卷积来学习长期交互联系,这种联系偏向于局部并且受到卷积核大小的限制,无法有效地捕获远程依赖关系。该文提出一种协作卷积Transformer网络(Co-ConvT),通过引入Transformer中的自注意力机制建立远程依赖关系,并将其与图卷积神经网络(GCNs)相结合进行动作识别,使模型既能通过图卷积神经网络提取局部信息,也能通过Transformer捕获丰富的远程依赖项。另外,Transformer的自注意力机制在像素级进行计算,因此产生了极大的计算代价,该模型通过将整个网络分为两个阶段,第1阶段使用纯卷积来提取浅层空间特征,第2阶段使用所提出的ConvT块捕获高层语义信息,降低了计算复杂度。此外,原始Transformer中的线性嵌入被替换为卷积嵌入,获得局部空间信息增强,并由此去除了原始模型中的位置编码,使模型更轻量。在两个大规模权威数据集NTU-RGB+D和Kinetics-Skeleton上进行实验验证,该模型分...  相似文献   

4.
针对卷积神经网络和图卷积网络的两类算法在校园暴力行为识别中识别速度和识别率不高的问题,本文提出一种结合多信息流数据融合和时空注意力机制的轻量级图卷积网络。以人体骨架为研究对象,首先融合关节点和骨架相关的多信息流数据,通过减少网络参数量来提高运算速度;其次构建基于非局部运算的时空注意力模块关注最具动作判别性的关节点,通过减少冗余信息提高识别准确率;接着构建时空特征提取模块获得关注关节点时空关联信息;最终由Softmax层实现动作识别。实验结果表明:在校园安防实景中对拳打、脚踢、倒地、推搡、打耳光和跪地6种典型动作识别准确率分别为94.5%,97.0%,98.5%,95.0%,94.5%,95.5%,识别速度最大为20.6 fps。在UCF101数据集上对比两类基准网络,识别速度和准确率均有提升,验证了方法对其他动作的通用性,可以满足对校园典型暴力行为识别的实时性和可靠性要求。  相似文献   

5.
针对人体骨架行为识别中因时空特征提取不充分、网络计算量大和计算效率低导致相似行为识别结果不理想的问题,提出一种基于密集残差移位图卷积网络的骨架行为识别算法。使用姿态估计算法提取人体骨架信息,经坐标向量计算得到骨架的关节、骨骼以及各自的运动信息,并分别输入网络中。在移位图卷积模块间引入密集残差结构,提高网络性能和提取时空特征的效率。所提算法可应用于日常行为场景,例如:行走、坐下、站起、脱衣服、穿衣服、扔以及摔倒等。其在自制数据集上的识别准确率达到81.7%,在NTU60 RGB+D数据集两种评估标准下的准确率也分别达88.1%和95.3%,验证了算法具有优秀的识别精度。  相似文献   

6.
手势是交流互动中一种重要的非语言媒介,手势序列生成作为手势表达行为建模的重要任务,在手势分类、手势识别和虚拟人手语驱动等场景有大量应用需求。针对序列手势骨架生成问题,提出了基于Hand-Gesture Graph Convolution Neural Network(HGCN)的手势骨架序列生成方法,采用生成对抗训练框架,在图卷积骨架序列生成方法基础上针对手势骨架序列数据特点,提出图卷积的手部特征增强和基于时空位置编码的自注意力结构的改进方法。实验结果表明,提出的HGCN方法相比基准图卷积骨架生成方法在手势骨架序列生成问题中有更好的结果。  相似文献   

7.
群组行为识别是对个体的共同行为进行识别。群组行为与群组状态密不可分,也与群组内个体时空特征息息相关,时空信息既能描述空间语义信息,更能反映行为的动态变化情况。针对有效精细的时空特征提取问题,本文提出了一种基于注意力机制和深度时空信息的群组行为识别方法。首先将ShuffleAttention引入双流特征提取网络中,有效提取个体外观和运动信息。其次使用改进Non-Local网络提取深度时序信息。最后将个体特征送到图卷积网络中进行空间交互信息建模,得到群组行为识别结果。在CAD和CAED数据集上的准确率达到了93.6%和97.8%,在CAD数据集上与凝聚群组搜索算法(CCS)和成员关系图(ARG)方法相比,准确率提高了1.2%和2.6%,这表明本文方法能有效提取深度时空特征,提升群组行为识别准确率。  相似文献   

8.
为了有效地识别学生在线课堂行为,提出了一种融合全局注意力机制和时空图卷积 网络的人体骨架行为识别模型。首先在时空图卷积网络的空间图卷积网络和时间卷积网络之 间加入全局注意力模块,空间图卷积网络输出的空间特征图作为注意力模块的输入。其次引 入按时间维度的平均池化和最大池化操作,以增加模型学习全局特征信息的能力。最后用三 个加入注意力机制的时空图卷积神经网络和类激活图(class activation map,CAM),构造对遮挡数据识别能力更强 的丰富激活图卷积网络(RA-GCNv2-A)模型,并通过迁移学习实现学生在线课堂行为识别功 能。 在NTU-RGB+D和NTU-RGB+D120数据集上进行实验验证,与RA-GCNv2模型相比,在NTU-RGB +D 和NTU-RGB+D120数据集上的识别准确率分别提高了(cross-subject,CS)1.3%、(cross-view,CV)1.2%和(cross-subject,CSub)1.6%、 (cross-setup,CSet)1.4%。实验结果表明,提出的方法是一种有效的学生在线课堂 行为识别方法。  相似文献   

9.
罗会兰  曹立京 《电子学报》2024,(3):991-1001
图卷积由于其对图数据的强大表示能力被广泛应用于基于骨架的动作识别任务中.但是现有的图卷积方法在所有帧或通道上都使用共享的图拓扑进行特征聚合,这极大限制了图卷积网络的表示能力.为了解决这些问题,本文提出多维动态拓扑学习图卷积用于动态建模具有时序与通道特异性的拓扑结构.多维动态拓扑学习图卷积主要包含三个组成部分:纯粹节点拓扑学习图卷积(pure Joint topology learning Graph Convolution, J-GC)、动态时序特异性拓扑学习图卷积(Dynamic Temporal-Wise topology learning Graph Convolution, DTW-GC)和通道特异性拓扑学习图卷积(Channel-Wise topology learning Graph Convolution, CW-GC).特别地,在DTW-GC中使用了动态骨架拓扑建模方法(Dynamic Skeleton Topology Learning, DSTL),以高效地建模富含全局时空拓扑特征的动态骨架拓扑.将多维动态拓扑学习图卷积与多尺度时间卷积(Multi-Scale Te...  相似文献   

10.
本文针对人体行为识别模型中鉴别能力有限的问题,同时避免双流中计算光流的较大时间成本,提出基于通道注意力机制和三维卷积时空注意力模型的行为识别方法。首先,该卷积网络模型使用ResNeXt残差模块,利用三维卷积核有效地提取视频帧时空特征。然后,在此基础上给每个残差模块增加通道注意力机制学习不同特征图的权重,进而形成基于通道域的注意力权重,增强网络结构对人体行为的表征能力。最后,在UCF-101和HMDB-51数据集上,通过交叉熵损失函数训练不同网络深度的行为分类模型。实验结果表明,该模型可以有效提取视频中的时空特征,并在人体行为识别任务中有着较高效率和优秀的准确度。  相似文献   

11.
黄晨  裴继红  赵阳 《信号处理》2022,38(1):64-73
目前绝大多数的行人属性识别任务都是基于单张图像的,单张图像所含信息有限,而图像序列中包含丰富的有用信息和时序特征,利用序列信息是提高行人属性识别性能的一个重要途径.本文提出了结合时序注意力机制的多特征融合行人序列图像属性识别网络,该网络除了使用常见的空-时二次平均池化特征聚合和空-时平均最大池化特征聚合提取序列的特征外...  相似文献   

12.
关节点行为识别由于其不易受外观影响、能更好地避免噪声影响等优点备受国内外学者的关注,但是目前该领域的系统归纳综述较少。该文综述了基于深度学习的关节点行为识别方法,按照网络主体的不同将其划分为卷积神经网络(CNN)、循环神经网络(RNN)、图卷积网络和混合网络。卷积神经网络、循环神经网络、图卷积网络分别擅长处理的关节点数据表示方式是伪图像、向量序列、拓扑图。归纳总结了目前国内外常用的关节点行为识别数据集,探讨了关节点行为识别所面临的挑战以及未来研究方向,高精度前提下快速行为识别和实用化仍然需要继续推进。  相似文献   

13.
为了更好地对人体动作的长时时域信息进行建模,提出了一种结合时序动态图和双流卷积网络的人体行为识别算法.首先,利用双向顺序池化算法来构建时序动态图,实现视频从三维空间到二维空间的映射,用来提取动作的表观和长时时序信息;然后提出了基于inceptionV3的双流卷积网络,包含表观及长时运动流和短时运动流,分别以时序动态图和...  相似文献   

14.
Motivated by the powerful capability of deep neural networks in feature learning, a new graph-based neural network is proposed to learn local and global relational information on skeleton sequences represented as spatio-temporal graphs (STGs). The pipeline of our network architecture consists of three main stages. As the first stage, spatial–temporal sub-graphs (sub-STGs) are projected into a latent space in which every point is represented as a linear subspace. The second stage is based on message passing to acquire the localized correlated features of the nodes in the latent space. The third stage relies on graph convolutional networks (GCNs) to reason the long-range spatio-temporal dependencies through a graph representation of the latent space. Finally, the average pooling layer and the softmax classifier are then employed to predict the action categories based on the extracted local and global correlations. We validate our model in terms of action recognition using three challenging datasets: the NTU RGB+D, Kinetics Motion, and SBU Kinect Interaction datasets. The experimental results demonstrate the effectiveness of our approach and show that our proposed model outperforms the state-of-the-art methods.  相似文献   

15.
随着互联网的快速发展以及电子设备的逐渐普及,越来越多的人选择在网上购物,买家在购买商品之后,可以通过平台提供的评价系统表达自己对服装产品的感受,因此会产生大量的服装评价信息.由于这些评价信息的标签是通过人工选择的,会受到外在因素的影响,所以具有不确定性.这些不确定性产生的误差会影响到平台以及其他用户对服装产品的评判.针...  相似文献   

16.
17.
With the prevalence of accessible depth sensors, dynamic skeletons have attracted much attention as a robust modality for action recognition. Convolutional neural networks (CNNs) excel at modeling local relations within local receptive fields and are typically inefficient at capturing global relations. In this article, we first view the dynamic skeletons as a spatio-temporal graph (STG) and then learn the localized correlated features that generate the embedded nodes of the STG by message passing. To better extract global relational information, a novel model called spatial–temporal graph interaction networks (STG-INs) is proposed, which perform long-range temporal modeling of human body parts. In this model, human body parts are mapped to an interaction space where graph-based reasoning can be efficiently implemented via a graph convolutional network (GCN). After reasoning, global relation-aware features are distributed back to the embedded nodes of the STG. To evaluate our model, we conduct extensive experiments on three large-scale datasets. The experimental results demonstrate the effectiveness of our proposed model, which achieves the state-of-the-art performance.  相似文献   

18.
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号