期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

Mixed graph convolution and residual transformation network for skeleton-based action recognition

Liu Shuhua Bai Xiaoying Fang Ming Li Lanting Hung Chih-Cheng 《Applied Intelligence》2022,52(2):1544-1555

Action recognition based on a human skeleton is an extremely challenging research problem. The temporal information contained in the human skeleton is more difficult to extract than the spatial information. Many researchers focus on graph convolution networks and apply them to action recognition. In this study, an action recognition method based on a two-stream network called RNXt-GCN is proposed on the basis of the Spatial-Temporal Graph Convolutional Network (ST-GCN). The human skeleton is converted first into a spatial-temporal graph and a SkeleMotion image which are input into ST-GCN and ResNeXt, respectively, for performing the spatial-temporal convolution. The convolved features are then fused. The proposed method models the temporal information in action from the amplitude and direction of the action and addresses the shortcomings of isolated temporal information in the ST-GCN. The experiments are comprehensively performed on the four datasets: 1) UTD-MHAD, 2) Northwestern-UCLA, 3) NTU RGB-D 60, and 4) NTU RGB-D 120. The proposed model shows very competitive results compared with other models in our experiments. On the experiments of NTU RGB?+?D 120 dataset, our proposed model outperforms those of the state-of-the-art two-stream models.

相似文献

2.

基于时间图注意力的交通流量预测模型

姚晓敏张心蓝张振国《计算机应用研究》2022,39(3):770-773+779

交通状况预测是智能交通系统的一个重要组成部分,而车流量是交通状况最直接的体现,因而对交通流量进行预测具有重要的应用价值。一方面,城市中的道路本身带有空间拓扑性质,另一方面车流量随时间动态变化。因此交通流量预测问题的关键在于对数据中存在的时间和空间依赖进行建模。针对这一特性,使用神经网络模型和注意力机制来探索交通流量数据中的时空依赖关系,提出基于时间图注意力的交通流量预测模型。空间依赖方面,使用图卷积网络与注意力结合的学习算法对不同影响程度节点分配不同的权重,加入节点自适应学习,有效提取空间特征;时间依赖方面,使用时序卷积网络对时间特征进行提取,通过扩张卷积扩大感受域从而捕获较长时间序列数据的特征。由图注意力网络和时间卷积网络构成一个时空网络层,最终连接到输出层输出预测结果。该模型使用图卷积神经网络和注意力机制结合的方式提取空间特征,充分考虑了道路间的空间关系,利用时序卷积网络捕获时间特征。在两个真实的数据集上进行实验后发现,在未来15 min、30 min、60 min的时间段内该模型都有良好表现,结果优于现有基准模型。相似文献

3.

采用蒸馏训练的时空图卷积动作识别融合模型

下载免费PDF全文

杨清山穆太江《中国图象图形学报》2022,27(4):1290-1301

目的基于深度学习的动作识别方法识别准确率显著提升,但仍然存在很多挑战和困难。现行方法在一些训练数据大、分类类别多的数据集以及实际应用中鲁棒性较差,而且许多方法使用的模型参数量较大、计算复杂,提高模型准确度和鲁棒性的同时对模型进行轻量化仍然是一个重要的研究方向。为此,提出了一种基于知识蒸馏的轻量化时空图卷积动作识别融合模型。方法改进最新的时空卷积网络,利用分组卷积等设计参数量较少的时空卷积子模型;为了训练该模型,选取两个现有的基于全卷积的模型作为教师模型在数据集上训练,在得到训练好的教师模型后,再利用知识蒸馏的方法结合数据增强技术训练参数量较少的时空卷积子模型;利用线性融合的方法将知识蒸馏训练得到的子模型融合得到最终的融合模型。结果在广泛使用的NTU RGB + D数据集上与前沿的多种方法进行了比较,在CS(cross-subject)和CV(cross-view)两种评估标准下,本文模型的准确率分别为90.9%和96.5%,与教师模型2s-AGCN(two-stream adaptive graph convolutional networks for skeleton-based action)相比,分别提高了2.4%和1.4%;与教师模型DGNN(directed graph neural network)相比,分别提高了1.0%和0.4%;与MS-AAGCN(multi-stream attention-enhanced adaptive graph convolutional neural network)模型相比,分别提高了0.9%和0.3%。结论本文提出的融合模型,综合了知识蒸馏、数据增强技术和模型融合的优点,使动作识别更加准确和鲁棒。相似文献

4.

Triplet attention multiple spacetime-semantic graph convolutional network for skeleton-based action recognition

Sun Yanjing Huang Han Yun Xiao Yang Bin Dong Kaiwen 《Applied Intelligence》2022,52(1):113-126

Skeleton-based action recognition has recently attracted widespread attention in the field of computer vision. Previous studies on skeleton-based action recognition are susceptible to interferences from redundant video frames in judging complex actions but ignore the fact that the spatial-temporal features of different actions are extremely different. To solve these problems, we propose a triplet attention multiple spacetime-semantic graph convolutional network for skeleton-based action recognition (AM-GCN), which can not only capture the multiple spacetime-semantic feature from the video images to avoid limited information diversity from single-layer feature representation but can also improve the generalization ability of the network. We also present the triplet attention mechanism to apply an attention mechanism to different key points, key channels, and key frames of the actions, improving the accuracy and interpretability of the judgement of complex actions. In addition, different kinds of spacetime-semantic feature information are combined through the proposed fusion decision for comprehensive prediction in order to improve the robustness of the algorithm. We validate AM-GCN with two standard datasets, NTU-RGBD and Kinetics, and compare it with other mainstream models. The results show that the proposed model achieves tremendous improvement.

相似文献

5.

基于紧耦合时空双流卷积神经网络的人体动作识别模型

李前杨文柱陈向阳苑侗侗王玉霞《计算机应用》2020,40(11):3178-3183

针对视频人体动作识别中动作信息利用率不高、时间信息关注度不足等问题,提出了一种基于紧耦合时空双流卷积神经网络的人体动作识别模型。首先,采用两个2D卷积神经网络分别提取视频中的空间特征和时间特征;然后,利用长短期记忆（LSTM）网络中的遗忘门模块在各采样片段之间建立特征层次的紧耦合连接以实现信息流的传递;接着,利用双向长短期记忆（Bi-LSTM）网络评估各采样片段的重要性并为其分配自适应权重;最后,结合时空双流特征以完成人体动作识别。在数据集UCF101和HMDB51上进行实验验证,该模型在这两个数据集上的准确率分别为94.2%和70.1%。实验结果表明,所提出的紧耦合时空双流卷积网络模型能够有效提高时间信息利用率和动作整体表达能力,由此明显提升人体动作识别的准确度。相似文献

6.

基于紧耦合时空双流卷积神经网络的人体动作识别模型

李前杨文柱陈向阳苑侗侗王玉霞《计算机应用》2005,40(11):3178-3183

针对视频人体动作识别中动作信息利用率不高、时间信息关注度不足等问题，提出了一种基于紧耦合时空双流卷积神经网络的人体动作识别模型。首先，采用两个2D卷积神经网络分别提取视频中的空间特征和时间特征；然后，利用长短期记忆（LSTM）网络中的遗忘门模块在各采样片段之间建立特征层次的紧耦合连接以实现信息流的传递；接着，利用双向长短期记忆（Bi-LSTM）网络评估各采样片段的重要性并为其分配自适应权重；最后，结合时空双流特征以完成人体动作识别。在数据集UCF101和HMDB51上进行实验验证，该模型在这两个数据集上的准确率分别为94.2%和70.1%。实验结果表明，所提出的紧耦合时空双流卷积网络模型能够有效提高时间信息利用率和动作整体表达能力，由此明显提升人体动作识别的准确度。相似文献

7.

基于多时空图卷积网络的交通流预测

戴俊明曹阳沈琴琴施佺《计算机应用研究》2022,39(3):780-784

交通流预测在交通管理和城市规划的应用中具有重要意义,然而现有的预测方法无法充分挖掘其潜在的复杂时空相关性,为进一步挖掘路网道路网络数据的时空特性以提高预测精度,提出一种多时空图卷积网络(multi-spatial-temporal graph convolutional network,MST-GCN)模型。首先,利用切比雪夫图卷积(ChebNet)结合门控循环单元(GRU)构建时空组件以深度挖掘节点的时空相关性;其次,分别提取周相关、日相关、邻近时间的序列数据,输入三个时空组件以深度挖掘不同时间窗口间的时间相关性;最后,将时空组件与编码器—解码器网络结构(encoder-decoder)融合组建MST-GCN模型。利用加利福尼亚州交通局(Caltrans)性能评估系统中高速公路数据集PEMS04和PEMS08进行实验,结果表明新模型的性能明显优于门控循环单元模型和最近提出的扩散卷积循环神经网络(DCRNN)、时间图卷积网络(T-GCN)、基于注意力机制的时空图卷积神经网络(ASTGCN)和时空同步图卷积网络(STSGCN)模型。相似文献

8.

融合显著性图像语义特征的人体相似动作识别

下载免费PDF全文

白忠玉丁其川徐红丽吴成东《中国图象图形学报》2023,28(9):2872-2886

目的基于骨骼的动作识别技术由于在光照变化、动态视角和复杂背景等情况下具有更强的鲁棒性而成为研究热点。利用骨骼/关节数据识别人体相似动作时,因动作间关节特征差异小,且缺少其他图像语义信息,易导致识别混乱。针对该问题,提出一种基于显著性图像特征强化的中心连接图卷积网络（saliency image feature enhancement based center-connected graph convolutional network,SIFE-CGCN）模型。方法首先,设计一种骨架中心连接拓扑结构,建立所有关节点到骨架中心的连接,以捕获相似动作中关节运动的细微差异;其次,利用高斯混合背景建模算法将每一帧图像与实时更新的背景模型对比,分割出动态图像区域并消除背景干扰作为显著性图像,通过预训练的VGG-Net(Visual Geometry Group network)提取特征图,并进行动作语义特征匹配分类;最后,设计一种融合算法利用分类结果对中心连接图卷积网络的识别结果强化修正,提高对相似动作的识别能力。此外,提出了一种基于骨架的动作相似度的计算方法,并建立一个相似动作数据集。结果 ... 相似文献

9.

基于上下文特征融合的行为识别算法

下载免费PDF全文

祁大健杜慧敏张霞常立博《计算机工程与应用》2020,56(2):171-175

针对LSTM网络无法充分提取短时信息导致人体行为识别率不高的问题,提出一种基于上下文特征融合的卷积长短时记忆网络联合优化架构,用于仅具有RGB数据的行为识别网络。使用3D卷积核对输入的动作序列提取其空间特征和短时时间特征,并将多通道信息进行融合,将融合后的特征送入下一级卷积神经网络和LSTM层中进行长期时间的特征学习,获取上下文的长期时空信息,最后用Softmax分类器进行人体行为的分类。实验结果表明,在人体行为识别公开数据集UCF-101上,提出的基于上下文特征融合的卷积长短时记忆网络的平均识别准确率达93.62%,相比于未进行特征融合的卷积长短时记忆网络提高了1.28%,且平均检测时间降低了37.1%。相似文献

10.

多模态数据的行为识别综述

下载免费PDF全文

王帅琛黄倩张云飞李兴聂云清雒国萃《中国图象图形学报》2022,27(11):3139-3159

行为识别是当前计算机视觉方向中视频理解领域的重要研究课题。从视频中准确提取人体动作的特征并识别动作,能为医疗、安防等领域提供重要的信息,是一个十分具有前景的方向。本文从数据驱动的角度出发,全面介绍了行为识别技术的研究发展,对具有代表性的行为识别方法或模型进行了系统阐述。行为识别的数据分为RGB模态数据、深度模态数据、骨骼模态数据以及融合模态数据。首先介绍了行为识别的主要过程和人类行为识别领域不同数据模态的公开数据集;然后根据数据模态分类,回顾了RGB模态、深度模态和骨骼模态下基于传统手工特征和深度学习的行为识别方法,以及多模态融合分类下RGB模态与深度模态融合的方法和其他模态融合的方法。传统手工特征法包括基于时空体积和时空兴趣点的方法(RGB模态)、基于运动变化和外观的方法(深度模态)以及基于骨骼特征的方法(骨骼模态)等;深度学习方法主要涉及卷积网络、图卷积网络和混合网络,重点介绍了其改进点、特点以及模型的创新点。基于不同模态的数据集分类进行不同行为识别技术的对比分析。通过类别内部和类别之间两个角度对比分析后,得出不同模态的优缺点与适用场景、手工特征法与深度学习法的区别和融合多模态的优... 相似文献

11.

基于全局时空编码网络的猴类动物行为识别

下载免费PDF全文

孙峥张素才马喜波《图学学报》2022,43(5):832-840

猴类动物行为的准确量化是临床前药物安全评价的一个基本目标。视频中猴类动物行为分析的一个重要路径是使用目标的骨架序列信息,然而现有的大部分骨架行为识别方法通常在时间和空间维度分别提取骨架序列的特征,忽略了骨架拓扑结构在时空维度的整体性。针对该问题,提出了一种基于全局时空编码网络(GSTEN)的骨架行为识别方法。该方法在时空图卷积网络(ST-GCN)的基础上,并行插入全局标志生成器(GTG)和全局时空编码器(GSTE)来提取时间和空间维度的全局特征。为了验证提出的GSTEN性能,在自建的猴类动物行为识别数据集上开展实验。实验结果表明,该网络在基本不增加模型参数量的情况下,准确率指标达到76.54%,相较于基准模型ST-GCN提升6.79%。相似文献

12.

基于周期图卷积与多头注意力GRU组合的交通流量预测模型

钟林岚张安勤田秀霞《计算机应用研究》2024,41(4):1041-1046

为了捕获交通流量数据中复杂的时空动态变化关系以及周期性变化的特征,同时避免道路突发情况引起的误差累计效应,提出一种基于周期图卷积(periodic graph convolution network, PGCN)与多头注意力门控循环单元(multi-head attention gated recurrent unit, MAGRU)组合的交通流量预测模型。首先,模型的时空数据融合模块利用交通流量的周期相似性构建周期图,同时将空间和时间编码信息添加至交通流量序列数据;然后在时空特征提取模块中,GCN子模块捕获周期特征图中的空间特征,MAGRU子模块捕获序列数据中的时间特征;最后通过门控融合机制将两者提取的时空特征进行融合。模型在两个真实的交通流量数据集上进行了实验。结果表明,该模型相较于多个最新基准模型,在MAE、RMSE、MAPE三个预测误差指标上平均降低了5.4%、22.8%、10.3%,R2精确度指标平均提高了11.6%。说明模型在预测精度方面有显著的改进,并能有效减少误差累积效应。相似文献

13.

局部几何与全局结构联合感知的三维形状分类方法

张晓辉何金海兰鹏燕徐圣斯《计算机应用研究》2023,40(12)

针对复杂结构的三维形状分析与识别问题,提出了新颖的图卷积分类方法,建立了局部几何与全局结构联合图卷积学习机制,有效提高了三维形状数据学习的鲁棒性与稳定性。首先,通过最远点采样与最近邻方法构造局部图,并建立动态卷积算子,有效提取局部几何特征;同时,基于特征域采样构造全局的特征谱图,通过卷积算子获得全局结构信息。进而,构建加权的联合图卷积学习网络模型,引入注意力机制,实现自适应的特征融合。最终,在联合优化目标函数约束下,有效提高特征学习的性能。实验结果表明,融合局部几何与全局结构的联合图卷积网络学习机制,有效提高了深度特征的表示能力及区分性,具有更为优秀的识别力和分类性能。提出的研究方法可应用于大规模三维场景识别、三维重建以及数据压缩,在机器人、产品数字化分析、智能导航、虚拟现实等领域具有着重要的工程意义与广泛的应用前景。相似文献

14.

用于骨架行为识别的多维特征嵌合注意力机制

下载免费PDF全文

姜权晏吴小俊徐天阳《中国图象图形学报》2022,27(8):2391-2403

目的在行为识别任务中,妥善利用时空建模与通道之间的相关性对于捕获丰富的动作信息至关重要。尽管图卷积网络在基于骨架信息的行为识别方面取得了稳步进展,但以往的注意力机制应用于图卷积网络时,其分类效果并未获得明显提升。基于兼顾时空交互与通道依赖关系的重要性,提出了多维特征嵌合注意力机制(multi-dimensional feature fusion attention mechanism, M2FA)。方法不同于现今广泛应用的行为识别框架研究理念,如卷积块注意力模块(convolutional block attention module, CBAM)、双流自适应图卷积网络(two-stream adaptive graph convolutional network, 2s-AGCN)等,M2FA通过嵌入在注意力机制框架中的特征融合模块显式地获取综合依赖信息。对于给定的特征图,M2FA沿着空间、时间和通道维度使用全局平均池化操作推断相应维度的特征描述符。特征图使用多维特征描述符的融合结果进行过滤学习以达到细化自适应特征的目的,并通过压缩全局动态信息的全局特征分支与仅使用逐点卷积层的局... 相似文献

15.

基于增强型图卷积的骨架识别模型

兰红何璠张蒲芬《计算机应用研究》2021,38(12):3791-3795,3825

针对现有骨架动作识别主要采用双流框架,在提取时间空间以及通道特征方法上存在的问题,提出一个ADGCN,用于骨架动作识别.首先对骨架数据进行建模,分别将关节、骨骼及其关节和骨骼的运动信息输入到多流框架的单个流.然后将输入的数据传送到提出的有向图卷积网络中进行提取关节和骨骼之间的依赖关系,再利用提出的时空通道注意力网络(STCN),增强每层网络中关键关节的时间、空间以及通道的信息.最后将四个流的信息通过加权平均计算动作识别的精度,输出动作的预测结果.此模型在两个大型数据集NTU-RGB+D和Kinectics-Skeleton中进行训练和验证,验证的结果与基线方法DGNN(有向图神经网络)相比,在NTU-RGB+D数据集上,在两个交叉子集CS和CV上的准确率分别提升了2.43％和1.2％.在Kinectics-Skeleton数据集的top1和top5上的准确率分别提升了0.7％和0.9％.提出的ADGCN可以有效地增强骨架动作识别的性能,在两个大型数据集上的效果都有所提升. 相似文献

16.

T-GAN: A deep learning framework for prediction of temporal complex networks with adaptive graph convolution and attention mechanism

《Displays》2021

Complex network is graph network with non-trivial topological features often occurring in real systems, such as video monitoring networks, social networks and sensor networks. While there is growing research study on complex networks, the main focus has been on the analysis and modeling of large networks with static topology. Predicting and control of temporal complex networks with evolving patterns are urgently needed but have been rarely studied. In view of the research gaps we are motivated to propose a novel end-to-end deep learning based network model, which is called temporal graph convolution and attention (T-GAN) for prediction of temporal complex networks. To joint extract both spatial and temporal features of complex networks, we design new adaptive graph convolution and integrate it with Long Short-Term Memory (LSTM) cells. An encoder-decoder framework is applied to achieve the objectives of predicting properties and trends of complex networks. And we proposed a dual attention block to improve the sensitivity of the model to different time slices. Our proposed T-GAN architecture is general and scalable, which can be used for a wide range of real applications. We demonstrate the applications of T-GAN to three prediction tasks for evolving complex networks, namely, node classification, feature forecasting and topology prediction over 6 open datasets. Our T-GAN based approach significantly outperforms the existing models, achieving improvement of more than 4.7% in recall and 25.1% in precision. Additional experiments are also conducted to show the generalization of the proposed model on learning the characteristic of time-series images. Extensive experiments demonstrate the effectiveness of T-GAN in learning spatial and temporal feature and predicting properties for complex networks. 相似文献

17.

Extracting hierarchical spatial and temporal features for human action recognition

Keting Zhang Liqing Zhang 《Multimedia Tools and Applications》2018,77(13):16053-16068

Human action recognition is a challenging computer vision task and many efforts have been made to improve the performance. Most previous work has concentrated on the hand-crafted features or spatial-temporal features learned from multiple contiguous frames. In this paper, we present a dual-channel model to decouple the spatial and temporal feature extraction. More specifically, we propose to capture the complementary static form information from single frame and dynamic motion information from multi-frame differences in two separate channels. In both channels we use two stacked classical subspace networks to learn hierarchical representations, which are subsequently fused for action recognition. Our model is trained and evaluated on three typical benchmarks: KTH, UCF and Hollywood2 datasets. The experimental results illustrate that our approach achieves comparable performances to the state-of-the-art methods. In addition, both feature analysis and control experiments are also carried out to demonstrate the effectiveness of the proposed approach for feature extraction and thereby action recognition. 相似文献

18.

骨骼信息的人体行为识别综述

下载免费PDF全文

卢健李萱峰赵博周健《中国图象图形学报》2023,28(12):3651-3669

基于骨骼信息的人体行为识别旨在从输入的包含一个或多个行为的骨骼序列中,正确地分析出行为的种类,是计算机视觉领域的研究热点之一。与基于图像的人体行为识别方法相比,基于骨骼信息的人体行为识别方法不受背景、人体外观等干扰因素的影响,具有更高的准确性、鲁棒性和计算效率。针对基于骨骼信息的人体行为识别方法的重要性和前沿性,对其进行全面和系统的总结分析具有十分重要的意义。本文首先回顾了9个广泛应用的骨骼行为识别数据集,按照数据收集视角的差异将它们分为单视角数据集和多视角数据集,并着重探讨了不同数据集的特点和用法。其次,根据算法所使用的基础网络,将基于骨骼信息的行为识别方法分为基于手工制作特征的方法、基于循环神经网络的方法、基于卷积神经网络的方法、基于图卷积网络的方法以及基于Transformer的方法,重点阐述分析了这些方法的原理及优缺点。其中,图卷积方法因其强大的空间关系捕捉能力而成为目前应用最为广泛的方法。采用了全新的归纳方法,对图卷积方法进行了全面综述,旨在为研究人员提供更多的思路和方法。最后,从8个方面总结现有方法存在的问题,并针对性地提出工作展望。相似文献

19.

多视角融合的时空动态图卷积网络城市交通流量预测

赵文竹袁冠张艳梅乔少杰王森章张雷《软件学报》2024,35(4)

城市交通流量预测是构建绿色低碳、安全高效的智能交通系统的重要组成部分.时空图神经网络由于具有强大的时空数据表征能力,被广泛应用于城市交通流量预测.当前时空图神经网络在城市交通流量预测中仍存在以下两方面局限性:1)直接构建静态路网拓扑图对城市空间相关性进行表示,忽略了节点的动态交通模式,难以表达节点流量之间的时序相似性,无法捕获路网节点之间在时序上的动态关联.2)只考虑路网节点的局部空间相关性,忽略节点的全局空间相关性,无法建模交通路网中局部区域和全局空间之间的依赖关系.为打破上述局限性,本文提出了一种多视角融合的时空动态图卷积模型用于预测交通流量.首先,从静态空间拓扑和动态流量模式视角出发,构建路网空间结构图和动态流量关联图,并使用动态图卷积学习节点在两种视角下的特征,全面捕获城市路网中多元的空间相关性.其次,从局部视角和全局视角出发,计算路网的全局表示,将全局特征与局部特征融合,增强路网节点特征的表现力,发掘城市交通流量的整体结构特征.接下来,设计了局部卷积多头自注意力机制来获取交通数据的动态时间相关性,实现在多种时间窗口下的准确流量预测.最后,在四种真实交通数据上的实验结果证明了本文模型的有效性和准确性. 相似文献

20.

基于改进全局—局部注意网络的室内场景识别方法

徐江浪万新军夏振平胡伏原《计算机应用研究》2022,39(1):316-320

由于卷积神经网络(CNN)大多侧重于全局特征学习,忽略了包含更多细节的局部特征信息,使得室内场景识别的准确率难以提高。针对这一问题,提出了基于改进全局—局部注意网络(GLANet)的室内场景识别方法。首先,利用GLANet捕捉场景图像的全局特征和局部特征,增加图像特征中的细节信息;然后,在局部网络中引入non-local注意力模块,通过注意力图和特征图的卷积来进一步保留图像的细节特征,最后融合网络不同阶段的多种特征进行分类。通过在MIT Indoor67和SUN397数据集上的训练和验证,所提方法的识别准确率与LGN方法相比分别提高了1.98%和3.07%。实验结果表明,该算法能够有效捕获全局语义信息和精细的局部细节,显著提高了识别准确率。相似文献