首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 234 毫秒
1.
针对人体骨架行为识别中因时空特征提取不充分、网络计算量大和计算效率低导致相似行为识别结果不理想的问题,提出一种基于密集残差移位图卷积网络的骨架行为识别算法。使用姿态估计算法提取人体骨架信息,经坐标向量计算得到骨架的关节、骨骼以及各自的运动信息,并分别输入网络中。在移位图卷积模块间引入密集残差结构,提高网络性能和提取时空特征的效率。所提算法可应用于日常行为场景,例如:行走、坐下、站起、脱衣服、穿衣服、扔以及摔倒等。其在自制数据集上的识别准确率达到81.7%,在NTU60 RGB+D数据集两种评估标准下的准确率也分别达88.1%和95.3%,验证了算法具有优秀的识别精度。  相似文献   

2.
《现代电子技术》2020,(4):137-141
针对RGB视频中遮挡物以及其他外界因素对人体动作识别产生影响,以及识别精确度有待提升的问题,提出基于双流独立循环神经网络人体动作识别算法。在提取特征方面,时间网络采用分层IndRNN对时序中3D骨架坐标信息进行特征提取;空间网络采用深层的IndRNN对每个时刻骨架的空间位置关系进行特征提取,其中骨架的空间结构采用了图遍历的方法。对于空间网络和时间网络的特征融合采用加权求和的方式,最后用softmax对动作进行分类。在3D骨架动作数据集(NTU RGB+D)以及交互数据集(SBU Interaction Dataset)上验证了模型的有效性。  相似文献   

3.
针对现有的复杂背景下人体动作识别中存在识别准确率不高和实时性不强等问题,提出基于Kinect骨骼数据的改进动作识别算法。通过Kinect获取骨骼数据,提取出人体关节的特征向量,然后用模板匹配的方法对人体动作进行识别。通过搭建机器人体感控制系统验证了算法的可行性。在相同实验条件下测得算法的平均识别率为95.2%,平均识别时间为32.5ms。与其它动作识别算法比较,证明了算法的识别率较高、实时性较好。  相似文献   

4.
在基于视频图像的动作识别中,由于固定视角相机所获取的不同动作视频存在视角差异,会造成识别准确率降低等问题。使用多视角视频图像是提高识别准确率的方法之一,提出基于三维残差网络(3D Residual Network,3D ResNet)和长短时记忆(Long Short-term Memory,LSTM)网络的多视角人体动作识别算法,通过3D ResNet学习各视角动作序列的融合时空特征,利用多层LSTM网络继续学习视频流中的长期活动序列表示并深度挖掘视频帧序列之间的时序信息。在NTU RGB+D 120数据集上的实验结果表明,该模型对多视角视频序列动作识别的准确率可达83.2%。  相似文献   

5.
裴晓敏  范慧杰  唐延东 《红外与激光工程》2018,47(2):203007-0203007(6)
基于自然场景图像的人体行为识别方法中遮挡、背景干扰、光照不均匀等因素影响识别结果,利用人体三维骨架序列的行为识别方法可以克服上述缺点。首先,考虑人体行为的时空特性,提出一种时空特征融合深度学习网络人体骨架行为识别方法;其次,根据骨架几何特征建立视角不变性特征表示,CNN(Convolutional Neural Network)网络学习骨架的局部空域特征,作用于空域的LSTM(Long Short Term Memory)网络学习骨架空域节点之间的相关性特征,作用于时域的LSTM网络学习骨架序列时空关联性特征;最后,利用NTU RGB+D数据库验证文中算法。实验结果表明:算法识别精度有所提高,对于多视角骨架具有较强的鲁棒性。  相似文献   

6.
娄久  左德承  张展  刘宏伟 《信号处理》2022,38(7):1497-1506
针对暴力行为识别过程中缺乏描述不同时间尺度下暴力行为运动变化的问题,本文提出了一种基于拉格朗日场的多级运动特征暴力行为识别算法。该算法将描述非线性粒子运动的拉格朗日场引入暴力行为分析过程中,首先通过构建基于光流的拉格朗日场来挖掘不同时间尺度下暴力行为运动特征,设计了基于拉格朗日场的多级运动模块,该模块可以根据输入光流序列长度,计算多级运动特征;然后构建了基于流量门控制机制的双流网络,将多级运动特征和RGB图像特征融合;最后,利用LSTM和全连接模型计算识别结果。实验证明,该方法在公共暴力识别数据集上取得了很好的效果,特别是在真实监控场景的RWF-2000数据集上,暴力行为识别正确识别率可以达到88.4%,优于其他算法。   相似文献   

7.
《信息技术》2016,(7):65-70
提出了基于多示例学习法的人体行为识别方法。利用人体骨架模型,将人体主要关节的属性特征作为人体运动的几何特征,提出了一种基于行为几何特征的自适应行为分解算法,将行为分解为简单动作。把分解后的行为看作一个包,各个动作看作包中的各个示例,结合多示例学习法与Any Boost算法提出了多示例行为学习算法(MILBoost算法),通过在多示例框架下对每一类行为进行学习,得到强分类器用于未知行为包的识别。实验结果表明该方法与其他方法相比具有更高的识别精度,并且在有噪声或干扰的情况下具有很好的识别精度。  相似文献   

8.
现有的人体姿态识别方案大多数是从单一的角度来考察人体的姿态特征,但是仅采用距离像很难体现人体关节的位置信息,仅提取微多普勒特征有时会覆盖掉径向速度不明显的特征。为此,本文首先利用慢时间-距离像和慢时间-微多普勒谱图构建出人体姿态的三维张量数据集,扩展了人体姿态的特征维度,然后采用改进型瓶颈残差模块构成的神经网络提高了人体姿态的识别率。实验结果表明,通过对4名受试者的8种姿态进行训练和测试,该网络对人体姿态的三维张量数据集的识别率可达97.78%,相比于单一特征数据集的识别率提高了4%~7%。  相似文献   

9.
徐晓冰  左涛涛  孙百顺  李奇越  吴刚 《红外与激光工程》2022,51(4):20210188-1-20210188-8
针对目前人体动作识别技术中存在的隐私暴露、技术复杂度高和识别精度低等相关问题,提出了一种基于热释电红外(PIR)传感器的人体动作识别方法。首先,采用一组安置在天花板上经过视场调制的PIR传感器采集人体运动时散发的红外热辐射信号,将传感器输出的电压模拟信号进行滤波放大后通过ZigBee无线模块传送到PC端打包成原始数据集;其次,将原始数据的两路传感器输出数据进行特征融合,对融合后的数据做标准化处理封装为训练集和测试集;然后,基于数据的特征提出一种两层级联的混合深度学习网络模型作为人体动作的分类算法,第一层采用一维卷积神经网络(1DCNN)对数据进行特征提取,第二层采用门控循环单元(GRU)保存历史输入信息防止丢失有效特征;最后,利用训练集来训练该网络模型得出参数最优的分类模型,通过测试集验证模型的正确性。实验结果表明,提出的该动作识别技术模型对基本动作分类的准确率高于98%,与图像动作识别或穿戴式设备动作识别相比,实现了实时、便捷、低成本和高保密性的高精度人体动作识别。  相似文献   

10.
王洪雁  袁海 《通信学报》2022,(1):138-148
针对传统动作识别算法不易区分相似动作的问题,提出一种基于深度关节与手工表观特征融合的动作识别方法.首先将关节空域位置及约束输入具有时空注意力机制的长短期记忆(LSTM)模型中,获取时空加权且高可分的深度关节特征;然后引入热图定位关键帧及关节,手工提取关键关节周围表观特征以作为深度关节特征有效补充;最后基于双流网络逐帧融...  相似文献   

11.
在动作识别任务中,如何充分学习和利用视频的空间特征和时序特征的相关性,对最终识别结果尤为重要。针对传统动作识别方法忽略时空特征相关性及细小特征,导致识别精度下降的问题,本文提出了一种基于卷积门控循环单元(convolutional GRU, ConvGRU)和注意力特征融合(attentional feature fusion,AFF) 的人体动作识别方法。首先,使用Xception网络获取视频帧的空间特征提取网络,并引入时空激励(spatial-temporal excitation,STE) 模块和通道激励(channel excitation,CE) 模块,获取空间特征的同时加强时序动作的建模能力。此外,将传统的长短时记忆网络(long short term memory, LSTM)网络替换为ConvGRU网络,在提取时序特征的同时,利用卷积进一步挖掘视频帧的空间特征。最后,对输出分类器进行改进,引入基于改进的多尺度通道注意力的特征融合(MCAM-AFF)模块,加强对细小特征的识别能力,提升模型的准确率。实验结果表明:在UCF101数据集和HMDB51数据集上分别达到了95.66%和69.82%的识别准确率。该算法获取了更加完整的时空特征,与当前主流模型相比更具优越性。  相似文献   

12.
3D skeleton sequences contain more effective and discriminative information than RGB video and are more suitable for human action recognition. Accurate extraction of human skeleton information is the key to the high accuracy of action recognition. Considering the correlation between joint points, in this work, we first propose a skeleton feature extraction method based on complex network. The relationship between human skeleton points in each frame is coded as a network. The changes of action over time are described by a time series network composed of skeleton points. Network topology attributes are used as feature vectors, complex network coding and LSTM are combined to recognize human actions. The method was verified on the NTU RGB + D60, MSR Action3D and UTKinect-Action3D dataset, and have achieved good performance, respectively. It shows that the method of extracting skeleton features based on complex network can properly identify different actions. This method that considers the temporal information and the relationship between skeletons at the same time plays an important role in the accurate recognition of human actions.  相似文献   

13.
针对表面肌电信号(surface electromyography, sEMG)手势识别使用卷积神经网络(convolutional neural network, CNN)提取特征不够充分,且忽略时序信息而导致识别精度不高的问题,本文创新性地提出了一种融合双层注意力与多流卷积神经网络(multi-stream convolutional neural network, MS-CNN)的sEMG手势识别记忆网络模型。首先,利用滑动窗口生成的表面肌电图像作为该模型的输入;然后在MS-CNN中嵌入通道注意力层(channel attention module, CAM),弱化无关信息,使网络能够更加专注sEMG的有效特征;其次,通过长短期记忆网络(long short term memory network, LSTM)对输入的特征进行时序上的激励,关注更多sEMG的时序信息,让网络在时间维度上拥有更强的学习能力;最后,采用时序注意力(time-sequence attention, TSA)层对LSTM的状态进行关注,从而更好地学习重要肌肉信息,提高手势识别精度。在NinaPro数据集上...  相似文献   

14.
Over the past few years, skeleton-based action recognition has attracted great success because the skeleton data is immune to illumination variation, view-point variation, background clutter, scaling, and camera motion. However, effective modeling of the latent information of skeleton data is still a challenging problem. Therefore, in this paper, we propose a novel idea of action embedding with a self-attention Transformer network for skeleton-based action recognition. Our proposed technology mainly comprises of two modules as, (i) action embedding and (ii) self-attention Transformer. The action embedding encodes the relationship between corresponding body joints (e.g., joints of both hands move together for performing clapping action) and thus captures the spatial features of joints. Meanwhile, temporal features and dependencies of body joints are modeled using Transformer architecture. Our method works in a single-stream (end-to-end) fashion, where multiple-layer perceptron (MLP) is used for classification. We carry out an ablation study and evaluate the performance of our model on a small-scale SYSU-3D dataset and large-scale NTU-RGB+D and NTU-RGB+D 120 datasets where the results establish that our method performs better than other state-of-the-art architectures.  相似文献   

15.
With the recent advent of low-cost acqui-sition depth cameras, extracting 3D body skeleton has be-come relatively easier, which significantly lighten many dif-ficulties in 2D videos including occlusions, shadows and background extraction, etc. Directly perceived features, for example points, lines and planes, can be easily ex-tracted from 3D videos such that we can employ rigid motions to represent skeletal motions in a geometric way. We apply screw matrices, acquired by using rotations and translations in 3D space, to model single and multi-body rigid motion. Since screw matrices are members of the special Euclidean group SE(3), an action can be repre-sented as a point on a Lie group, which is a differen-tiable manifold. Using Lie-algebraic properties of screw al-gebra, isomorphic to se(3), the classical algorithms of ma-chine learning in vector space can be expanded to man-ifold space. We evaluate our approached on three public 3D action datasets: MSR Action3D dataset, UCF Kinect dataset and Florence3D-Action Dataset. The experimental results show that our approaches either match or exceed state-of-the-art skeleton-based human action recognition approaches.  相似文献   

16.
刘强  张文英  陈恩庆 《信号处理》2020,36(9):1422-1428
人体动作识别在人机交互、视频内容检索等领域有众多应用,是多媒体信息处理的重要研究方向。现有的大多数基于双流网络进行动作识别的方法都是在双流上使用相同的卷积网络去处理RGB与光流数据,缺乏对多模态信息的利用,容易造成网络冗余和相似性动作误判问题。近年来,深度视频也越来越多地用于动作识别,但是大多数方法只关注了深度视频中动作的空间信息,没有利用时间信息。为了解决这些问题,本文提出一种基于异构多流网络的多模态动作识别方法。该方法首先从深度视频中获取动作的时间特征表示,即深度光流数据,然后选择合适的异构网络来进行动作的时空特征提取与分类,最后对RGB数据、RGB中提取的光流、深度视频和深度光流识别结果进行多模态融合。通过在国际通用的大型动作识别数据集NTU RGB+D上进行的实验表明,所提方法的识别性能要优于现有较先进方法的性能。   相似文献   

17.
Action recognition in video is one of the most important and challenging tasks in computer vision. How to efficiently combine the spatial-temporal information to represent video plays a crucial role for action recognition. In this paper, a recurrent hybrid network architecture is designed for action recognition by fusing multi-source features: a two-stream CNNs for learning semantic features, a two-stream single-layer LSTM for learning long-term temporal feature, and an Improved Dense Trajectories (IDT) stream for learning short-term temporal motion feature. In order to mitigate the overfitting issue on small-scale dataset, a video data augmentation method is used to increase the amount of training data, as well as a two-step training strategy is adopted to train our recurrent hybrid network. Experiment results on two challenging datasets UCF-101 and HMDB-51 demonstrate that the proposed method can reach the state-of-the-art performance.  相似文献   

18.
陈昊  郭文普  康凯 《电讯技术》2023,63(12):1869-1875
针对低信噪比条件下自动调制识别准确率不高的问题,提出了通道门控Res2Net卷积神经网络自动调制识别模型。该模型主要由二维卷积神经(Two-dimensional Convolutional Neural Network, 2D-CNN)网络、多尺度残差网络(Residual 2-network, Res2Net)、压缩与激励网络(Squeeze-and-Excitation Network, SENet)和长短期记忆(Long Short-Term Memory, LSTM)网络组成,通过卷积从原始I/Q数据中提取多尺度特征,结合门控机制对特征通道进行权重调整,并利用LSTM对卷积所得特征进行序列建模,确保数据特征被有效挖掘,从而提升自动调制识别的准确率。在基准数据集RML2016.10a下的调制识别实验表明,所提模型在信噪比为12 dB时识别精度为92.68%,在信噪比2 dB以上时平均识别精度大于91%,较经典CLDNN模型、LSTM模型和同类型PET-CGDNN模型、CGDNet模型能取得更高的调制类型识别准确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号