首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
人体行为识别是智能监控、人机交互等诸多应用领域的一项基本技术。人体骨骼的动态变化为人体行为识别提供了重要的信息。传统方法通常只是采取人工信息标注或遍历规则,从而导致模型的表征能力有限、泛化性能差。采用一种引入了残差项的动态骨架模型——基于残差连接的时空图卷积网络,不仅克服了以往方法的限制,而且能够学习骨骼数据中的时空模型。在大型骨骼NTU-RGB+D数据集上,该网络模型不仅提高了人体行为特征的表征能力,而且增强了泛化能力,取得了比现有的模型更好的识别效果。  相似文献   

2.
为提高学校、商场等公共场所的安全性,实现对监控视频中的偷窃、抢劫和打架斗殴等异常双人交互行为的自动识别,针对现有基于关节点数据的行为识别方法在图的创建中忽略了2个人之间的交互信息,且忽略了单人非自然连接关节点间的交互关系的问题,提出一种基于交互关系超图卷积模型用于双人交互行为的建模与识别。首先针对每一帧的关节点数据构建对应的单人超图以及双人交互关系图,其中超图同时使多个非自然连接节点信息互通,交互关系图强调节点间交互强度。将以上构建的图模型送入时空图卷积对空间和时间信息分别建模,最后通过SoftMax分类器得到识别结果。该算法框架的优势是在图的构建过程中加强考虑双人的交互关系、非自然连接点间结构关系以及四肢灵活的运动特征。在NTU数据集上的测试表明,该算法得到了97.36%的正确识别率,该网络模型提高了双人交互行为特征的表征能力,取得了比现有模型更好的识别效果。  相似文献   

3.
针对当前基于二维图像的人体动作识别算法鲁棒性差、识别率不高等问题,提出了一种融合卷积神经网络和图卷积神经网络的双流人体动作识别算法,从人体骨架信息提取动作的时间与空间特征进行人体动作识别。首先,构建人体骨架信息时空图,利用引入注意机制的图卷积网络提取骨架信息的时间和空间特征;其次,构建骨架信息运动图,将卷积神经网络网络提取到骨架运动信息的特征作为时空图卷积网络所提取特征的时间和空间特征的补充;最后,将双流网络进行融合,形成基于双流的、注意力机制的人体动作识别算法。算法增强了骨架信息的表征能力,有效提高了人体动作的识别精度,在NTU-RGB+D60数据集上取得了比较好的结果,Cross-Subject和Cross-View的识别率分别为86.5%和93.5%,相比其他同类算法有一定的提高。  相似文献   

4.
对煤矿井下人员不安全行为进行实时视频监控及报警是提升安全生产水平的重要手段。煤矿井下环境复杂,监控视频质量不佳,导致常规基于图像特征或基于人体关键点特征的行为识别方法在煤矿井下应用受限。提出了一种基于交叉注意力机制的多特征融合行为识别模型,用于识别煤矿井下人员不安全行为。针对分段视频图像,采用3D ResNet101模型提取图像特征,采用openpose算法和ST-GCN(时空图卷积网络)提取人体关键点特征;采用交叉注意力机制对图像特征和人体关键点特征进行融合处理,并与经自注意力机制处理后的图像特征和人体关键点特征拼接,得到最终行为识别特征;识别特征经全连接层及归一化指数函数softmax处理后,得到行为识别结果。基于公共数据集HMDB51和UCF101、自建的煤矿井下视频数据集进行行为识别实验,结果表明:采用交叉注意力机制可使行为识别模型更有效地融合图像特征和人体关键点特征,大幅提高识别准确率;与目前应用最广泛的行为识别模型SlowFast相比,基于交叉注意力机制的多特征融合行为识别模型在HMDB51和UCF101数据集上的识别准确率分别提高1.8%,0.9%,在自建数据集上的识别准...  相似文献   

5.
为使人体骨骼这种非欧几里得结构数据更好地应用于人体行为识别任务中,将多种模态的特征融合后作为模型的输入,探讨关节的全局与局部的信息共现性,构建一个完整的空间信息推理模型。通过使用多层时间膨胀卷积网络提取骨骼数据在时间维度中的上下文依赖关系,使模型可以兼具捕获短期和长期的时序上下文依赖关系,有效提高时间信息的提取能力。提出的分层次时空图卷积神经网络模型在NTU-RGB+D-60和NTU-RGB+D-120数据集上均取得了较好的识别准确率。  相似文献   

6.
提取一种融合注意力和多尺度时空图网络的人体行为识别算法,在时空图网络卷积层融入通道-空间级联注意力机制以及在时间图卷积中增加多尺度卷积,利用改进的算法通过嵌入式平台在NTU RGB+D数据集的两个评估基准X-Sub和X-View上的准确率达到了89.1%和92.5%。实验结果表明,该方法具有可靠的精度,可以应用于嵌入式平台完成人体行为识别任务。  相似文献   

7.
得益于图卷积网络(GCN)对于处理非欧几里得数据有着非常好的效果,同时人体的骨骼点数据相对于RGB视频数据具有更好的环境适应性和动作表达能力.因此,基于骨骼点的人体动作识别方法得到了越来越多的关注和研究.将人体骨骼建模为时空图形的数据进行基于GCN模型的动作识别取得了显著的性能提升,但是现有的基于GCN的动作识别模型往往无法捕获动作视频流中的细节特征.针对此问题,本文提出了一种基于分段时间注意力时空图卷积骨骼点动作识别方法.通过将数据的时间帧进行分段处理,提取注意力,来提高模型对细节特征的提取能力.同时引入协调注意力模块,将位置信息嵌入注意力图中,这种方法增强了模型的泛化能力.在NTU-RGBD数据集和Kinetics-Skeleton数据集上的大量实验表明,本文所提模型可以获得比目前多数文献更高的动作识别精度,有更好的识别效果.  相似文献   

8.
最近,基于骨架的动作识别研究受到了广泛关注.因为图卷积网络可以更好地建模非规则数据的内部依赖,ST-GCN (spatial temporal graph convolutional network)已经成为该领域的首选网络框架.针对目前大多数基于ST-GCN的改进方法忽视了骨架序列所蕴含的几何特征.本文利用骨架关节几何特征,作为ST-GCN框架的特征补充,其具有视觉不变性和无需添加额外参数学习即可获取的优势,进一步地,利用时空图卷积网络建模骨架关节几何特征和早期特征融合方法,构成了融合几何特征的时空图卷积网络框架.最后,实验结果表明,与ST-GCN、2s-AGCN和SGN等动作识别模型相比,我们提出的框架在NTU-RGB+D数据集和NTU-RGB+D 120数据集上都取得了更高准确率的效果.  相似文献   

9.
赵艺 《计算机工程与科学》2022,44(12):2213-2219
针对时空图卷积网络ST-GCN中GCN的关节邻接图不易学习远端关节之间的语义信息和TCN在描述时间信息方面存在不足的问题,引入了数字签名预处理来增强数据,提出了基于路径签名的改进时空图卷积网络SSIT-GCN。首先将关节位置坐标的时间序列输入签名层进行数据预处理,在该层时间序列通过嵌入算法被转换为多维路径,将其划分为多条路径并计算每条路径的签名特征;其次重新设计GCN的关节邻接矩阵,并用反卷积来代替补零,以保持TCN的尺寸不变,还引入1×1的卷积核增加非线性来改进ST-GCN,得到改进时空图卷积网络SIT-GCN;最后用签名特征代替原始数据输入SIT-GCN,得到最终的输出结果。实验结果表明,基于路径签名的改进时空图卷积网络大大提高了训练精度,缩短了训练时间,对动态手势识别有较好的识别能力和识别速度。  相似文献   

10.
行为识别是当今计算机视觉领域的一个研究热点,是一项具有挑战性的任务.行为识别分析与其网络输入数据类型、网络结构、特征融合环节具有密切联系.目前,主流的行为识别网络输入数据为RGB图像和光流图像,网络结构主要以双流和3D卷积为主;而特征选择直接影响到识别的效率,多层次的特征融合工作还有很多问题有待解决.针对主流的双流卷积网络输入数据为RGB图像和光流图像的局限,利用低秩空间中稀疏特征能够有效捕捉视频中运动物体信息的特点,对网络输入数据进行补充.同时,针对网络中缺乏信息交互的特点,将深度网络中高层语义信息和低层细节信息结合起来共同识别行为动作,使时序分割网络性能更具优势.在行为识别数据集UCF101和HMDB51上取得了97.1%和76.7%的识别效果,较目前主流算法有了较大的提升.实验结果表明,该方法能够有效地提高行为识别的识别率.  相似文献   

11.
目的 针对行人轨迹预测问题,已有的几种结合场景信息的方法基于合并操作通过神经网络隐式学习场景与行人运动的关联,无法直观地解释场景对单个行人运动的调节作用。除此之外,基于图注意力机制的时空图神经网络旨在学习全局模式下行人之间的社会交互,在人群拥挤场景下精度不佳。鉴于此,本文提出一种场景限制时空图卷积神经网络(scene-constrained spatial-temporal graph convolutional neural network,Scene-STGCNN)。方法 Scene-STGCNN由运动模块、基于场景的微调模块、时空卷积和时空外推卷积组成。运动模块以时空图卷积提取局部行人时空特征,避免了时空图神经网络在全局模式下学习交互的局限性。基于场景的微调模块将场景信息嵌入为掩模矩阵,用来调节运动模块生成的中间运动特征,具备实际场景下的物理解释性。通过最小化核密度估计下真实轨迹的负对数似然,增强Scene-STGCNN输出的多模态性,减少预测误差。结果 实验在公开数据集ETH (包含ETH和HOTEL)和UCY (包含UNIV、ZARA1和ZARA2)上与其他7种主流方法进行比较,就平均值而言,相对于性能第2的模型,平均位移误差(average displacement error,ADE)值减少了12%,最终位移误差(final displacement error,FDE)值减少了9%。在同样的数据集上进行了消融实验以验证基于场景的微调模块的有效性,结果表明基于场景的微调模块能有效建模场景对行人轨迹的调节作用,从而减小算法的预测误差。结论 本文提出的场景限制时空图卷积网络能有效融合场景和行人运动,在学习局部模式下行人交互的同时基于场景特征对轨迹特征做实时性调节,相比于其他主流方法,具有更优的性能。  相似文献   

12.
由于从单一行为模态中获取的特征难以准确地表达复杂的人体动作,本文提出基于多模态特征学习的人体行为识别算法.首先采用两条通道分别提取行为视频的RGB特征和3D骨骼特征,第1条通道C3DP-LA网络由两部分组成:(1)包含时空金字塔池化(Spatial Temporal Pyramid Pooling,STPP)的改进3D CNN;(2)基于时空注意力机制的LSTM,第2条通道为时空图卷积网络(ST-GCN),然后,本文将提取到的两种特征融合使其优势互补,最后用Softmax分类器对融合特征进行分类,并在公开数据集UCF101和NTU RGB+D上验证.实验表明,本文提出的方法与现有行为识别算法相比具有较高的识别准确度.  相似文献   

13.
针对目前人脸表情识别准确率不高、网络模型参数复杂等问题,提出一种增强可分离卷积通道特征的人脸表情识别研究方法。设计了一种轻量型卷积神经网络结构提取表情特征,在卷积层中采用深度可分离卷积减少网络参数;引入了压缩激发模块,对不同通道的特征进行权重分配,在不同的卷积层采用不同的压缩率来增强网络对人脸表情的特征提取能力;将提取到的特征送入分类器实现人脸表情分类,在CK+和FER2013数据集上进行实验并分析。实验结果表明:与现有方法相比,提出的网络结构在CK+和FER2013数据集上,识别率分别提高了0.15个百分点和3.29个百分点,且网络模型参数量降低了75%。所提方法在降低网络参数的同时,提高了表情识别准确率。  相似文献   

14.
人体动作识别因其难以结合时空域信息成为计算机视觉方向中一项具有挑战性的任务.提出一个多注意力时空图卷积网络,其核心思想是根据时间序列信息和人体骨架的自然连接构建一个连通图,然后利用具有多注意力机制的时空图卷积网络自动地学习空间和时间特征并且优化该连通图,最后实现对人体动作的预测.引入图注意力模块,模型构建的图的拓扑结构...  相似文献   

15.
基于人体骨骼的动作识别因具有简洁、鲁棒的特点,近年来受到了广泛的关注.目前大部分基于骨骼的动作识别方法,如时空图卷积网络(ST-GCN),通过提取连续帧的时间特征和帧内骨骼关节的空间特征来区分不同的动作,取得了良好的效果.考虑人体运动中存在的因果性关系,提出了一种融合因果关系和时空图卷积网络的动作识别方法.针对计算关节力矩获取权重复杂的情况,根据关节之间的因果关系为骨骼图分配边权重,并将权重作为辅助信息增强图卷积网络,来提高驱动力较强的关节在神经网络中的权重,降低重要性低的关节的关注度,增强重要性高的关节的关注度.相比ST-GCN等方法,在Kinetics公开数据集上,所提方法无论是Top-1还是Top-5都有较大的提升,在构建的真实太极拳数据集上的识别精度达97.38%(Top-1)和99.79%(Top-5),证明了该方法可以有效地增强动作特征,提升识别的准确率.  相似文献   

16.
驾驶员危险驾驶行为是恶性交通事故发生的主要原因之一,因此识别驾驶员行为具有工程应用上的重要意义。目前,主流基于视觉的检测方法是对驾驶员行为的局部时空特征进行研究,针对全局空间特征及长时序相关性特征研究较少,这在一定程度上无法结合场景上下文信息对危险驾驶行为进行识别。为了解决上述问题,提出一种基于双路时空网络的驾驶员行为识别方法,整合不同时空通路的优点以提高行为特征丰富度。首先,使用一种改进的双流卷积神经网络(TSN)对时空信息进行表征学习,同时降低提取特征的稀疏性;其次,构建一种基于Transformer的串行时空网络补充长时序相关性信息;最后,联合双路时空网络进行融合决策,增强模型的鲁棒性。实验结果表明,所提方法在驾驶员疲劳检测数据集YawDD、驾驶员分心检测数据集SF-DDDD和最新驾驶员行为识别数据集SynDD1这3个公开数据集上分别取得99.85%、99.94%和98.77%的识别准确率,特别是在SynDD1上,与使用动作识别的网络MoviNet-A0相比识别准确率提升了1.64个百分点;消融实验结果也验证了该方法对驾驶员行为有较高的识别精度。  相似文献   

17.
LeNet-5卷积神经网络(CNN)虽然在手写数字识别上取得很好的分类效果,但在具有复杂纹理特征的数据集上分类精度不高。为提高网络在复杂纹理特征图像上分类的正确率,提出一种改进的LeNet-5网络结构。引入跨连思想,充分利用网络提取的低层次特征;把Inception V1模块嵌入LeNet-5卷积神经网络,提取图像的多尺度特征;输出层使用softmax函数对图像进行分类。在Cifar-10和Fashion MNIST数据集上进行的实验结果表明,改进的卷积神经网络在复杂纹理特征数据集上具有很好的分类能力。  相似文献   

18.
针对LSTM网络无法充分提取短时信息导致人体行为识别率不高的问题,提出一种基于上下文特征融合的卷积长短时记忆网络联合优化架构,用于仅具有RGB数据的行为识别网络。使用3D卷积核对输入的动作序列提取其空间特征和短时时间特征,并将多通道信息进行融合,将融合后的特征送入下一级卷积神经网络和LSTM层中进行长期时间的特征学习,获取上下文的长期时空信息,最后用Softmax分类器进行人体行为的分类。实验结果表明,在人体行为识别公开数据集UCF-101上,提出的基于上下文特征融合的卷积长短时记忆网络的平均识别准确率达93.62%,相比于未进行特征融合的卷积长短时记忆网络提高了1.28%,且平均检测时间降低了37.1%。  相似文献   

19.
为提高仅包含少量训练样本的图像识别准确率,利用卷积神经网络作为图像的特征提取器,提出一种基于卷积神经网络的小样本图像识别方法。在原始小数据集中引入数据增强变换,扩充数据样本的范围;在此基础上将大规模数据集上的源预训练模型在目标小数据集上进行迁移训练,提取除最后全连接层之外的模型权重和图像特征;结合源预训练模型提取的特征,采用层冻结方法,微调目标小规模数据集上的卷积模型,得到最终分类识别结果。实验结果表明,该方法在小规模图像数据集的识别问题中具有较高的准确率和鲁棒性。  相似文献   

20.
近年来,幽默识别逐渐成为自然语言处理领域的热点研究之一。已有的研究多聚焦于文本上的幽默识别,在多模态数据上开展此任务的研究相对较少,现有方法在学习模态间交互信息上存在不足。该文提出了基于注意力机制的模态融合模型,首先对单模态上下文进行独立编码,得到单一模态的特征向量;然后将注意力机制作用于两种模态的特征序列,使用层级注意力结构捕获多模态信息在段落上下文中的关联与交互。该文在UR-FUNNY公开数据集上进行了实验,相比之前最优结果在精确率上提升了1.37%。实验表明,该文提出的模型能很好地对多模态上下文进行建模,引入多模态交互信息和段落上下文信息可提高幽默识别的性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号