首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
近年来,基于骨架的人体动作识别任务因骨架数据的鲁棒性和泛化能力而受到了广泛关注。其中,将人体骨骼建模为时空图的图卷积网络取得了显著的性能。然而图卷积主要通过一系列3D卷积来学习长期交互联系,这种联系偏向于局部并且受到卷积核大小的限制,无法有效地捕获远程依赖关系。该文提出一种协作卷积Transformer网络(Co-ConvT),通过引入Transformer中的自注意力机制建立远程依赖关系,并将其与图卷积神经网络(GCNs)相结合进行动作识别,使模型既能通过图卷积神经网络提取局部信息,也能通过Transformer捕获丰富的远程依赖项。另外,Transformer的自注意力机制在像素级进行计算,因此产生了极大的计算代价,该模型通过将整个网络分为两个阶段,第1阶段使用纯卷积来提取浅层空间特征,第2阶段使用所提出的ConvT块捕获高层语义信息,降低了计算复杂度。此外,原始Transformer中的线性嵌入被替换为卷积嵌入,获得局部空间信息增强,并由此去除了原始模型中的位置编码,使模型更轻量。在两个大规模权威数据集NTU-RGB+D和Kinetics-Skeleton上进行实验验证,该模型分...  相似文献   

2.
针对骨架行为识别对时空特征提取不充分以及难以捕捉全局上下文信息的问题,研究了一种将时空注意力机制和自适应图卷积网络相结合的人体骨架行为识别方案。首先,构建基于非局部操作的时空注意力模块,辅助模型关注骨架序列中最具判别性的帧和区域;其次,利用高斯嵌入函数和轻量级卷积神经网络的特征学习能力,并考虑人体先验知识在不同时期的影响,构建自适应图卷积网络;最后,将自适应图卷积网络作为基本框架,并嵌入时空注意力模块,与关节信息、骨骼信息以及各自的运动信息构建双流融合模型。该算法在NTU RGB+D数据集的两种评价标准下分别达到了90.2%和96.2%的准确率,在大规模的数据集Kinetics上体现出模型的通用性,验证了该算法在提取时空特征和捕捉全局上下文信息上的优越性。   相似文献   

3.
针对当前行为识别方法无法有效提取非欧式3维骨架序列的时空信息与缺乏针对特定关节关注的问题,该文提出了一种基于3维图卷积与注意力增强的行为识别模型.首先,介绍了3维卷积与图卷积的具体工作原理;其次,基于图卷积中可处理变长邻居节点的图卷积核,引入3维卷积的3维采样空间将2维图卷积核改进为具有3维采样空间的3维图卷积核,提出一种3维图卷积方法.针对3维采样空间内的邻居节点,通过3维图卷积核,实现了对骨架序列中时空信息的有效提取;然后,为增强对于特定关节的关注,聚焦重要的动作信息,设计了一种注意力增强结构;再者,结合3维图卷积方法与注意力增强结构,构建了基于3维图卷积与注意力增强的行为识别模型;最后,基于NTU-RGBD和MSR Action 3D骨架动作数据集开展了骨架行为识别的研究.研究结果进一步验证了基于3维图卷积与注意力增强的行为识别模型针对时空信息的有效提取能力及识别准确率.  相似文献   

4.
针对当前行为识别方法无法有效提取非欧式3维骨架序列的时空信息与缺乏针对特定关节关注的问题,该文提出了一种基于3维图卷积与注意力增强的行为识别模型。首先,介绍了3维卷积与图卷积的具体工作原理;其次,基于图卷积中可处理变长邻居节点的图卷积核,引入3维卷积的3维采样空间将2维图卷积核改进为具有3维采样空间的3维图卷积核,提出一种3维图卷积方法。针对3维采样空间内的邻居节点,通过3维图卷积核,实现了对骨架序列中时空信息的有效提取;然后,为增强对于特定关节的关注,聚焦重要的动作信息,设计了一种注意力增强结构;再者,结合3维图卷积方法与注意力增强结构,构建了基于3维图卷积与注意力增强的行为识别模型;最后,基于NTU-RGBD和MSR Action 3D骨架动作数据集开展了骨架行为识别的研究。研究结果进一步验证了基于3维图卷积与注意力增强的行为识别模型针对时空信息的有效提取能力及识别准确率。  相似文献   

5.
动作识别被广泛应用于诸多领域,如智能监控、人机交互、智能医疗、机器人技术等。近年来,随着智慧城市建设的不断发展,人类动作识别的相关研究越来越受到学术界的关注。然而目前的基于神经网络的动作识别算法普遍存在着准确率低,鲁棒性差等问题。虽然这种传统的方法取得了良好的效果,但这种方法的效果与实际应用之间依然存在差距。为了进一步解决这些问题,设计了一个更有效的动作识别模型,即基于软邻接的时空图卷积神经网络的动作识别算法(spatial temporal soft adjacency graph convolution network, STS-GCN)。首先,将图卷积网络扩展到时间域,并在骨架节点之间引入潜在的相邻关系,从而可以自动学习空间时间维度上的隐藏动作信息;其次,模型引入了一种简易的空间注意机制,使其具有鉴别具有判别力的空间区域的能力,从而获得更好的识别效果;最后对该模型在NTU-RGB+D数据集上进行了实验。实验结果表明,与其他几个现有模型的结果相比,模型测试的识别准确率有所提高。这说明了引入软邻接矩阵的时空图卷积神经网络有利于模型提高动作识别算法的效果。  相似文献   

6.
当前,人体行为识别在视频监控等多领域得到了重要的应用。针对传统的算法检测所呈现出的不足之处如准确性差、易受环境背景影响等问题,采用基于骨骼与关键点的方式进行行为识别。首先,使用人体姿态估计算法Openpose获取视频中人体各个关节点的坐标信息,然后通过时空图卷积神经网络(Spatial-Temporal Graph Convolution Networks,ST-GCN)进行人体行为识别。为了提高识别精度,在原有算法上加入通道注意力机制。实验结果表明,所提的算法在NTU-RGB+D数据集上,C-SUB和C-VIEW的top-1分别取得83.62%与90.86%的精度,相比ST-GCN分别提升了2.12%和2.56%。在自建数据集上,所提算法得到了78.33%的精度,相比ST-GCN的71.67%,提高了6.66%。  相似文献   

7.
针对ML-GCN中全局最大池化所获得的图像特征对特定类别在不同图像区域上缺乏针对性和丢失图像局部特征信息的问题,提出了类特定残差注意力(CSRA)模块.该模块可以有效捕获不同类别对象所占据的不同空间区域.此外,将提出的类特定残差注意力与图卷积神经网络相结合,提出了基于多头类特定残差注意力与图卷积的多标签图像分类算法(ML-CSRA).首先利用卷积神经网络提取通用的图像特征图,之后将提出的类特定残差注意力扩展为多头形式,并将其应用于通过卷积神经网络提取到的通用图像特征图,提取各个区域对应不同类别的特征.最后将图卷积神经网络提取的标签相关特征与多头类特定残差注意力提取的图像特征结合,得到最后的多标签图像分类结果.在MS-COCO 2014和VOC-2007数据集上的实验结果表明提出算法在所有评估指标上都优于目前已有算法.  相似文献   

8.
针对传统面部识别方法中网络模型重要通道特征关注度欠缺、参数过多、准确率低等问题,提出一种基于改进VGG19网络(Visual Geometry Group, VGG19)的表情识别方法。该方法在VGG19网络的每组卷积层之间都加入一个新模块,新模块由三方面组成:SE注意力机制模块、BN批量归一化层、PReLU激活函数,SE模块中的原激活函数ReLU替换为Mish激活函数,加速收敛,提升网络对面部细节关注度;对全连接层参数量进行修改,去除第一层全连接层和第二层全连接层,最大池化层替换为全局混合池化,达到卷积层加全局混合池化、一层全连接层的组合。原网络中全连接层节点数由[4 096,4 096,1 000]改进为[512,7],改善了VGG网络庞大参数量的特征,增加抗过拟合效果。在CK+和FER-2013表情数据集上准确率分别达到98.990%和73.112%,证明所提方法具有较好的泛化性和准确率。  相似文献   

9.
当前行为识别方法在不同视角下的识别准确率较低,该文提出一种视角无关的时空关联深度视频行为识别方法。首先,运用深度卷积神经网络的全连接层将不同视角下的人体姿态映射到与视角无关的高维空间,以构建空间域下深度行为视频的人体姿态模型(HPM);其次,考虑视频序列帧之间的时空相关性,在每个神经元激活的时间序列中分段应用时间等级池化(RP)函数,实现对视频时间子序列的编码;然后,将傅里叶时间金字塔(FTP)算法作用于每一个池化后的时间序列,并加以连接产生最终的时空特征表示;最后,在不同数据集上,基于不同方法进行了行为识别分类测试。实验结果表明,该文方法(HPM+RP+FTP)提高了不同视角下深度视频识别准确率,在UWA3DII数据集中,比现有最好方法高出18%。此外,该文方法具有较好的泛化性能,在MSR Daily Activity3D数据集上得到82.5%的准确率。  相似文献   

10.
关节点行为识别由于其不易受外观影响、能更好地避免噪声影响等优点备受国内外学者的关注,但是目前该领域的系统归纳综述较少.该文综述了基于深度学习的关节点行为识别方法,按照网络主体的不同将其划分为卷积神经网络(CNN)、循环神经网络(RNN)、图卷积网络和混合网络.卷积神经网络、循环神经网络、图卷积网络分别擅长处理的关节点数据表示方式是伪图像、向量序列、拓扑图.归纳总结了目前国内外常用的关节点行为识别数据集,探讨了关节点行为识别所面临的挑战以及未来研究方向,高精度前提下快速行为识别和实用化仍然需要继续推进.  相似文献   

11.
针对无法对面部表情进行精确识别的问题,提出了基于ResNet50网络融合双线性混合注意力机制的网络模型。针对传统池化算法造成图像特征提取残缺、模糊等问题,提出了一种基于Average-Pooling算法的自适应池化权重算法,同时基于粒子群算法对卷积神经网络模型超参数进行自适应调节,从而进一步提升模型识别精度。基于改进的网络模型,设计了一款实时面部表情识别系统。经验证,在Fer2013数据集和CK+数据集上,改进的模型在测试集中的识别精度分别为73.51%和99.86%。  相似文献   

12.
本文根据羊不同行为的特征,提出一种基于改进卷积神经网络的羊行为识别方法。构建卷积核尺寸全部为3×3的卷积神经网络(Convolutional Neural Networks, CNN);使用缩放指数线性单元(scaled exponential linear units,SeLU)为激活函数,使网络具有自归一化功能;以最大池化(max pooling)为下采样;在全连接层中采用丢弃(Alpha dropout)操作提高网络泛化能力,使用余弦退火动态学习率进行动态微调;进一步使用softmax分类器作为网络输出,最终构建出羊行为识别网络模型。实验结果表明:本文方法对羊进食行为识别准确率达到90.30%,站立行为识别准确率达到94.16%。坐卧行为识别准确率能达到91.90%。该模型能够实现羊不同行为的监测,且有较高的准确性,有助于提高畜牧管理效率和养殖智能化水平。  相似文献   

13.
陈莹  龚苏明 《电子与信息学报》2021,43(12):3538-3545
针对现有通道注意力机制对各通道信息直接全局平均池化而忽略其局部空间信息的问题,该文结合人体行为识别研究提出了两种改进通道注意力模块,即矩阵操作的时空(ST)交互模块和深度可分离卷积(DS)模块。ST模块通过卷积和维度转换操作提取各通道时空加权信息数列,经卷积得到各通道的注意权重;DS模块首先利用深度可分离卷积获取各通道局部空间信息,然后压缩通道尺寸使其具有全局的感受野,接着通过卷积操作得到各通道注意权重,进而完成通道注意力机制下的特征重标定。将改进后的注意力模块插入基础网络并在常见的人体行为识别数据集UCF101和HDBM51上进行实验分析,实现了准确率的提升。  相似文献   

14.
关节点行为识别由于其不易受外观影响、能更好地避免噪声影响等优点备受国内外学者的关注,但是目前该领域的系统归纳综述较少。该文综述了基于深度学习的关节点行为识别方法,按照网络主体的不同将其划分为卷积神经网络(CNN)、循环神经网络(RNN)、图卷积网络和混合网络。卷积神经网络、循环神经网络、图卷积网络分别擅长处理的关节点数据表示方式是伪图像、向量序列、拓扑图。归纳总结了目前国内外常用的关节点行为识别数据集,探讨了关节点行为识别所面临的挑战以及未来研究方向,高精度前提下快速行为识别和实用化仍然需要继续推进。  相似文献   

15.
目前,基于卷积神经网络的动态手势识别方法取得了巨大的进展,但神经网络模型具有很大的参数量,计算成本和内存占用较大,很难应用在设备资源有限的场合.以减少计算量和参数量为出发点,提出了一种轻量级(2+1)D卷积结构.该结构在(2+1)D卷积结构的基础上,将其中的3D卷积替换为3D深度可分离卷积,在输出向量维度不变的前提下,进一步减少了(2+1)D卷积结构的计算量和参数量.为了弥补时空特征在表征动态手势上的不足,融合注意力机制模块,专注于对运动特征的提取,结合轻量级(2+1)D卷积结构提取的时空特征,可以更好地表征手势动作.实验结果表明,注意力机制模块的插入,在不增加太多额外计算和空间成本的前提下,进一步提高了模型的识别精度.基于以上结构构建的模型,在20BN-jester、EgoGesture和IsoGD数据集上分别取得了96.62%、91.83%和60.1%的识别精度,模型参数量和浮点计算量分别为5.05M和12.81GFLOPs,相比于其他手势识别模型,计算成本和内存占用大大减少,实时手势识别速度达到每秒70帧.  相似文献   

16.
群组行为识别是对个体的共同行为进行识别。群组行为与群组状态密不可分,也与群组内个体时空特征息息相关,时空信息既能描述空间语义信息,更能反映行为的动态变化情况。针对有效精细的时空特征提取问题,本文提出了一种基于注意力机制和深度时空信息的群组行为识别方法。首先将ShuffleAttention引入双流特征提取网络中,有效提取个体外观和运动信息。其次使用改进Non-Local网络提取深度时序信息。最后将个体特征送到图卷积网络中进行空间交互信息建模,得到群组行为识别结果。在CAD和CAED数据集上的准确率达到了93.6%和97.8%,在CAD数据集上与凝聚群组搜索算法(CCS)和成员关系图(ARG)方法相比,准确率提高了1.2%和2.6%,这表明本文方法能有效提取深度时空特征,提升群组行为识别准确率。  相似文献   

17.
为了解决道路巡检系统光学传感器采集的裂缝图像中颜色特征不明显且尺寸不规则造成检测精度不高、泛化能力不足的问题,提出改进YOLOv5s的裂缝检测算法。将结合深度可分离卷积(Depthwise Separable Convolution, DSC)的全局注意力(Global Attention Mechanism, GAM)引入主干特征提取网络,在降低注意力复杂度的同时获得丰富的跨维度特征,增强了裂缝的识别能力;采用空间金字塔软池化网络(Spatial Pyramid Softpool, SPSF),通过Softpool池化保留多维语义以减少信息弥散,提高了边界框回归的准确性;在颈部特征增强网络,运用空洞深度可分离卷积(Atrous DSC)进行下采样,通过扩大感受野加强深层和浅层信息的聚合能力,提高裂缝识别的泛化性。经过在自制道路裂缝数据集上的实验,相较于YOLOv5s,改进算法的mAP提高2.2%,有效提升了道路裂缝检测的准确性和对不同背景下裂缝识别的泛化能力。  相似文献   

18.
罗元  李丹  张毅 《半导体光电》2020,41(3):414-419
手语识别广泛应用于聋哑人与正常人之间的交流中。针对手语识别任务中时空特征提取不充分而导致识别率低的问题,提出了一种新颖的基于时空注意力的手语识别模型。首先提出了基于残差3D卷积网络(Residual 3D Convolutional Neural Network,Res3DCNN)的空间注意力模块,用来自动关注空间中的显著区域;随后提出了基于卷积长短时记忆网络(Convolutional Long Short-Term Memory,ConvLSTM)的时间注意力模块,用来衡量视频帧的重要性。所提算法的关键在于在空间中关注显著区域,并且在时间上自动选择关键帧。最后,在CSL手语数据集上验证了算法的有效性。  相似文献   

19.
针对人体骨架行为识别中因时空特征提取不充分、网络计算量大和计算效率低导致相似行为识别结果不理想的问题,提出一种基于密集残差移位图卷积网络的骨架行为识别算法。使用姿态估计算法提取人体骨架信息,经坐标向量计算得到骨架的关节、骨骼以及各自的运动信息,并分别输入网络中。在移位图卷积模块间引入密集残差结构,提高网络性能和提取时空特征的效率。所提算法可应用于日常行为场景,例如:行走、坐下、站起、脱衣服、穿衣服、扔以及摔倒等。其在自制数据集上的识别准确率达到81.7%,在NTU60 RGB+D数据集两种评估标准下的准确率也分别达88.1%和95.3%,验证了算法具有优秀的识别精度。  相似文献   

20.
针对卷积神经网络和图卷积网络的两类算法在校园暴力行为识别中识别速度和识别率不高的问题,本文提出一种结合多信息流数据融合和时空注意力机制的轻量级图卷积网络。以人体骨架为研究对象,首先融合关节点和骨架相关的多信息流数据,通过减少网络参数量来提高运算速度;其次构建基于非局部运算的时空注意力模块关注最具动作判别性的关节点,通过减少冗余信息提高识别准确率;接着构建时空特征提取模块获得关注关节点时空关联信息;最终由Softmax层实现动作识别。实验结果表明:在校园安防实景中对拳打、脚踢、倒地、推搡、打耳光和跪地6种典型动作识别准确率分别为94.5%,97.0%,98.5%,95.0%,94.5%,95.5%,识别速度最大为20.6 fps。在UCF101数据集上对比两类基准网络,识别速度和准确率均有提升,验证了方法对其他动作的通用性,可以满足对校园典型暴力行为识别的实时性和可靠性要求。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号