首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 46 毫秒
1.
本文针对人体行为识别模型中鉴别能力有限的问题,同时避免双流中计算光流的较大时间成本,提出基于通道注意力机制和三维卷积时空注意力模型的行为识别方法。首先,该卷积网络模型使用ResNeXt残差模块,利用三维卷积核有效地提取视频帧时空特征。然后,在此基础上给每个残差模块增加通道注意力机制学习不同特征图的权重,进而形成基于通道域的注意力权重,增强网络结构对人体行为的表征能力。最后,在UCF-101和HMDB-51数据集上,通过交叉熵损失函数训练不同网络深度的行为分类模型。实验结果表明,该模型可以有效提取视频中的时空特征,并在人体行为识别任务中有着较高效率和优秀的准确度。  相似文献   

2.
陈莹  龚苏明 《电子与信息学报》2021,43(12):3538-3545
针对现有通道注意力机制对各通道信息直接全局平均池化而忽略其局部空间信息的问题,该文结合人体行为识别研究提出了两种改进通道注意力模块,即矩阵操作的时空(ST)交互模块和深度可分离卷积(DS)模块。ST模块通过卷积和维度转换操作提取各通道时空加权信息数列,经卷积得到各通道的注意权重;DS模块首先利用深度可分离卷积获取各通道局部空间信息,然后压缩通道尺寸使其具有全局的感受野,接着通过卷积操作得到各通道注意权重,进而完成通道注意力机制下的特征重标定。将改进后的注意力模块插入基础网络并在常见的人体行为识别数据集UCF101和HDBM51上进行实验分析,实现了准确率的提升。  相似文献   

3.
胡正平  邱悦  翟丰鋆  赵梦瑶  毕帅 《信号处理》2021,37(8):1470-1478
视频行为识别算法在特征提取过程中,存在未聚焦视频图像显著区域信息的问题,使模型分类效果不理想.为了提高网络区别关注的能力,提出融入注意力机制的视频多尺度时序行为识别算法模型.在视频长-短时序网络中分别融入通道-空间注意力和通道注意力模块,引入注意力机制使网络在训练过程中重新分配权重,捕捉视频内容与位置兴趣点,提高网络的...  相似文献   

4.
当前,人体行为识别在视频监控等多领域得到了重要的应用。针对传统的算法检测所呈现出的不足之处如准确性差、易受环境背景影响等问题,采用基于骨骼与关键点的方式进行行为识别。首先,使用人体姿态估计算法Openpose获取视频中人体各个关节点的坐标信息,然后通过时空图卷积神经网络(Spatial-Temporal Graph Convolution Networks,ST-GCN)进行人体行为识别。为了提高识别精度,在原有算法上加入通道注意力机制。实验结果表明,所提的算法在NTU-RGB+D数据集上,C-SUB和C-VIEW的top-1分别取得83.62%与90.86%的精度,相比ST-GCN分别提升了2.12%和2.56%。在自建数据集上,所提算法得到了78.33%的精度,相比ST-GCN的71.67%,提高了6.66%。  相似文献   

5.
融合双流三维卷积和注意力机制的动态手势识别   总被引:1,自引:0,他引:1  
得益于计算机硬件以及计算能力的进步,自然、简单的动态手势识别在人机交互方面备受关注。针对人机交互中对动态手势识别准确率的要求,该文提出一种融合双流3维卷积神经网络(I3D)和注意力机制(CBAM)的动态手势识别方法CBAM-I3D。并且改进了I3D网络模型的相关参数和结构,为了提高模型的收敛速度和稳定性,使用了批量归一化(BN)技术优化网络,使优化后网络的训练时间缩短。同时与多种双流3D卷积方法在开源中国手语数据集(CSL)上进行了实验对比,实验结果表明,该文所提方法能很好地识别动态手势,识别率达到了90.76%,高于其他动态手势识别方法,验证了所提方法的有效性和可行性。  相似文献   

6.
得益于计算机硬件以及计算能力的进步,自然、简单的动态手势识别在人机交互方面备受关注。针对人机交互中对动态手势识别准确率的要求,该文提出一种融合双流3维卷积神经网络(I3D)和注意力机制(CBAM)的动态手势识别方法CBAM-I3D。并且改进了I3D网络模型的相关参数和结构,为了提高模型的收敛速度和稳定性,使用了批量归一...  相似文献   

7.
8.
在深度学习技术的发展驱动下,智慧应用场景对文本识别任务提出了更高的要求。现有方法更加侧重构建强大的视觉特征提取网络,忽略了文本序列特征的提取能力。针对该问题,提出了一种基于层次自注意力的场景文本识别网络。通过融合卷积和自注意力可以建立并增强文本序列信息与视觉感知信息间的联系。由于视觉特征和序列特征在全局空间中的充分交互,有效地减小了复杂背景噪声对识别精度的影响,实现了对规则和不规则场景文本的鲁棒性预测。实验结果表明,所提方法在各数据集上均表现出竞争力。尤其是在CUTE数据集上可以实现81.4%,6.24 ms的最佳精度和速度,具备一定的应用潜力。  相似文献   

9.
10.
深度学习算法应用于SAR图像分类领域时存在模型训练时间较长且精度不够高等问题。对此,提出一种基于混合注意力机制的卷积神经网络模型,该模型基本模块分为主干分支和软分支。主干分支由残差收缩网络和改良之后的通道注意力机制组成,负责提取主要特征;软分支将下采样和上采样相结合,负责提取混合注意力权重,增强从输入到输出的映射能力。该模型在MSTAR数据集上取得了99.6%的识别率,且训练时间较短。噪声分析显示:该模型对椒盐噪声具有较强的鲁棒性。  相似文献   

11.
针对由于人脸姿势、光照不均、拍摄环境、拍摄设备等内外部因素造成图像分辨率低的问题,提出融合注意力机制的高分辨人脸识别图像重建模型.首先以低分辨率人脸图像对作为两个生成器输入,通过残差块和注意力模块堆叠网络提取人脸特征信息,进而生成高分辨率人脸图像.训练中使用一个鉴别器来监督两个生成器的训练过程.利用Adam算法对鉴别器...  相似文献   

12.
人们通常用形体动作,表情等对外界的刺激作出反应,传送某种信息,这些称为行为能力。近年来人工智能的研究取得了一定的进展,机器视觉是人工智能的一个重要分支,而人体行为识别就是其中的一个研究方面。机器视觉是通过图像摄取装置(比如摄像头)将摄取的目标转换成图像信号,然后对图像信号进行相关运算,抽取目标特征,根据判别的结果进行相应的操作过程。  相似文献   

13.
自从注意力机制在自然语言处理领域取得了巨大成功,其被引入了语音情感识别任务中,使各种语音情感识别模型的性能获得了提高。为了能在深度循环神经网络中更加高效地利用注意力机制,对传统的注意力机制进行了推广,提出了基于分段的注意力机制,并将其应用于深度循环神经网络中。在CASIA语音情感数据集上的实验结果证明,这一方法能够有效提高模型性能,并大幅提高模型训练速度。  相似文献   

14.
黄晨  裴继红  赵阳 《信号处理》2022,38(1):64-73
目前绝大多数的行人属性识别任务都是基于单张图像的,单张图像所含信息有限,而图像序列中包含丰富的有用信息和时序特征,利用序列信息是提高行人属性识别性能的一个重要途径.本文提出了结合时序注意力机制的多特征融合行人序列图像属性识别网络,该网络除了使用常见的空-时二次平均池化特征聚合和空-时平均最大池化特征聚合提取序列的特征外...  相似文献   

15.
Conformer模型因其优越的性能,吸引了越来越多研究者的关注,逐渐成为语音识别领域的主流模型,但因其采用注意力机制从输入中提取信息,需要对输入序列中所有样本点进行交互计算,导致网络计算复杂度为输入序列长度的平方,因此在对长语音进行识别时需要消耗更多计算资源,其识别速度较慢。针对此问题,本文提出一种线性注意力机制的语音识别方法。首先,提出一种新型门控线性注意力结构将多头注意力改进为单头,将注意力计算复杂度改进为序列长度的线性关系,以有效减少注意力计算复杂度。其次,为了弥补使用线性注意力导致的模型建模能力下降,在线性注意力求解过程中,综合使用局部注意力和全局注意力,联合线性注意力编码,提高模型识别精度。最后,为了进一步提升模型识别效果,在注意力损失和连接时序分类(connectionist temporal classification, CTC)损失的基础上使用注意力引导损失和中间CTC损失融合建模目标函数。在中文普通话数据集AISHELL-1和英文LibriSpeech数据集上的实验结果表明,改进模型的性能明显优于基线模型,且模型显存消耗下降,训练、识别速度得到较大提升。  相似文献   

16.
17.
对于语音的情感识别,针对单层长短期记忆(LSTM)网络在解决复杂问题时的泛化能力不足,提出一种嵌入自注意力机制的堆叠LSTM模型,并引入惩罚项来提升网络性能.对于视频序列的情感识别,引入注意力机制,根据每个视频帧所包含情感信息的多少为其分配权重后再进行分类.最后利用加权决策融合方法融合表情和语音信号,实现最终的情感识别...  相似文献   

18.
随着人口老龄化的到来,为了避免发生意外事故,对老人日常活动行为进行识别和监测的安全监护系统的需求不断增长.传统的基于摄像头拍摄或者穿戴式传感器的活动状态监测系统存在着隐私保护和使用不方便等不足.为此,本文设计一种基于红外阵列传感器的人体行为识别系统.该系统通过检测环境中的温度分布和变化情况识别人体行为,不需要在老人身上佩戴任何设备,尺寸小易于安装,在黑暗环境中可正常工作,且由于采集到的是低分辨率信息,不会造成隐私泄露,对比传统方案具有明显优势.从采集到的温度分布信息中提取特征并采用K最近邻(K-Nearest Neighbor,KNN)算法实现了\  相似文献   

19.
该文受人脑视觉感知机理启发,在深度学习框架下提出融合时空双网络流和视觉注意的行为识别方法。首先,采用由粗到细Lucas-Kanade估计法逐帧提取视频中人体运动的光流特征。然后,利用预训练模型微调的GoogLeNet神经网络分别逐层卷积并聚合给定时间窗口视频中外观图像和相应光流特征。接着,利用长短时记忆多层递归网络交叉感知即得含高层显著结构的时空流语义特征序列;解码时间窗口内互相依赖的隐状态;输出空间流视觉特征描述和视频窗口中每帧标签概率分布。其次,利用相对熵计算时间维每帧注意力置信度,并融合空间网络流感知序列标签概率分布。最后,利用softmax分类视频中行为类别。实验结果表明,与其他现有方法相比,该文行为识别方法在分类准确度上具有显著优势。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号