共查询到19条相似文献,搜索用时 62 毫秒
1.
本文针对人体行为识别模型中鉴别能力有限的问题,同时避免双流中计算光流的较大时间成本,提出基于通道注意力机制和三维卷积时空注意力模型的行为识别方法。首先,该卷积网络模型使用ResNeXt残差模块,利用三维卷积核有效地提取视频帧时空特征。然后,在此基础上给每个残差模块增加通道注意力机制学习不同特征图的权重,进而形成基于通道域的注意力权重,增强网络结构对人体行为的表征能力。最后,在UCF-101和HMDB-51数据集上,通过交叉熵损失函数训练不同网络深度的行为分类模型。实验结果表明,该模型可以有效提取视频中的时空特征,并在人体行为识别任务中有着较高效率和优秀的准确度。 相似文献
2.
连续手语识别的难点之一是手语数据中存在时空维度的冗余信息,以及手语数据与给定标签序列的对齐问题。因此,本文提出一种融合注意力机制和连接时序分类的连续手语识别模型,可以提取手语数据中彩色和深度视频片段的短期时空特征以及手部运动轨迹特征,将三种模态的特征融合后使用空间注意力加权并按照时间顺序输入到双向长短期记忆网络中进行时序建模,以获取长期时空特征,最后利用融合注意力机制和连接时序分类模型的解码网络以端到端的方式实现连续手语的准确识别。本模型在自行采集的中国手语数据集上进行测试,得到了高达0.935的准确率。 相似文献
3.
现有的视频行为识别方法在特征提取过程中,存在忽略各个特征之间相互作用关系的问题,对近似动作的区分效果不理想。因此,提出引入高阶注意力机制的人体行为识别方法。在深度卷积神经网络中引入高阶注意力模块,通过注意力机制建模和利用复杂和高阶的统计信息,对训练过程中特征图各个部分的权重进行重新分配,从而关注局部细粒度信息,产生有区别性的关注建议,捕获行为之间的细微差异。在UCF101和HMDB51这两个人体行为数据集上的实验结果表明,与现有方法相比,识别率得到了一定的提升,验证了所提出方法的有效性和鲁棒性,提高了对近似行为的辨别能力。 相似文献
4.
5.
6.
针对资源受限、高动态复杂场景下的红外弱小目标检测识别问题,基于时序注意力机制提出了一种轻量化的智能检测识别通用算法框架,使其具备自动提取和学习目标时序变化信息的能力。所提出的算法框架主要在基于卷积神经网络模型的单帧检测识别算法基础上,结合了基于循环神经网络相关模型构造的时序注意力模块,从而使对应算法模型具有自动关联多帧之间目标特征信息变化的功能。在相关红外弱小目标图像数据集上,通过对算法框架与其他方法进行对比,结果表明所提出算法框架显著提升了对红外弱小目标的检测识别准确率。 相似文献
7.
针对图像中累积的雨水严重干扰高层视觉算法运行的问题,提出了一种高效的图像去雨方法。该方法利用注意力机制设计了一个多尺度特征融合去雨网络。首先用一个预处理模块提取出雨水的浅层特征,再将浅层特征送入多尺度特征融合模块获得深层次的特征,在多尺度特征融合模块中引入注意力机制将这些特征进行融合,提高模块中使用平滑扩张卷积减少伪影问题。实验结果表明,该方法在公开雨水数据集Rain100 H、Rain100 L和Rain12上获得的峰值信噪比(PSNR)和结构相似比(SSIM)指标相比其它方法分别平均提高了0.93 dB和1.43%,获得了更清晰的去雨结果。 相似文献
8.
针对真实环境中由于复杂背景和物体遮挡、角度变换、行人姿态变化带来的行人重识别(person re-identification,person re-ID) 问题,设计了基于通道注意力(efficient channel attention,ECA) 机制和多尺度卷积(poly-scale convolution,PSConv) 的行人重识别模型。首先利用残差网络提取全局特征,在网络末端加入基于ECA机制及PSConv的特征融合模块,将全局特征和该模块提取的全局特征进行融合,之后将新的全局特征进行分割得到局部特征,最后将新的全局特征和分割得到的局部特征融合得到最终特征,并计算损失函数。模型在Market1501和DukeMTMC-reID 数据集上进行实验验证。在Market1501数据集中,Rank-1和平均精度均值分别达到94.3%和85.2%,在DukeMTMC-reID数据集中,上述两参数分别达到86.3%和75.4%。实验结果可知,该模型可应对实际环境中的复杂情况,增强行人特征的辨别力,有效提高行人重识别的准确率和精度。 相似文献
9.
针对轴承故障诊断模型输入信息单一,且变负载、噪声工况下诊断精度受限的问题,提出一种多尺度卷积神经网络结合自注意力特征融合机制(SA-MCNN)的故障诊断方法。该方法首先使用不同核大小的卷积层并行提取振动信号的多尺度信息后,采用自注意力特征融合机制,为并行的多尺度特征加权融合;最后根据融合后的特征,区分轴承的健康状态。实验结果表明,与其它故障诊断模型相比,SA-MCNN模型能够根据多尺度信息有效捕捉高质量的状态特征,在跨负载工况和噪声工况下表现出强鲁棒性。 相似文献
10.
入侵检测的难点之一是如何准确识别流量数据的异常特征。文中提出一个基于卷积神经网络(CNN)、双向长短期记忆网络(Bi-LSTM)和注意力(Attention)的时序流量异常检测模型,即BLAC。为提高BLAC模型的特征提取准确度,使用CNN提取流量数据中的空间特征,利用Bi-LSTM提取流量数据的完整时间特征,解决Attention难以对复杂时间序列数据位置信息进行编码的问题。通过对Attention权重的可视化分析,推测出异常在窗口中发生的时间点。使用雅虎的Webscope S5数据集进行对比试验,结果表明,BLAC模型的性能优于其他SOTA模型,其中关键指标召回率高达98.69%,表示二分类精确度的F1得分达到97.73%。 相似文献
11.
视频帧中复杂的环境背景、照明条件等与行为无关的视觉信息给行为空间特征带来了大量的冗余和噪声,一定程度上影响了行为识别的准确性.针对这一点,本文提出了一种循环区域关注单元以捕捉空间特征中与行为相关的区域视觉信息,并根据视频的时序特性又提出了循环区域关注模型.其次,本文又提出了一种能够突显整段行为视频序列中较为重要帧的视频帧关注模型,以减少异类行为视频序列间相似的前后关联给识别带来的干扰.最后,提出了一个能够端到端训练的网络模型:基于循环区域关注和视频帧关注的视频行为识别网络(Recurrent Region Attention and Video Frame Attention based video action recognition Network,RFANet).在两个视频行为识别基准UCF101数据集和HMDB51数据集上的实验表明,本文提出的端到端网络RFANet能够可靠地识别出视频中行为的所属类别.受双流结构启发,本文构建了双模态RFANet网络.在相同的训练环境下,双模态RFANet网络在两个数据集上达到了最优的性能. 相似文献
12.
针对现有通道注意力机制对各通道信息直接全局平均池化而忽略其局部空间信息的问题,该文结合人体行为识别研究提出了两种改进通道注意力模块,即矩阵操作的时空(ST)交互模块和深度可分离卷积(DS)模块。ST模块通过卷积和维度转换操作提取各通道时空加权信息数列,经卷积得到各通道的注意权重;DS模块首先利用深度可分离卷积获取各通道局部空间信息,然后压缩通道尺寸使其具有全局的感受野,接着通过卷积操作得到各通道注意权重,进而完成通道注意力机制下的特征重标定。将改进后的注意力模块插入基础网络并在常见的人体行为识别数据集UCF101和HDBM51上进行实验分析,实现了准确率的提升。 相似文献
13.
Conformer模型因其优越的性能,吸引了越来越多研究者的关注,逐渐成为语音识别领域的主流模型,但因其采用注意力机制从输入中提取信息,需要对输入序列中所有样本点进行交互计算,导致网络计算复杂度为输入序列长度的平方,因此在对长语音进行识别时需要消耗更多计算资源,其识别速度较慢。针对此问题,本文提出一种线性注意力机制的语音识别方法。首先,提出一种新型门控线性注意力结构将多头注意力改进为单头,将注意力计算复杂度改进为序列长度的线性关系,以有效减少注意力计算复杂度。其次,为了弥补使用线性注意力导致的模型建模能力下降,在线性注意力求解过程中,综合使用局部注意力和全局注意力,联合线性注意力编码,提高模型识别精度。最后,为了进一步提升模型识别效果,在注意力损失和连接时序分类(connectionist temporal classification, CTC)损失的基础上使用注意力引导损失和中间CTC损失融合建模目标函数。在中文普通话数据集AISHELL-1和英文LibriSpeech数据集上的实验结果表明,改进模型的性能明显优于基线模型,且模型显存消耗下降,训练、识别速度得到较大提升。 相似文献
14.
针对当前行为识别方法无法有效提取非欧式3维骨架序列的时空信息与缺乏针对特定关节关注的问题,该文提出了一种基于3维图卷积与注意力增强的行为识别模型.首先,介绍了3维卷积与图卷积的具体工作原理;其次,基于图卷积中可处理变长邻居节点的图卷积核,引入3维卷积的3维采样空间将2维图卷积核改进为具有3维采样空间的3维图卷积核,提出一种3维图卷积方法.针对3维采样空间内的邻居节点,通过3维图卷积核,实现了对骨架序列中时空信息的有效提取;然后,为增强对于特定关节的关注,聚焦重要的动作信息,设计了一种注意力增强结构;再者,结合3维图卷积方法与注意力增强结构,构建了基于3维图卷积与注意力增强的行为识别模型;最后,基于NTU-RGBD和MSR Action 3D骨架动作数据集开展了骨架行为识别的研究.研究结果进一步验证了基于3维图卷积与注意力增强的行为识别模型针对时空信息的有效提取能力及识别准确率. 相似文献
15.
16.
17.
该文受人脑视觉感知机理启发,在深度学习框架下提出融合时空双网络流和视觉注意的行为识别方法。首先,采用由粗到细Lucas-Kanade估计法逐帧提取视频中人体运动的光流特征。然后,利用预训练模型微调的GoogLeNet神经网络分别逐层卷积并聚合给定时间窗口视频中外观图像和相应光流特征。接着,利用长短时记忆多层递归网络交叉感知即得含高层显著结构的时空流语义特征序列;解码时间窗口内互相依赖的隐状态;输出空间流视觉特征描述和视频窗口中每帧标签概率分布。其次,利用相对熵计算时间维每帧注意力置信度,并融合空间网络流感知序列标签概率分布。最后,利用softmax分类视频中行为类别。实验结果表明,与其他现有方法相比,该文行为识别方法在分类准确度上具有显著优势。 相似文献
18.
19.
对于语音的情感识别,针对单层长短期记忆(LSTM)网络在解决复杂问题时的泛化能力不足,提出一种嵌入自注意力机制的堆叠LSTM模型,并引入惩罚项来提升网络性能.对于视频序列的情感识别,引入注意力机制,根据每个视频帧所包含情感信息的多少为其分配权重后再进行分类.最后利用加权决策融合方法融合表情和语音信号,实现最终的情感识别... 相似文献