首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 0 毫秒
1.
针对已有的动作识别方法的特征提取不足、识别率较低等问题,结合双流网络、3D卷积神经网络和卷积LSTM网络的优势,提出一种融合模型. 该融合模型为了更好地提取人体动作特征,采用SSD目标检测方法将人体目标分割出作为局部特征和原视频的全局特征共同训练,并采用后期融合进行分类; 将3D卷积块注意模块采用shortcut结构的方式融合到3D卷积神经网络中,加强神经网络对视频的通道和空间特征提取; 并且通过将神经网络中部分3D卷积层替换为ConvLSTM层的方法,更好地得到视频的时序关系. 实验在公开的KTH数据集  相似文献   

2.
为解决少样本场景下毫米波雷达人体动作识别过程中卷积神经网络(CNN)易出现过拟合、训练效果不理想等问题,提出一种融入时序注意力机制的CNN和视觉转换器模型结合的方法.该方法首先对收到的雷达回波信息做预处理,再通过短时傅里叶变换(STFT)进行时频分析得到时频图,最终将带有特征信息的图像送入融合的网络模型中进行分类识别.实验结果表明,与其他4种模型的方法相比,本文提出的方法识别准确率最高,识别效果可达到91.57%.该方法能有效地增强网络对于时间维度建模,增加了网络收敛速度,达到了提升识别准确率的效果.  相似文献   

3.
在解决行人再识别技术中的姿态变化、遮挡、背景等问题时,为了提高遮挡下的行人再识别性能,提出一种基于注意力机制和姿态识别的行人再识别方法。采用全局注意网络和姿态识别网络分别提取行人图像的全局特征、关节点位置热力图和对应的置信度,通过计算得到行人13个关节点和融合所有关节点的局部特征,对全局特征和14个局部特征分别进行行人分类训练,利用多任务学习多个损失共同监督网络的优化。测试时,将关键点特征和全局特征融合后,计算行人的距离排序。在Market1501和DukeMTMC-reID数据集上测试的Rank-1/mAP指标分别达到了85.1%/75.6%和64.3%/55.3%。结果表明,所设计方法具备抗姿态变化、遮挡和背景的能力,同时具有较高的识别能力和识别精度。  相似文献   

4.
通道、空间和时间信息是视频动作识别的3种互补且关键的信息类型。现有的2D CNN方法计算成本低,但对于时空信息的捕获相对不足;3D CNN方法可以实现良好的性能,但计算量较大。针对上述问题,提出一个可以嵌入到2D CNN中通用且有效的局部时空通道注意力(Local-STCA)模块来进行人体动作识别。Local-STCA模块由局部通道注意力(LCA)和局部时空注意力(LSTA)组成,LCA在时序上利用对通道之间的相关性进行显示的建模来校准通道特征,LSTA采用两个单通道3D卷积层和混合空洞卷积来提取多尺度时空特征。由主干网络(ResNet50+BiLSTM)和Local-STCA模块组成局部注意力网络(Local-STCANet),在数据集UCF-101上进行大量的实验。实验结果表明,Local-STCANet在主干网上略微增加计算量的同时比其他2D CNN方法以及注意力模型具有更高的精度。  相似文献   

5.
针对现有的视觉位置识别方法在图像外观变化和视角变化时准确性和鲁棒性表现不佳的问题,提出了一个与注意力机制结合的视觉位置识别方法。首先,采用在大型位置数据集上预训练的卷积神经网络HybridNet提取特征。然后,运用上下文注意力机制对图像不同区域分配权重值,构建基于多层卷积特征的注意力掩码。最后,将掩码与卷积特征结合,构建融合注意力机制的图像特征描述符,从而提高特征的鲁棒性。在两个典型位置识别数据集上做测试实验,结果表明结合注意力机制的方法可以有效区分图像中与位置识别有关的区域和无关的区域,提高在外观变化和视角变化场景中识别的准确性和鲁棒性。  相似文献   

6.
微表情是人们试图隐藏自己真实情绪时不由自主泄露出来的面部表情,是近年来情感计算领域的热点研究领域.微表情是一种细微的面部运动,难以捕捉其细微变化的特征.本文基于交叉注意力多尺度ViT (CrossViT)在图像分类领域的优异性能以及能够捕捉细微特征信息的能力,将CrossViT作为主干网络,对网络中的交叉注意力机制进行改进,提出了DA模块(Dual Attention)以扩展传统交叉注意力机制,确定注意力结果之间的相关性,从而提升了微表情识别精度.本网络从三个光流特征(即光学应变、水平和垂直光流场)中学习,这些特征是由每个微表情序列的起始帧和峰值帧计算得出,最后通过Softmax进行微表情分类.在微表情融合数据集上,UF1和UAR分别达到了0.727 5和0.727 2,识别精度优于微表情领域的主流算法,验证了本文提出网络的有效性.  相似文献   

7.
为了有效提取心电信号 (ECG) 的时空特征和提高分类准确性,提出基于深度学习的并行架构心电分类模型. 该模型采用基于GCA Block和GTSA Block模块实现多路特征融合的时空注意力机制. 使用双向长短时记忆网络和卷积神经网络作为基特征提取器,分别捕捉心电信号序列数据的前后依赖关系和不同尺度上的局部相关特征,实现对5种不同类型的心电信号的自动分类. 在MIT-BIH数据集上验证的结果表明,该方法对5种不同心电信号的总体分类准确率、特异性、敏感度、精确度和Macro-F1分别为99.50%、99.61%、96.20%、98.02%和97.08%. 相较于其他心电分类模型,该模型不仅能够有效地缩短网络模型深度,防止模型过拟合,而且能够更准确地提取心电信号的时空特征,获得更好的分类性能.  相似文献   

8.
为了识别RGB-D视频中的人体动作,针对视频中运动信息利用不充分的问题,提出了一种基于运动学动态图的人体动作识别方法。首先利用RGB视频序列和对应的深度图序列生成场景流特征图,基于场景流特征图计算运动学特征图序列,其中包含丰富的运动信息;使用分层排序池化将运动学特征图序列编码为运动学动态图,同时将RGB视频序列编码为外观动态图,最后将运动学动态图和外观动态图输入到双流卷积网络进行人体动作识别。结果表明:基于运动学动态图和双流卷积网络的人体动作识别方法融合了外观信息和运动信息,不仅充分表征了视频的动态,而且使用了视频中具有丰富运动信息的运动学特征;在公开的数据集上对本方法进行验证,在M2I数据集和SBU Kinect Interaction数据集的动作识别率分别为91.8%和95.2%。  相似文献   

9.
变电站二次回路是二次高级集成业务的基础,采用图像识别技术对二次回路的自动特征识别、信息提取,可实现二次回路的智能运维业务。而变电站采集的图片环境背景杂乱、分辨率低以及失真,使得采用图像识别技术识别不规则文本极具挑战。因此,提出一种基于注意力机制的二次回路端子文本检测与识别方法。该方法主要包含预处理、文本检测和文本识别3个部分,其中文本识别部分提出一种时空嵌入编码方法,可以更好利用图片的位置信息。在训练过程中,相较未改进方法仅需要序列级的标注信息,而无需额外细粒度的字符级别框或分割掩码。最后,通过实际工作场景数据集证明该方法不仅易用、性能好,且在识别精度上也优于其他方法。  相似文献   

10.
为了探究图像底层视觉特征与高层语义概念存在的差异,提出可以确定图像关注重点、挖掘更高层语义信息以及完善描述句子的细节信息的图像语义描述算法. 在图像视觉特征提取时提取输入图像的全局-局部特征作为视觉信息输入,确定不同时刻对图像的关注点,对图像细节的描述更加完善;在解码时加入注意力机制对图像特征加权输入,可以自适应选择当前时刻输出的文本单词对视觉信息与语义信息的依赖权重,有效地提高对图像语义描述的性能. 实验结果表明,该方法相对于其他语义描述算法效果更有竞争力,可以更准确、更细致地识别图片中的物体,对输入图像进行更全面地描述;对于微小的物体的识别准确率更高.  相似文献   

11.
12.
针对使用深度传感器采集的深度图像序列,在3D运动历史图像的基础上提出一种基于Gabor特征提取和多任务学习的人体动作识别方法。为了解决基于轮廓特征对运动历史图像不能充分表达的问题,引入Gabor滤波器组对3D运动历史图像进行特征提取;为了刻画在不同时间维度上人体动作的变化过程,引入时域金字塔对动作视频进行划分;最后,为了挖掘动作识别任务间的相关性,采用多任务学习训练动作分类模型。实验结果表明,该方法可有效提高动作识别的准确率。  相似文献   

13.
进入新世纪,科技的发展造就了大数据的爆发式增长,这为基于深度学习方法来研究地质学问题奠定了基础。卷积神经网络已被用于地质填图,但卷积操作关注的是数据空间维度的特征信息,无法建模不同通道维度之间的依赖关系。为了发掘不同通道的输入数据和特征图之间的关联性,提升智能地质填图的效果,本文在全卷积神经网络Unet中引入通道注意力模块——挤压—激励模块(Squeeze and Excitation Block, SE Block),提出了一种新网络SE—Unet,并将该网络应用于湖南省鲤鱼塘地区的1∶5万智能地质填图。实验结果表明,相比于Unet, SE—Unet智能地质填图的总体精确度由81.58%提高到了83.72%,可视化结果显示,两种原来难以识别的地质单元被大致识别出来。这验证了通道注意力机制能够提升网络的学习和表征能力,也说明了本方法对于提升智能地质填图效果的可行性与有效性。  相似文献   

14.
针对现有答案选择方法语义特征提取不充分和准确性差的问题,引入自注意力和门控机制,提出了一种答案选择模型.该模型首先在问题和答案文本内部利用层叠自注意力进行向量表示,并在自注意力模块中让单词和位置分开进行多头注意力;然后将答案句通过卷积神经网络(Convolutional neural network,CNN)得到的向量...  相似文献   

15.
针对视频行人重识别任务中存在的行人外观、遮挡等问题,研究并设计了一个基于金字塔分割和注意力机制的视频行人重识别模型。首先,为了增强图模型对行人局部特征的识别能力,提出了多个尺度的水平金字塔分割方法,将各特征分别分割成不同大小的区域,并池化成统一尺寸后输入图模型。另外,鉴于简单的时空注意模块容易因遮挡破坏行人特征,因此使用时空相关注意力方法改进时空注意模块,逐步学习并聚合空间局部信息,同时在时序上相互作用,抑制行人干扰特征并增强判别特征。将模型在Mars和DukeMTMC-VideoReID两个数据集上进行了评估,实验结果证实了文中提出方法的有效性。  相似文献   

16.
WiFi信道状态信息(CSI)被广泛应用于被动式(非侵入式)人体行为判断,为使用现有商用设备实现人体连续动作计数与识别,提出了一种Wi-ACR方法.先利用阈值和活动指标检测出一组连续动作发生的区间和时间,再通过peak-find算法统计出动作的数量,并确定每个动作的开始和结束时间;再分别采用基于波形特征的动作识别模型和基于统计特征的动作识别模型,得到动作识别结果.实验评估结果表明,Wi-ACR对动作计数的准确率可达95%,两类识别模型对于2个动作(深蹲和走)的平均识别精准率为90%.  相似文献   

17.
针对现有基于注意机制的图像描述方法全局信息缺失问题,提出了一种改进的全局注意机制图像描述方法。该方法在注意机制的基础上,通过设计全局特征网络来模拟人类感知机制的全过程,对图像全局特征进行增强。将所提方法在相同数据集和网络超参数的情况下与目前最优网络进行实验对比,分析了全局信息对生成文本的影响。实验结果显示,文中提出的方法在更具挑战性的中文文本描述任务上客观评价指标优于目前最优的模型。同时,在主观评价中能够生成更准确的文本内容,也更具丰富性与多样性,接近自然语言描述。  相似文献   

18.
针对时空维度特征影响自动驾驶车辆轨迹精度的问题,提出基于时空融合的多头注意力(TSMHA)车辆轨迹预测模型,对于空间与时间2个维度的特征信息,分别使用多头注意力机制提取车辆空间交互感知与时间运动模式.为了获得互补特征,并除去特征数据中的冗余,将处理后的时空特征信息传输至门控特征融合模型进行特征融合.使用基于长短期记忆(LSTM)的编解码器结构,考虑编码与解码2个过程中轨迹之间潜在的相互作用,循环生成目标车辆未来预测轨迹.在训练过程中使用L2损失函数,以此降低预测轨迹与真实轨迹的差值.实验表明,与对比算法模型相比,在直线高速公路、城市十字路口、环岛场景下,本研究所提出的模型的精度分别提高了3.95%、 15.64%、31.40%.  相似文献   

19.
针对较小数据集识别时的过拟合和误差传递问题,提出了一种基于卷积神经网络的常见人体动作识别方法.该方法首先利用经典雷达信号处理方法对人体动作回波进行预处理,生成人体动作的时频图像;然后构建卷积神经网络(CNN),并以时频图作为CNN输入数据对网络参数进行训练;最后利用网络公开数据集对所提方法进行了实验验证.实验结果表明,构建的CNN能够准确识别4类不同的人体动作,准确率不低于97%.  相似文献   

20.
学生课堂出勤情况统计与管理是高校学生工作中的一个重要部分,也是最难取得快速进展的工作之一。学生的课堂考勤工作不仅关系到学校对学生学习情况的判定,也关系到学生的个人心理健康与人身安全。庞大的学生数量给学生的课堂考勤工作带来了巨大困难。课堂上学生考勤与企业考勤相比,具有其特殊性。采用点名的考勤方式会占用大量课堂时间,采用IC卡考勤的方式会滋生替课现象。设计了一种结合PCA与局部二值模式的学生面部识别考勤算法,可以有效地解决学生课堂考勤难题,大大提高学生管理工作效率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号