首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
传统人体动作识别算法无法充分利用视频中人体动作的时空信息,且识别准确率较低。提出一种新的三维密集卷积网络人体动作识别方法。将双流网络作为基本框架,在空间网络中运用添加注意力机制的三维密集网络提取视频中动作的表观信息特征,结合时间网络对连续视频序列运动光流的运动信息进行特征提取,经过时空特征和分类层的融合后得到最终的动作识别结果。同时为更准确地提取特征并对时空网络之间的相互作用进行建模,在双流网络之间加入跨流连接对时空网络进行卷积层的特征融合。在UCF101和HMDB51数据集上的实验结果表明,该模型识别准确率分别为94.52%和69.64%,能够充分利用视频中的时空信息,并提取运动的关键信息。  相似文献   

2.
目的 在行为识别任务中,妥善利用时空建模与通道之间的相关性对于捕获丰富的动作信息至关重要。尽管图卷积网络在基于骨架信息的行为识别方面取得了稳步进展,但以往的注意力机制应用于图卷积网络时,其分类效果并未获得明显提升。基于兼顾时空交互与通道依赖关系的重要性,提出了多维特征嵌合注意力机制(multi-dimensional feature fusion attention mechanism, M2FA)。方法 不同于现今广泛应用的行为识别框架研究理念,如卷积块注意力模块(convolutional block attention module, CBAM)、双流自适应图卷积网络(two-stream adaptive graph convolutional network, 2s-AGCN)等,M2FA通过嵌入在注意力机制框架中的特征融合模块显式地获取综合依赖信息。对于给定的特征图,M2FA沿着空间、时间和通道维度使用全局平均池化操作推断相应维度的特征描述符。特征图使用多维特征描述符的融合结果进行过滤学习以达到细化自适应特征的目的,并通过压缩全局动态信息的全局特征分支与仅使用逐点卷积层的局...  相似文献   

3.
针对自然环境中存在人脸遮挡、姿势变化等复杂因素,以及卷积神经网络(CNN)中的卷积滤波器由于空间局部性无法学习大多数神经层中不同面部区域之间的长程归纳偏差的问题,提出一种用于动态人脸表情识别(DFER)的混合注意力机制模型(HA-Model),以提升DFER的鲁棒性和准确性。HA-Model由空间特征提取和时序特征处理两部分组成:空间特征提取部分通过两种注意力机制——Transformer和包含卷积块注意力模块(CBAM)的网格注意力模块,引导网络从空间角度学习含有遮挡、姿势变化的鲁棒面部特征并关注人脸局部显著特征;时序特征处理部分通过Transformer引导网络学习高层语义特征的时序联系,用于学习人脸表情特征的全局表示。实验结果表明,HA-Model在DFEW和AFEW基准上的准确率分别达到了67.27%和50.41%,验证了HA-Model可以有效提取人脸特征并提升动态人脸表情识别的精度。  相似文献   

4.
针对传统3D卷积神经网络(CNN)对医学和自然场景视频中的动作识别存在输入片段帧数少、正向推理速度慢、网络层数浅、参数量和计算量大的问题,基于2D深度卷积和1D卷积设计了局部时空深度分离卷积模块(LSDW)和时序卷积模块(TCM),进而提出了轻量级局部多片段网络MLNet.首先,MLNet的输入是视频中的多个局部片段,这些片段通过间隔采样得到;其次,将输入中的多个局部片段通过LSDW提取相应的时空特征;最后,通过TCM对LSDW输出特征在时序维度进行融合,得到视频动作的全局表示.实验结果表明,利用该方法在公开数据集UCF101和HX上测试,其识别精度分别达到了76%和94.23%,与时序3D卷积网络方法(T3D)相比,识别率分别至少提升了4.89和4.6个百分点,在拥有低的参数量和计算量的同时提高了识别精度和网络的正向推理速度.  相似文献   

5.
城市交通流量预测是构建绿色低碳、安全高效的智能交通系统的重要组成部分.时空图神经网络由于具有强大的时空数据表征能力,被广泛应用于城市交通流量预测.当前时空图神经网络在城市交通流量预测中仍存在以下两方面局限性:1)直接构建静态路网拓扑图对城市空间相关性进行表示,忽略了节点的动态交通模式,难以表达节点流量之间的时序相似性,无法捕获路网节点之间在时序上的动态关联.2)只考虑路网节点的局部空间相关性,忽略节点的全局空间相关性,无法建模交通路网中局部区域和全局空间之间的依赖关系.为打破上述局限性,本文提出了一种多视角融合的时空动态图卷积模型用于预测交通流量.首先,从静态空间拓扑和动态流量模式视角出发,构建路网空间结构图和动态流量关联图,并使用动态图卷积学习节点在两种视角下的特征,全面捕获城市路网中多元的空间相关性.其次,从局部视角和全局视角出发,计算路网的全局表示,将全局特征与局部特征融合,增强路网节点特征的表现力,发掘城市交通流量的整体结构特征.接下来,设计了局部卷积多头自注意力机制来获取交通数据的动态时间相关性,实现在多种时间窗口下的准确流量预测.最后,在四种真实交通数据上的实验结果证明了本文模型的有效性和准确性.  相似文献   

6.
受人脑视觉感知机制启发,在深度学习框架下提出基于注意力机制的时间分组深度网络行为识别算法.针对局部时序信息在描述持续时间较长的复杂动作上的不足,使用视频分组稀疏抽样策略,以更低的成本进行视频级时间建模.在识别阶段引入通道注意力映射,进一步利用全局特征信息和捕捉分类兴趣点,执行通道特征重新校准,提高网络的表达能力.实验表明,文中算法在UCF101、HMDB51数据集上的识别准确率较高.  相似文献   

7.
行为识别技术在视频检索具有重要的应用价值;针对基于卷积神经网络的行为识别方法存在的长时序行为识别能力不足、尺度特征提取困难、光照变化及复杂背景干扰等问题,提出一种多模态特征融合的长视频行为识别方法;首先,考虑到长时序行为帧间差距较小,易造成视频帧的冗余,基于此,通过均匀稀疏采样策略完成全视频段的时域建模,在降低视频帧冗余度的前提下实现长时序信息的充分保留;其次,通过多列卷积获取多尺度时空特征,弱化视角变化对视频图像带来的干扰;后引入光流数据信息,通过空间注意力机制引导的特征提取网络获取光流数据的深层次特征,进而利用不同数据模式之间的优势互补,提高网络在不同场景下的准确性和鲁棒性;最后,将获取的多尺度时空特征和光流信息在网络的全连接层进行融合,实现了端到端的长视频行为识别;实验结果表明,所提方法在UCF101和HMDB51数据集上平均精度分别为97.2%和72.8%,优于其他对比方法,实验结果证明了该方法的有效性.  相似文献   

8.
石祥滨  李怡颖  刘芳  代钦 《计算机应用研究》2021,38(4):1235-1239,1276
针对双流法进行视频动作识别时忽略特征通道间的相互联系、特征存在大量冗余的时空信息等问题,提出一种基于双流时空注意力机制的端到端的动作识别模型T-STAM,实现了对视频关键时空信息的充分利用。首先,将通道注意力机制引入到双流基础网络中,通过对特征通道间的依赖关系进行建模来校准通道信息,提高特征的表达能力。其次,提出一种基于CNN的时间注意力模型,使用较少的参数学习每帧的注意力得分,重点关注运动幅度明显的帧。同时提出一种多空间注意力模型,从不同角度计算每帧中各个位置的注意力得分,提取多个运动显著区域,并且对时空特征进行融合进一步增强视频的特征表示。最后,将融合后的特征输入到分类网络,按不同权重融合两流输出得到动作识别结果。在数据集HMDB51和UCF101上的实验结果表明T-STAM能有效地识别视频中的动作。  相似文献   

9.
深度学习在人物动作识别方面已取得较好的成效,但当前仍然需要充分利用视频中人物的外形信息和运动信息。为利用视频中的空间信息和时间信息来识别人物行为动作,提出一种时空双流视频人物动作识别模型。该模型首先利用两个卷积神经网络分别抽取视频动作片段空间和时间特征,接着融合这两个卷积神经网络并提取中层时空特征,最后将提取的中层特征输入到3D卷积神经网络来完成视频中人物动作的识别。在数据集UCF101和HMDB51上,进行视频人物动作识别实验。实验结果表明,所提出的基于时空双流的3D卷积神经网络模型能够有效地识别视频人物动作。  相似文献   

10.
针对当前基于循环神经网络的异常流量检测方法无法并行利用全局流量数据包挖掘时序特征的问题,提出一种基于时空注意力特征的异常流量检测方法。将原始流量以会话为单元切分为网络流,网络流中的数据包均转换为灰度图并归一化;利用卷积网络层提取数据包的空间特征,进而通过多头自注意力机制对流中的全部数据包空间特征并行建模,计算数据包之间显著的时序关联特征表示;将该特征表示输入到全连接神经网络层和Softmax层,输出识别概率完成检测。在UNSW-NB15数据集上的实验结果表明该方法切实可行,相较于对比方法,在取得较高的准确率和精度的同时,保持了最低的误警率。  相似文献   

11.
视频动作识别是计算机视觉领域一个十分具有挑战性的课题,主要任务是利用深度学习等视频智能分析技术识别的深层信息推导出视频人体行为动作.通过结合双流卷积神经网络和三维卷积神经网络的结构特点,提出了一种面向时空特征融合的GSTIN(GoogLeNet based on spatio-temporal intergration network).GSTIN中设计了时空特征融合模块InBST(inception blend spatio-temporal feature),提升网络对空间特征与时间特征的利用能力;在时空特征融合模块InBST基础上,构建了适合动作识别的多流网络结构.GSTIN在动作识别数据集UCF101、HMDB51上识别精度分别达到了93.8%和70.6%,这表明GSTIN与其他动作识别网络相比具有较好的识别性能.  相似文献   

12.
在卷积神经网络中融入注意力机制越来越成为语义分割强化特征学习的重要方法.提出了一种融合了局部注意力和全局注意力的卷积神经网络.输入图像经主干网络的特征提取,并行输入给局部注意力和全局注意力模块.局部注意力模块以编码-解码结构实现多尺寸的局部特征融合,全局注意力模块根据每个像素与其所在特征图上所有像素的相关性捕获全局信息...  相似文献   

13.
针对视频动作识别中的时空建模问题,在深度学习框架下提出基于融合时空特征的时序增强动作识别方法.首先对输入视频应用稀疏时序采样策略,适应视频时长变化,降低视频级别时序建模成本.在识别阶段计算相邻特征图间的时序差异,以差异计算结果增强特征级别的运动信息.最后,利用残差结构与时序增强结构的组合方式提升网络整体时空建模能力.实验表明,文中算法在UCF101、HMDB51数据集上取得较高准确率,并在实际工业操作动作识别场景下,以较小的网络规模达到较优的识别效果.  相似文献   

14.
驾驶员危险驾驶行为是恶性交通事故发生的主要原因之一,因此识别驾驶员行为具有工程应用上的重要意义。目前,主流基于视觉的检测方法是对驾驶员行为的局部时空特征进行研究,针对全局空间特征及长时序相关性特征研究较少,这在一定程度上无法结合场景上下文信息对危险驾驶行为进行识别。为了解决上述问题,提出一种基于双路时空网络的驾驶员行为识别方法,整合不同时空通路的优点以提高行为特征丰富度。首先,使用一种改进的双流卷积神经网络(TSN)对时空信息进行表征学习,同时降低提取特征的稀疏性;其次,构建一种基于Transformer的串行时空网络补充长时序相关性信息;最后,联合双路时空网络进行融合决策,增强模型的鲁棒性。实验结果表明,所提方法在驾驶员疲劳检测数据集YawDD、驾驶员分心检测数据集SF-DDDD和最新驾驶员行为识别数据集SynDD1这3个公开数据集上分别取得99.85%、99.94%和98.77%的识别准确率,特别是在SynDD1上,与使用动作识别的网络MoviNet-A0相比识别准确率提升了1.64个百分点;消融实验结果也验证了该方法对驾驶员行为有较高的识别精度。  相似文献   

15.
针对视频超分对时间帧间信息以及分层信息的利用不充分,设计了一种具有空间时序注意力机制的密集可变形视频超分辨率重建网络。利用三维卷积来提取经可变形卷积模块对齐后的相邻帧之间的时间序列信息,同时设计具有步幅卷积层的轻量级模块来提取空间注意力信息。在特征重构阶段引入密集连接,充分利用分层特征信息以实现更好的特征重建。选取公共数据集进行实验验证,结果表明,提出的算法在客观评价指标与视觉对比效果上都有提升。。  相似文献   

16.
基于卷积神经网络的车辆重识别模型在执行卷积和池化操作时,不可避免地会出现全局感受野狭小和局部信息丢失的情况,当光照、视角和分辨率等发生剧烈变化时,导致车辆重识别的鲁棒性和精确性急剧下降.为此,提出了部件耦合Transformer的车辆重识别网络,通过堆叠部件耦合Transformer块来搭建重识别模型,每一个部件耦合Transformer块利用部件自适应嵌入模块提取区分性的局部特征和Transformer层提取鲁棒性的全局特征.首先,部件自适应嵌入模块按照位置和伸缩量动态划分和调整特征图,增强模型对局部部件信息的感知能力;其次, Transformer层中利用自注意力机制增强网络模型对全局特征的表示能力;最后,部件自适应嵌入模块和Transformer层之间的耦合关系促进全局和局部特征协同合作.在VeRi-776和VehicleID数据集上的实验结果表明,CMC@1/CMC@5分别达到0.970/0.988和0.865/0.985,优于对比模型.  相似文献   

17.
现有视频行人重识别方法无法有效地提取视频连续帧之间的时空信息,因此提出一种基于非局部关注和多重特征融合的行人重识别网络来提取全局与局部表征特征和时序信息。首先嵌入非局部关注模块来提取全局特征;然后通过提取网络的低中层特征和局部特征实现多重特征融合,从而获得行人的显著特征;最后将行人特征进行相似性度量并排序,计算出视频行人重识别的精度。在大数据集MARS和DukeMTMC-VideoReID上进行实现,结果显示所提出的模型较现有的多尺度三维卷积(M3D)和学习片段相似度聚合(LCSA)模型的性能均有明显提升,平均精度均值(mAP)分别达到了81.4%和93.4%,Rank-1分别达到了88.7%和95.3%;同时在小数据集PRID2011上,所提模型的Rank-1也达到94.8%。  相似文献   

18.
针对视频人体动作识别中动作信息利用率不高、时间信息关注度不足等问题,提出了一种基于紧耦合时空双流卷积神经网络的人体动作识别模型。首先,采用两个2D卷积神经网络分别提取视频中的空间特征和时间特征;然后,利用长短期记忆(LSTM)网络中的遗忘门模块在各采样片段之间建立特征层次的紧耦合连接以实现信息流的传递;接着,利用双向长短期记忆(Bi-LSTM)网络评估各采样片段的重要性并为其分配自适应权重;最后,结合时空双流特征以完成人体动作识别。在数据集UCF101和HMDB51上进行实验验证,该模型在这两个数据集上的准确率分别为94.2%和70.1%。实验结果表明,所提出的紧耦合时空双流卷积网络模型能够有效提高时间信息利用率和动作整体表达能力,由此明显提升人体动作识别的准确度。  相似文献   

19.
弱监督异常事件检测是一项极富挑战性的任务,其目标是在已知正常和异常视频标签的监督下,定位出异常发生的具体时序区间.文中采用多示例排序网络来实现弱监督异常事件检测任务,该框架在视频被切分为固定数量的片段后,将一个视频抽象为一个包,每个片段相当于包中的示例,多示例学习在已知包类别的前提下训练示例分类器.由于视频有丰富的时序信息,因此重点关注监控视频在线检测的时序关系.从全局和局部角度出发,采用自注意力模块学习出每个示例的权重,通过自注意力值与示例异常得分的线性加权,来获得视频整体的异常分数,并采用均方误差损失训练自注意力模块.另外,引入LSTM和时序卷积两种方式对时序建模,其中时序卷积又分为单一类别的时序空洞卷积和融合了不同空洞率的多尺度的金字塔时序空洞卷积.实验结果显示,多尺度的时序卷积优于单一类别的时序卷积,时序卷积联合包内包外互补损失的方法在当前UCF-Crime数据集上比不包含时序模块的基线方法的AUC指标高出了3.2%.  相似文献   

20.
针对视频人体动作识别中动作信息利用率不高、时间信息关注度不足等问题,提出了一种基于紧耦合时空双流卷积神经网络的人体动作识别模型。首先,采用两个2D卷积神经网络分别提取视频中的空间特征和时间特征;然后,利用长短期记忆(LSTM)网络中的遗忘门模块在各采样片段之间建立特征层次的紧耦合连接以实现信息流的传递;接着,利用双向长短期记忆(Bi-LSTM)网络评估各采样片段的重要性并为其分配自适应权重;最后,结合时空双流特征以完成人体动作识别。在数据集UCF101和HMDB51上进行实验验证,该模型在这两个数据集上的准确率分别为94.2%和70.1%。实验结果表明,所提出的紧耦合时空双流卷积网络模型能够有效提高时间信息利用率和动作整体表达能力,由此明显提升人体动作识别的准确度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号