首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 312 毫秒
1.
深度学习在人物动作识别方面已取得较好的成效,但当前仍然需要充分利用视频中人物的外形信息和运动信息。为利用视频中的空间信息和时间信息来识别人物行为动作,提出一种时空双流视频人物动作识别模型。该模型首先利用两个卷积神经网络分别抽取视频动作片段空间和时间特征,接着融合这两个卷积神经网络并提取中层时空特征,最后将提取的中层特征输入到3D卷积神经网络来完成视频中人物动作的识别。在数据集UCF101和HMDB51上,进行视频人物动作识别实验。实验结果表明,所提出的基于时空双流的3D卷积神经网络模型能够有效地识别视频人物动作。  相似文献   

2.
鲁棒的视频行为识别由于其复杂性成为了一项极具挑战的任务. 如何有效提取鲁棒的时空特征成为解决问题的关键. 在本文中, 提出使用双向长短时记忆单元(Bi--LSTM)作为主要框架去捕获视频序列的双向时空特征. 首先, 为了增强特征表达, 使用多层的卷积神经网络特征代替传统的手工特征. 多层卷积特征融合了低层形状信息和高层语义信息, 能够捕获丰富的空间信息. 然后, 将提取到的卷积特征输入Bi--LSTM, Bi--LSTM包含两个不同方向的LSTM层. 前向层从前向后捕获视频演变, 后向层反方向建模视频演变. 最后两个方向的演变表达融合到Softmax中, 得到最后的分类结果. 在UCF101和HMDB51数据集上的实验结果显示本文的方法在行为识别上可以取得较好的性能.  相似文献   

3.
针对人体行为识别中传统行为信息获取方法需要繁琐步骤和各类假设的问题,结合卷积神经网络(CNN)在图像视频处理中的优越性能,提出了一种基于低秩行为信息(LAI)和多尺度卷积神经网络(MCNN)的人体行为识别方法。首先,对行为视频进行分段,并分别对每个视频段进行低秩学习以提取到相应的LAI,然后在时间轴上对这些LAI进行连接以获取整个视频的LAI,进而有效捕获视频中的行为信息,避免了繁琐的提取步骤和各类假设。其次,针对LAI的特点,设计了MCNN模型。该模型通过多尺度卷积核获取不同感受野下的LAI行为特征,并合理设计各卷积层、池化层及全连接层来进一步提炼特征并最终输出行为类别。将所提出的方法在KTH和HMDB51两个基准数据库上进行性能验证,同时设计和进行了三组对比实验。实验结果表明,所提方法在两个数据库上分别取得了97.33%和72.05%的识别率,与双重变换(TFT)方法和深时间嵌入网络(DTEN)方法相比,识别率分别至少提高了0.67和1.15个百分点。所提方法能进一步促进行为识别技术在安防、人机交互等领域的广泛应用。  相似文献   

4.
视频动作识别是计算机视觉领域一个十分具有挑战性的课题,主要任务是利用深度学习等视频智能分析技术识别的深层信息推导出视频人体行为动作.通过结合双流卷积神经网络和三维卷积神经网络的结构特点,提出了一种面向时空特征融合的GSTIN(GoogLeNet based on spatio-temporal intergration network).GSTIN中设计了时空特征融合模块InBST(inception blend spatio-temporal feature),提升网络对空间特征与时间特征的利用能力;在时空特征融合模块InBST基础上,构建了适合动作识别的多流网络结构.GSTIN在动作识别数据集UCF101、HMDB51上识别精度分别达到了93.8%和70.6%,这表明GSTIN与其他动作识别网络相比具有较好的识别性能.  相似文献   

5.
针对视频人体动作识别中动作信息利用率不高、时间信息关注度不足等问题,提出了一种基于紧耦合时空双流卷积神经网络的人体动作识别模型。首先,采用两个2D卷积神经网络分别提取视频中的空间特征和时间特征;然后,利用长短期记忆(LSTM)网络中的遗忘门模块在各采样片段之间建立特征层次的紧耦合连接以实现信息流的传递;接着,利用双向长短期记忆(Bi-LSTM)网络评估各采样片段的重要性并为其分配自适应权重;最后,结合时空双流特征以完成人体动作识别。在数据集UCF101和HMDB51上进行实验验证,该模型在这两个数据集上的准确率分别为94.2%和70.1%。实验结果表明,所提出的紧耦合时空双流卷积网络模型能够有效提高时间信息利用率和动作整体表达能力,由此明显提升人体动作识别的准确度。  相似文献   

6.
针对视频人体动作识别中动作信息利用率不高、时间信息关注度不足等问题,提出了一种基于紧耦合时空双流卷积神经网络的人体动作识别模型。首先,采用两个2D卷积神经网络分别提取视频中的空间特征和时间特征;然后,利用长短期记忆(LSTM)网络中的遗忘门模块在各采样片段之间建立特征层次的紧耦合连接以实现信息流的传递;接着,利用双向长短期记忆(Bi-LSTM)网络评估各采样片段的重要性并为其分配自适应权重;最后,结合时空双流特征以完成人体动作识别。在数据集UCF101和HMDB51上进行实验验证,该模型在这两个数据集上的准确率分别为94.2%和70.1%。实验结果表明,所提出的紧耦合时空双流卷积网络模型能够有效提高时间信息利用率和动作整体表达能力,由此明显提升人体动作识别的准确度。  相似文献   

7.
近年来人体行为识别成为计算机视觉领域的一个研究热点,而卷积神经网络(Convolutional Neural Network,CNN)在图像分类和识别领域取得了重要突破,但是人体行为识别是基于视频分析的,视频包含空间域和时间域两部分的信息。针对基于视频的人体行为识别问题,提出一种改进的双流卷积神经网络(Two-Stream CNN)模型,对于空间域,将视频的单帧RGB图像作为输入,送入VGGNet_16模型;对于时间域,将多帧叠加后的光流图像作为输入,送入Flow_Net模型;最终将两个模型的Softmax输出加权融合作为输出结果,得到一个多模型融合的人体行为识别器。基于JHMDB公开数据库的实验,结果证明了改进的双流CNN在人体行为识别任务上的有效性。  相似文献   

8.
为了同时计算行为序列样本在时间和空间的特征,提出了一种基于包含多尺度卷积算子的卷积神经网络识别模型。首先通过叠加的方式将序列样本中的骨骼向量信息整合为一个行为矩阵,然后将矩阵输入识别模型。为了挖掘具有不同邻接关系的骨骼点在描述人体行为时的作用,将卷积神经网络各层中的卷积算子拓展为多尺度卷积算子,并使用该网络得到的特征进行分类。实验在MSR-Action3D数据集和HDM05数据集获得较好的识别率。  相似文献   

9.
针对视频中存在噪音,无法更好地获取特征信息,造成动作识别不精准的问题.提出了一种基于时空卷积神经网络的人体行为识别网络.将长时段视频进行分段处理,分别把RGB图片和计算出的光流图输入到两个卷积神经网络(CNN)中,使用权重相加的融合算法将提取的时域特征和空域特征融合成时空特征.形成的中层语义信息输入到R(2+1)D的卷积中,利用ResNet提高网络性能,最后在softmax层进行行行为识别.在UCF-101和HMDB-51数据集上进行实验,获得了92.1%和66.1%的准确率.实验表明,提出的双流融合与时空卷积网络模型有助于视频行为识别的准确率提高.  相似文献   

10.
唐晓天  马骏  李峰  杨雪  梁亮 《图学学报》2022,43(1):53-59
视频超分辨率是一项很有实用价值的工作.针对超高清产业中高分辨率资源较为匮乏的问题,为了有效利用视频序列帧间丰富的时间相关性信息及空间信息,提出一种基于多尺度时域3D卷积的视频超分辨率重建算法.该算法将输入的低分辨率视频序列帧分别通过不同时间尺度的3D卷积进行时空特征提取,3D卷积能够同时对空间与时间建模,相较于2D卷积...  相似文献   

11.
在视频理解任务中,人体行为识别是一个重要的研究内容,但视频序列中存在时空信息融合困难、准确率低等问题。针对这些问题,提出一种基于时空信息融合的双流时空残差卷积网络模型。将视频分段采样提取RGB图像和光流图像,并将其输入到双流时空残差网络,通过设计的时空残差模块提取视频的深度时空特征,将每个视频片段的类别结果加权融合得到行为类别。提出的双流时空残差模块引入了少量的三维卷积和混合注意力机制,能够同时获取不同尺度的时空信息并且抑制无效信息,可以有效平衡时空信息的捕捉和计算量问题,并且提升了精度。实验基于TSN网络模型,在UCF101数据集上进行验证,实验结果表明提出的模型比原TSN网络模型的精准度提高了0.9个百分点,有效地提高了网络的时空信息捕获效率。  相似文献   

12.
针对现有人体动作识别方法需输入固定长度的视频段、未充分利用时空信息等问题,提出一种基于时空金字塔和注意力机制相结合的深度神经网络模型,将包含时空金字塔的3D-CNN和添加时空注意力机制的LSTM模型相结合,实现了对视频段的多尺度处理和对动作的复杂时空信息的充分利用。以RGB图像和光流场作为空域和时域的输入,以融合金字塔池化层的运动和外观特征后的融合特征作为融合域的输入,最后采用决策融合策略获得最终动作识别结果。在UCF101和HMDB51数据集上进行实验,分别取得了94.2%和70.5%的识别准确率。实验结果表明,改进的网络模型在基于视频的人体动作识别任务上获得了较高的识别准确率。  相似文献   

13.
14.
传统人体动作识别算法无法充分利用视频中人体动作的时空信息,且识别准确率较低。提出一种新的三维密集卷积网络人体动作识别方法。将双流网络作为基本框架,在空间网络中运用添加注意力机制的三维密集网络提取视频中动作的表观信息特征,结合时间网络对连续视频序列运动光流的运动信息进行特征提取,经过时空特征和分类层的融合后得到最终的动作识别结果。同时为更准确地提取特征并对时空网络之间的相互作用进行建模,在双流网络之间加入跨流连接对时空网络进行卷积层的特征融合。在UCF101和HMDB51数据集上的实验结果表明,该模型识别准确率分别为94.52%和69.64%,能够充分利用视频中的时空信息,并提取运动的关键信息。  相似文献   

15.
针对LSTM网络无法充分提取短时信息导致人体行为识别率不高的问题,提出一种基于上下文特征融合的卷积长短时记忆网络联合优化架构,用于仅具有RGB数据的行为识别网络。使用3D卷积核对输入的动作序列提取其空间特征和短时时间特征,并将多通道信息进行融合,将融合后的特征送入下一级卷积神经网络和LSTM层中进行长期时间的特征学习,获取上下文的长期时空信息,最后用Softmax分类器进行人体行为的分类。实验结果表明,在人体行为识别公开数据集UCF-101上,提出的基于上下文特征融合的卷积长短时记忆网络的平均识别准确率达93.62%,相比于未进行特征融合的卷积长短时记忆网络提高了1.28%,且平均检测时间降低了37.1%。  相似文献   

16.
This work presents a theory and methodology for simultaneous detection of local spatial and temporal scales in video data. The underlying idea is that if we process video data by spatio-temporal receptive fields at multiple spatial and temporal scales, we would like to generate hypotheses about the spatial extent and the temporal duration of the underlying spatio-temporal image structures that gave rise to the feature responses. For two types of spatio-temporal scale-space representations, (i) a non-causal Gaussian spatio-temporal scale space for offline analysis of pre-recorded video sequences and (ii) a time-causal and time-recursive spatio-temporal scale space for online analysis of real-time video streams, we express sufficient conditions for spatio-temporal feature detectors in terms of spatio-temporal receptive fields to deliver scale-covariant and scale-invariant feature responses. We present an in-depth theoretical analysis of the scale selection properties of eight types of spatio-temporal interest point detectors in terms of either: (i)–(ii) the spatial Laplacian applied to the first- and second-order temporal derivatives, (iii)–(iv) the determinant of the spatial Hessian applied to the first- and second-order temporal derivatives, (v) the determinant of the spatio-temporal Hessian matrix, (vi) the spatio-temporal Laplacian and (vii)–(viii) the first- and second-order temporal derivatives of the determinant of the spatial Hessian matrix. It is shown that seven of these spatio-temporal feature detectors allow for provable scale covariance and scale invariance. Then, we describe a time-causal and time-recursive algorithm for detecting sparse spatio-temporal interest points from video streams and show that it leads to intuitively reasonable results. An experimental quantification of the accuracy of the spatio-temporal scale estimates and the amount of temporal delay obtained from these spatio-temporal interest point detectors is given, showing that: (i) the spatial and temporal scale selection properties predicted by the continuous theory are well preserved in the discrete implementation and (ii) the spatial Laplacian or the determinant of the spatial Hessian applied to the first- and second-order temporal derivatives leads to much shorter temporal delays in a time-causal implementation compared to the determinant of the spatio-temporal Hessian or the first- and second-order temporal derivatives of the determinant of the spatial Hessian matrix.  相似文献   

17.
周云  陈淑荣 《计算机应用》2020,40(8):2236-2240
针对传统卷积神经网络(CNN)对人体行为动作仅能提取局部特征易导致相似行为动作识别准确率不高的问题,提出了一种基于双流非局部残差网络(NL-ResNet)的行为识别方法。首先提取视频的RGB帧和密集光流图,分别作为空间流和时间流网络的输入,并通过角落裁剪和多尺度相结合的预处理方法进行数据增强;其次分别利用残差网络的残差块提取视频的局部表观特征和运动特征,再通过在残差块之后接入的非局部CNN模块提取视频的全局信息,实现网络局部特征和全局特征的交叉提取;最后将两个分支网络分别通过A-softmax损失函数进行更精细的分类,并输出加权融合后的识别结果。该方法能充分利用局部和全局特征提高模型的表征能力。在UCF101数据集上,NL-ResNet取得了93.5%的识别精度,与原始双流网络相比提高了5.5个百分点。实验结果表明,所提模型能更好地提取行为特征,有效提高行为识别的准确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号