首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 210 毫秒
1.
视频复原的目标是从给定的退化视频序列中把潜在的高质量视频复原出来。现有的视频复原方法主要集中在如何有效地找到相邻帧之间的运动信息,然后利用运动信息建立相邻帧之间的匹配。与这些方法不同,文中提出了基于深度学习特征匹配的方法来解决视频超分辨率问题。首先,通过深度卷积神经网络计算出相邻帧之间的运动信息;然后,采用一个浅层深度卷积神经网络从输入的视频帧中提取特征,基于估计到的运动信息,将浅层深度卷积神经网络提取到的特征匹配到中间视频帧对应的特征中,并将得到的特征进行有效融合;最后,采用一个深度卷积神经网络重建视频帧。大量的实验结果验证了基于深度学习特征匹配的方法能有效地解决视频超分辨率问题。与现有的基于视频帧匹配的方法相比,所提方法在现有的公开视频超分辨率数据集上取得了较好的效果。  相似文献   

2.
随着卷积神经网络的发展,视频超分辨率算法取得了显著的成功。因为帧与帧之间的依赖关系比较复杂,所以传统方法缺乏对复杂的依赖关系进行建模的能力,难以对视频超分辨率重建的过程进行精确地运动估计和补偿。因此提出一个基于光流残差的重建网络,在低分辨率空间使用密集残差网络得到相邻视频帧的互补信息,通过金字塔的结构来预测高分辨率视频帧的光流,通过亚像素卷积层将低分辨率的视频帧变成高分辨率视频帧,并将高分辨率的视频帧与预测的高分辨率光流进行运动补偿,将其输入到超分辨率融合网络来得到更好的效果,提出新的损失函数训练网络,能够更好地对网络进行约束。在公开数据集上的实验结果表明,重建效果在峰值信噪比、结构相似度、主观视觉的效果上均有提升。  相似文献   

3.
针对监控视频中斗殴行为检测的需求,提出了一种新的基于三维卷积神经网络和视频帧采样算法的斗殴行为检测方法。针对监控视频行为检测起始定位的难点,提出了一种利用基于人体姿态信息的关键区域检测算法定位斗殴行为起始帧的方法,形成了斗殴行为预识别空间。针对深度学习训练数据冗余和优化程度不够的问题,提出了基于时间采样的视频帧采样算法,并且搭建了一个三维卷积神经网络,使网络学习到整个行为动作的时空信息。实验结果证明了所提方法在两个公共数据集上取得了优越的性能。  相似文献   

4.
针对目前的烟雾检测算法主要基于单一特征或烟雾的多个动静态特征的融合导致检测精度低的问题,提出一种使用卷积神经网络和循环神经网络组合的视频烟雾检测框架来捕获烟雾在空间域和时间域中的特征信息。利用空间流网络部分对运动区域自动提取特征后进行初步的空域的判别;在将空域判断为有烟的基础上进一步通过时间流网络和循环神经网络部分累积一组连续帧之间的运动信息以区分烟雾和非烟雾区域。与现有的使用深度卷积神经网络模型进行对比实验,实验结果表明,该方法具有较高的分类检测准确率。在多个视频场景中进行测试,验证了该算法的有效性。  相似文献   

5.
针对在视频行为检测中卷积神经网络(CNN)对时域信息理解能力不足的问题,提出了一种融合非局部神经网络的行为检测模型.模型采用一种双分支的CNN结构,分别提取视频的空间特征和运动特征.将视频单帧和视频连续帧序列作为网络输入,空间网络对视频当前帧进行2D CNN特征提取,时空网络采用融合非局部模块的3D CNN来捕获视频帧...  相似文献   

6.
提出一种基于深度神经网络的多模态动作识别方法,根据不同模态信息的特性分别采用不同的深度神经网络,适应不同模态的视频信息,并将多种深度网络相结合,挖掘行为识别的多模态特征。主要考虑人体行为静态和动态2种模态信息,结合微软Kinect的多传感器摄像机获得传统视频信息的同时也能获取对应的深度骨骼点信息。对于静态信息采用卷积神经网络模型,对于动态信息采用递归循环神经网络模型。最后将2种模型提取的特征相融合进行动作识别和分类。在MSR 3D的行为数据库上实验结果表明,本文的方法对动作识别具有良好的分类效果。  相似文献   

7.
针对公共场合人群异常行为检测准确率不高和训练样本缺乏的问题,提出一种基于深度时空卷积神经网络的人群异常行为检测和定位的方法。首先针对监控视频中人群行为的特点,综合利用静态图像的空间特征和前后帧的时间特征,将二维卷积扩展到三维空间,设计面向人群异常行为检测和定位的深度时空卷积神经网络;为了定位人群异常行为,将视频分成若干子区域,获取视频的子区域时空数据样本,然后将数据样本输入设计的深度时空卷积神经网络进行训练和分类,实现人群异常行为的检测与定位。同时,为了解决深度时空卷积神经网络训练时样本数量不足的问题,设计一种迁移学习的方法,利用样本数量多的数据集预训练网络,然后在待测试的数据集中进行微调和优化网络模型。实验结果表明,该方法在UCSD和subway公开数据集上的检测准确率分别达到了99%和93%以上。  相似文献   

8.
视频行为识别是智能视频分析的重要组成部分.传统人体行为识别基于人工设计特征方法涉及的环节多,具有时间开销大,算法难以整体调优的缺点.针对two-stream系列的深度卷积网络,时间网络的输入是直接以相邻两帧的光流场作为输入,其中也包含了镜头移动、背景运动等无关的运动特征的问题,在视频时序上仅通过分块取样固定长度的帧,其...  相似文献   

9.
为了进一步增强视频图像超分辨率重建的效果,研究利用卷积神经网络的特性进行视频图像的空间分辨率重建,提出了一种基于卷积神经网络的视频图像重建模型。采取预训练的策略用于重建模型参数的初始化,同时在多帧视频图像的空间和时间维度上进行训练,提取描述主要运动信息的特征进行学习,充分利用视频帧间图像的信息互补进行中间帧的重建。针对帧间图像的运动模糊,采用自适应运动补偿加以处理,对通道进行优化输出得到高分辨率的重建图像。实验表明,重建视频图像在平均客观评价指标上均有较大提升(PSNR +0.4 dB / SSIM +0.02),并且有效减少了图像在主观视觉效果上的边缘模糊现象。与其他传统算法相比,在图像评价的客观指标和主观视觉效果上均有明显的提升,为视频图像的超分辨率重建提供了一种基于卷积神经网络的新颖架构,也为进一步探索基于深度学习的视频图像超分辨率重建方法提供了思路。  相似文献   

10.
为了融合深度图中不易受光照等环境因素影响的深度信息和RGB视频序列中丰富的纹理信息,提出一种基于深度运动图(Depth Motion Maps,DMMs)和密集轨迹的人体行为识别算法。利用卷积神经网络训练DMMs数据并提取高层特征作为行为视频的静态特征表示,使用密集轨迹来描述RGB视频序列的动态运动信息,将行为视频的静态特征和动态特征串联,作为整个视频的行为特征表示并输入到线性支持向量机(Support Vector Machine,SVM)进行识别。实验结果表明,在公开的动作识别库UTD-MHAD和MSR Daily Activity 3D上,该算法能够有效提取深度信息和纹理信息,并取得了较好的识别效果。  相似文献   

11.
针对视频中存在噪音,无法更好地获取特征信息,造成动作识别不精准的问题.提出了一种基于时空卷积神经网络的人体行为识别网络.将长时段视频进行分段处理,分别把RGB图片和计算出的光流图输入到两个卷积神经网络(CNN)中,使用权重相加的融合算法将提取的时域特征和空域特征融合成时空特征.形成的中层语义信息输入到R(2+1)D的卷积中,利用ResNet提高网络性能,最后在softmax层进行行行为识别.在UCF-101和HMDB-51数据集上进行实验,获得了92.1%和66.1%的准确率.实验表明,提出的双流融合与时空卷积网络模型有助于视频行为识别的准确率提高.  相似文献   

12.
A variety of recognizing architectures based on deep convolutional neural networks have been devised for labeling videos containing human motion with action labels. However, so far, most works cannot properly deal with the temporal dynamics encoded in multiple contiguous frames, which distinguishes action recognition from other recognition tasks. This paper develops a temporal extension of convolutional neural networks to exploit motion-dependent features for recognizing human action in video. Our approach differs from other recent attempts in that it uses multiplicative interactions between convolutional outputs to describe motion information across contiguous frames. Interestingly, the representation of image content arises when we are at work on extracting motion pattern, which makes our model effectively incorporate both of them to analysis video. Additional theoretical analysis proves that motion and content-dependent features arise simultaneously from the developed architecture, whereas previous works mostly deal with the two separately. Our architecture is trained and evaluated on the standard video actions benchmarks of KTH and UCF101, where it matches the state of the art and has distinct advantages over previous attempts to use deep convolutional architectures for action recognition.  相似文献   

13.
深度学习在人物动作识别方面已取得较好的成效,但当前仍然需要充分利用视频中人物的外形信息和运动信息。为利用视频中的空间信息和时间信息来识别人物行为动作,提出一种时空双流视频人物动作识别模型。该模型首先利用两个卷积神经网络分别抽取视频动作片段空间和时间特征,接着融合这两个卷积神经网络并提取中层时空特征,最后将提取的中层特征输入到3D卷积神经网络来完成视频中人物动作的识别。在数据集UCF101和HMDB51上,进行视频人物动作识别实验。实验结果表明,所提出的基于时空双流的3D卷积神经网络模型能够有效地识别视频人物动作。  相似文献   

14.
传统人体动作识别算法无法充分利用视频中人体动作的时空信息,且识别准确率较低。提出一种新的三维密集卷积网络人体动作识别方法。将双流网络作为基本框架,在空间网络中运用添加注意力机制的三维密集网络提取视频中动作的表观信息特征,结合时间网络对连续视频序列运动光流的运动信息进行特征提取,经过时空特征和分类层的融合后得到最终的动作识别结果。同时为更准确地提取特征并对时空网络之间的相互作用进行建模,在双流网络之间加入跨流连接对时空网络进行卷积层的特征融合。在UCF101和HMDB51数据集上的实验结果表明,该模型识别准确率分别为94.52%和69.64%,能够充分利用视频中的时空信息,并提取运动的关键信息。  相似文献   

15.
鲁棒的视频行为识别由于其复杂性成为了一项极具挑战的任务. 如何有效提取鲁棒的时空特征成为解决问题的关键. 在本文中, 提出使用双向长短时记忆单元(Bi--LSTM)作为主要框架去捕获视频序列的双向时空特征. 首先, 为了增强特征表达, 使用多层的卷积神经网络特征代替传统的手工特征. 多层卷积特征融合了低层形状信息和高层语义信息, 能够捕获丰富的空间信息. 然后, 将提取到的卷积特征输入Bi--LSTM, Bi--LSTM包含两个不同方向的LSTM层. 前向层从前向后捕获视频演变, 后向层反方向建模视频演变. 最后两个方向的演变表达融合到Softmax中, 得到最后的分类结果. 在UCF101和HMDB51数据集上的实验结果显示本文的方法在行为识别上可以取得较好的性能.  相似文献   

16.
ABSTRACT

The conventional convolutional neural network (CNN) has proven to be effective for synthetic aperture radar (SAR) target recognition. However, the relationship between different convolutional kernels is not taken into account. The lack of the relationship limits the feature extraction capability of the convolutional layer to a certain extent. To address this problem, this paper presents a novel method named weighted kernel CNN (WKCNN). WKCNN integrates a weighted kernel module (WKM) into the common CNN architecture. The WKM is proposed to model the interdependence between different kernels, and thus to improve the feature extraction capability of the convolutional layer. The WKM consists of variables and activations. The variable represents the weight of the convolutional kernel. The activation is a mapping function which is used to determine the range of the weight. To adjust the variable adaptively, back propagation (BP) algorithm for the WKM is derived. The training of the WKM is driven by optimizing the cost function according to the BP algorithm, and three training modes are presented and analysed. SAR target recognition experiments are conducted on the moving and stationary target acquisition and recognition (MSTAR) dataset, and the results show the superiority of the proposed method.  相似文献   

17.
With the proliferation of video data, video summarization is an ideal tool for users to browse video content rapidly. In this paper, we propose a novel foveated convolutional neural networks for dynamic video summarization. We are the first to integrate gaze information into a deep learning network for video summarization. Foveated images are constructed based on subjects’ eye movements to represent the spatial information of the input video. Multi-frame motion vectors are stacked across several adjacent frames to convey the motion clues. To evaluate the proposed method, experiments are conducted on two video summarization benchmark datasets. The experimental results validate the effectiveness of the gaze information for video summarization despite the fact that the eye movements are collected from different subjects from those who generated summaries. Empirical validations also demonstrate that our proposed foveated convolutional neural networks for video summarization can achieve state-of-the-art performances on these benchmark datasets.  相似文献   

18.
基于主元分析法的行为识别   总被引:6,自引:0,他引:6       下载免费PDF全文
通过研究,建立了一个基于主元分析的识别办体行为的系统,其方法是通过在H、S、I颜色空间对皮肤颜色建立高期模型,结合运动限制和区域连续性,系统地分割并跟踪人脸和双手,然后,在PCA框架下,表示脸和手的运动参数曲线,并和范例进行匹配,这种通过对行为在时空域变化的建模方法,能在行为主体和成象条件有变化的情况下识别行为,以太极拳式谡列,来验证方法和系统的效果,实验结果证明了此方法误识率低,有一定的鲁棒性,  相似文献   

19.
Category-level object recognition, segmentation, and tracking in videos becomes highly challenging when applied to sequences from a hand-held camera that features extensive motion and zooming. An additional challenge is then to develop a fully automatic video analysis system that works without manual initialization of a tracker or other human intervention, both during training and during recognition, despite background clutter and other distracting objects. Moreover, our working hypothesis states that category-level recognition is possible based only on an erratic, flickering pattern of interest point locations without extracting additional features. Compositions of these points are then tracked individually by estimating a parametric motion model. Groups of compositions segment a video frame into the various objects that are present and into background clutter. Objects can then be recognized and tracked based on the motion of their compositions and on the shape they form. Finally, the combination of this flow-based representation with an appearance-based one is investigated. Besides evaluating the approach on a challenging video categorization database with significant camera motion and clutter, we also demonstrate that it generalizes to action recognition in a natural way. Electronic Supplementary Material  The online version of this article () contains supplementary material, which is available to authorized users. This work was supported in part by the Swiss national science foundation under contract no. 200021-107636.  相似文献   

20.
目的 针对用于SAR (synthetic aperture radar) 目标识别的深度卷积神经网络模型结构的优化设计难题,在分析卷积核宽度对分类性能影响基础上,设计了一种适用于SAR目标识别的深度卷积神经网络结构。方法 首先基于二维随机卷积特征和具有单个隐层的神经网络模型-超限学习机分析了卷积核宽度对SAR图像目标分类性能的影响;然后,基于上述分析结果,在实现空间特征提取的卷积层中采用多个具有不同宽度的卷积核提取目标的多尺度局部特征,设计了一种适用于SAR图像目标识别的深度模型结构;最后,在对MSTAR (moving and stationary target acquisition and recognition) 数据集中的训练样本进行样本扩充基础上,设定了深度模型训练的超参数,进行了深度模型参数训练与分类性能验证。结果 实验结果表明,对于具有较强相干斑噪声的SAR图像而言,采用宽度更大的卷积核能够提取目标的局部特征,提出的模型因能从输入图像提取目标的多尺度局部特征,对于10类目标的分类结果(包含非变形目标和变形目标两种情况)接近或优于已知文献的最优分类结果,目标总体分类精度分别达到了98.39%和97.69%,验证了提出模型结构的有效性。结论 对于SAR图像目标识别,由于与可见光图像具有不同的成像机理,应采用更大的卷积核来提取目标的空间特征用于分类,通过对深度模型进行优化设计能够提高SAR图像目标识别的精度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号