首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
行为识别技术在视频检索具有重要的应用价值;针对基于卷积神经网络的行为识别方法存在的长时序行为识别能力不足、尺度特征提取困难、光照变化及复杂背景干扰等问题,提出一种多模态特征融合的长视频行为识别方法;首先,考虑到长时序行为帧间差距较小,易造成视频帧的冗余,基于此,通过均匀稀疏采样策略完成全视频段的时域建模,在降低视频帧冗余度的前提下实现长时序信息的充分保留;其次,通过多列卷积获取多尺度时空特征,弱化视角变化对视频图像带来的干扰;后引入光流数据信息,通过空间注意力机制引导的特征提取网络获取光流数据的深层次特征,进而利用不同数据模式之间的优势互补,提高网络在不同场景下的准确性和鲁棒性;最后,将获取的多尺度时空特征和光流信息在网络的全连接层进行融合,实现了端到端的长视频行为识别;实验结果表明,所提方法在UCF101和HMDB51数据集上平均精度分别为97.2%和72.8%,优于其他对比方法,实验结果证明了该方法的有效性.  相似文献   

2.
随着卷积神经网络的发展,视频超分辨率算法取得了显著的成功。因为帧与帧之间的依赖关系比较复杂,所以传统方法缺乏对复杂的依赖关系进行建模的能力,难以对视频超分辨率重建的过程进行精确地运动估计和补偿。因此提出一个基于光流残差的重建网络,在低分辨率空间使用密集残差网络得到相邻视频帧的互补信息,通过金字塔的结构来预测高分辨率视频帧的光流,通过亚像素卷积层将低分辨率的视频帧变成高分辨率视频帧,并将高分辨率的视频帧与预测的高分辨率光流进行运动补偿,将其输入到超分辨率融合网络来得到更好的效果,提出新的损失函数训练网络,能够更好地对网络进行约束。在公开数据集上的实验结果表明,重建效果在峰值信噪比、结构相似度、主观视觉的效果上均有提升。  相似文献   

3.
视频帧率上转是视频时域篡改的一种常见篡改手段,它通过周期性地在两个视频帧中间插入中间帧的方式,实现将视频由低帧率转换到高帧率的目标.本文提出了一种基于光流周期特性的视频帧率上转篡改检测算法,首先将视频转为帧图像序列,然后采用Horn-Schunck光流法计算每帧图像每个像素点的光流矢量,并计算相邻帧图像光流的变化率.最后利用快速傅里叶变换对光流变化率数据进行频谱分析,根据最高谱线的幅值与平均幅值的比值阈值来判别视频是否经过篡改.实验表明,算法不仅能够准确识别待测视频是否经过帧率上转篡改,并且提高了视频压缩的鲁棒性能,具有一定的实际应用价值.  相似文献   

4.
目的 微表情是人在外界信息和刺激下做出的无意识面部动作,是判断受试人情绪和行为的重要佐证,在社会安全、商业谈判和心理辅导等领域都有着广泛的应用。微表情不同于一般的表情,分类与定位较为困难。针对这种情况,提出了一种基于光流窗口的双分支微表情定位网络(dual-branch optical flow spotting network,DFSN)和一种利用峰值帧光流信息的微表情分类网络,以识别视频中的微表情。方法 在定位任务中,首先提取面部图像,选择光流窗口大小和位置,计算面部光流并进行预处理;接下来输入双分支网络中进行两次分类,分别针对有无微表情和在有微表情前提下微表情所处阶段分类,并结合两个损失函数抑制过拟合;最后绘制出微表情强度曲线,曲线峰值所处位置即为所求微表情峰值帧。在分类任务中,选取视频起始帧和定位网络取得的峰值帧作为光流窗口,并利用欧拉运动放大算法(Eulerian motion magnification,EMM)放大微表情,最后采用峰值帧光流信息分类微表情视频。结果 微表情定位网络分别在CASME II (Chinese Academy of Sciences Micro-expression Database II)数据集和CASME数据集上按照使用留一被试交叉验证法进行了实验,与目前最好的定位方法比较,此网络在CASME II上获得了最低的NMAE(normalized mean absolute error)值0.101 7,比Optical flow+UPC方法提高了9%。在CASME上获得的NMAE值为0.137 8,在此数据集上为次优定位方法。在定位网络得到的峰值基础上,分类网络在CASME II上取得了89.79%的准确率,在CASME上取得了66.06%的准确率。若采用数据集标注的峰值,分类网络在CASME II上取得了91.83%的准确率,在CASME上取得了76.96%的准确率。结论 提出的微表情定位网络可以有效定位视频中微表情峰值帧的位置,帮助后续网络进行分类,微表情分类网络可以有效区分不同种类的微表情视频。  相似文献   

5.
对视频中的目标进行像素级分割是计算机视觉领域的研究热点,完全没有用户标注的无监督视频分割对分割算法提出了更高的要求。近几年在分割中常使用基于帧间运动信息进行建模的方法,即用光流等运动信息预测目标轮廓,再结合颜色等特征建立模型进行分割。针对这些方法产生的前景背景混淆以及边缘粗糙等问题,本文提出结合全卷积网络的视频目标分割方法。首先通过全卷积网络预测视频序列中显著目标的轮廓,结合光流获得的运动显著性标签进行修正,然后建立时间-空间图模型,运用图割的方法获得最终的预测标签。在SegTrack v2以及DAVIS这2个通用数据集上进行评估,结果表明本文方法较基于帧间运动信息的方法在分割效果上有明显的提高。  相似文献   

6.
本文针对当前指代视频目标分割方法缺乏目标时空一致性建模和目标时空表征学习不足等问题,进行了深入的研究,提出了基于时空层级查询的指代视频目标分割方法 (STHQ).本文将指代视频目标分割看作基于查询的序列预测问题,并提出两级查询机制进行目标的时空一致性建模和时空特征学习.在第1阶段,本文提出了帧级空间信息提取模块,该模块使用语言特征作为查询独立地和视频序列中的每一帧在空间维度进行信息交互,生成包含目标空间信息的实例嵌入;在第2阶段,本文提出时空信息聚合模块,该模块使用视频级的可学习查询嵌入和第1阶段生成的实例嵌入在时空维度进行信息交互,生成具有时空表征信息的视频级实例嵌入;最后,视频级实例嵌入线性变换为条件卷积参数,并和视频序列中的每一帧进行卷积操作,生成目标的掩码预测序列.在该领域的3个基准数据集上的实验结果表明,本文提出的STHQ方法超越了现有的方法,实现了最佳的性能.  相似文献   

7.
视频插值是利用视频相邻帧的图像信息合成中间帧,可直接应用于慢动作视频回放、高频视频合成、动画制作等领域。现有基于深度体素流的视频插值模型存在合成精度低、参数量大的问题,限制其在移动端的部署应用。提出一种压缩驱动的精化深度体素流插值模型。通过预训练深度体素流模型提高视频的插值质量并确定高精度参数,利用稀疏压缩技术裁剪卷积通道数,以减少参数量并得到粗体素流,同时将输入视频帧、粗体素流和粗中间帧作为精体素流网络的输入,获得精体素流。在此基础上,通过三线性插值方法计算得到精中间帧,以增强模型对边缘信息的捕获能力,从而提高中间帧质量。在Vimeo 90K和UCF101数据集上的实验结果表明,相比DVF、SepConv、CDFI等模型,该模型的峰值信噪比和结构相似性分别平均提高1.59 dB和0.015,在保证参数量增幅较小的前提下,能够有效优化视频合成效果。  相似文献   

8.
为了满足对于道路交通车流量的预测评估需求,需要实现对监控视频中运动目标的准确提取。论文提出了一种方案:采用LK高斯金字塔光流法和帧差法相结合的方法实现流动车辆的提取。LK光流法在相对理想化的条件下,无需提前了解场景信息,能够自己独自检测运动对象。但是LK光流法在实际跟踪环境中并不太理想,针对该问题,提出结合高斯金字塔和帧差法,提高光流法的跟踪性能。二者的巧妙结合恰好可以扬长避短,获取了较好的实验效果。该方法是在VS平台上用C++语言进行程序编写,并调用了OpenCV里面的光流法有关函数。实验结果表明,采用LK高斯金字塔光流法和帧差法相结合的方法可以准确统计当前待检测视频中流动车辆的数目,实用性较高,对道路交通的疏导和公共安全领域具有一定的参考价值。  相似文献   

9.
二维卷积难以对视频数据进行有效的时间信息建模。针对这个问题,提出了一个高效的基于二维卷积的时间建模网络。该网络只需要RGB图像作为输入,避免了复杂的光流计算,在低计算复杂度的前提下,可以在行为识别任务中达到先进的准确性。网络主要由两个部分组成,即运动特征增强模块和时序聚集模块。具体来说,运动特征增强模块主要实现短期时序建模,它利用当前帧与相邻帧的差异信息对当前帧中的运动信息进行自适应性的增强,让网络能够了解图像中的哪一部分将要产生运动。时序聚集模块实现长期的时序建模,主要应用于网络的后期,通过二维卷积对时序上的信息进行信息聚合,让每一帧图像经过网络提取特征后,都能够结合时序上所有帧序列的信息。在三个常见的视频动作识别数据集(UCF101、HMDB51和Something-Something V1)上进行的大量实验表明,与大多数现有方法相比,所提出的时序建模网络可以获得先进的识别性能。  相似文献   

10.
针对目前深度学习领域人体姿态估计算法计算复杂度高的问题,提出了一种基于光流的快速人体姿态估计算法.在原算法的基础上,首先利用视频帧之间的时间相关性,将原始视频序列分为关键帧和非关键帧分别处理(相邻两关键帧之间的图像和前向关键帧组成一个视频帧组,同一视频帧组内的视频帧相似),仅在关键帧上运用人体姿态估计算法,并通过轻量级光流场将关键帧识别结果传播到其他非关键帧.其次针对视频中运动场的动态特性,提出一种基于局部光流场的自适应关键帧检测算法,以根据视频的局部时域特性确定视频关键帧的位置.在OutdoorPose和HumanEvaI数据集上的实验结果表明,对于存在背景复杂、部件遮挡等问题的视频序列中,所提算法较原算法检测性能略有提升,检测速度平均可提升89.6%.  相似文献   

11.
近年来人体行为识别成为计算机视觉领域的一个研究热点,而卷积神经网络(Convolutional Neural Network,CNN)在图像分类和识别领域取得了重要突破,但是人体行为识别是基于视频分析的,视频包含空间域和时间域两部分的信息。针对基于视频的人体行为识别问题,提出一种改进的双流卷积神经网络(Two-Stream CNN)模型,对于空间域,将视频的单帧RGB图像作为输入,送入VGGNet_16模型;对于时间域,将多帧叠加后的光流图像作为输入,送入Flow_Net模型;最终将两个模型的Softmax输出加权融合作为输出结果,得到一个多模型融合的人体行为识别器。基于JHMDB公开数据库的实验,结果证明了改进的双流CNN在人体行为识别任务上的有效性。  相似文献   

12.
在分布式视频编码(DVC)中,如何在各种运动场景下生成高质量的边信息并提升解码性能是一个重点研究领域。提出一种基于深度学习的光流插帧边信息生成算法(optical flow interpolation, OFI),编码端采用区间重叠的分布式算术编码(distributed arithmetic coding, DAC)对视频进行编码,解码端生成边信息时提取已解码关键帧,输入深度学习光流插帧网络。网络采用多层光流模块产生光流,并结合光流向后弯曲关键帧产生初步的边信息估计,再由融合过程消除遮挡产生更加细化的结果,最后边信息辅助解码树完成解码。实验结果表明,与现有方法相比,该方法PSNR最大可提升2.25 dB,主要体现在线性运动场景下。同时在线性和非线性场景下SSIM指标可提升0.001 5~0.064 8,在解码视频率失真曲线上也体现出一致的结果,证明了该算法对线性运动边信息估计有较好的提升,对非线性运动边信息结构也有良好的恢复性。  相似文献   

13.
视频目标检测是为了解决每一个视频帧中出现的目标如何进行定位和识别的问题.相比于图像目标检测,视频具有高冗余度的特性,其中包含了大量的时空局部信息.随着深度卷积神经网络在静态图像目标检测领域的迅速普及,在性能上相较于传统方法显示出了非常大的优越性,并逐步在基于视频的目标检测任务上也发挥了应有的作用.但现有的视频目标检测算...  相似文献   

14.
基于时空一致性优化的视频去雾算法*   总被引:1,自引:0,他引:1  
为了提高有雾视频的可用性,针对视频增强的需求,基于图像去雾的物理模型,利用视频相邻帧间的信息冗余性,提出了基于光流法的视频去雾方法;对视频中亮度变化以及光流法误差引起的去雾对象边界不平滑的问题,通过引入时间域和空间域能量函数,对待处理视频进行时空一致性约束。实验证明:对于定点拍摄的视频数据,使用时空一致性优化的视频去雾算法能够增加帧间稳定性,获得较为理想的去雾结果。  相似文献   

15.
针对现有的动作识别算法的特征提取复杂、识别率低等问题,提出了基于批归一化变换(batch normalization)与GoogLeNet网络模型相结合的网络结构,将图像分类领域的批归一化思想应用到动作识别领域中进行训练算法改进,实现了对视频动作训练样本的网络输入进行微批量(mini-batch)归一化处理。该方法以RGB图像作为空间网络的输入,光流场作为时间网络输入,然后融合时空网络得到最终动作识别结果。在UCF101和HMDB51数据集上进行实验,分别取得了93.50%和68.32%的准确率。实验结果表明,改进的网络架构在视频人体动作识别问题上具有较高的识别准确率。  相似文献   

16.
基于计算机视觉的人体行为识别技术是当前的研究热点,其在行为检测、视频监控等领域都有着广泛的应用价值。传统的行为识别方法,计算比较繁琐,时效性不高。深度学习的发展极大提高了行为识别算法准确性,但是此类方法和图像处理领域相比,效果上存在一定的差距。设计了一种基于DenseNet的新颖的行为识别算法,该算法以DenseNet做为网络的架构,通过2D卷积操作进行时空信息的学习,在视频中选取用于表征行为的帧,并将这些帧按时空次序组织到RGB空间上,传入网络中进行训练。在UCF101数据集上进行了大量实验,实验准确率可以达到94.46%。  相似文献   

17.
视频异常检测旨在发现视频中的异常事件,异常事件的主体多为人、车等目标,每个目标都具有丰富的时空上下文信息,而现有检测方法大多只关注时间上下文,较少考虑代表检测目标和周围目标之间关系的空间上下文。提出一种融合目标时空上下文的视频异常检测算法。采用特征金字塔网络提取视频帧中的目标以减少背景干扰,同时计算相邻两帧的光流图,通过时空双流网络分别对目标的RGB帧和光流图进行编码,得到目标的外观特征和运动特征。在此基础上,利用视频帧中的多个目标构建空间上下文,对目标外观和运动特征重新编码,并通过时空双流网络重构上述特征,以重构误差作为异常分数对外观异常和运动异常进行联合检测。实验结果表明,该算法在UCSD-ped2和Avenue数据集上帧级AUC分别达到98.5%和86.3%,在UCSD-ped2数据集上使用时空双流网络相对于只用时间流和空间流网络分别提升5.1和0.3个百分点,采用空间上下文编码后进一步提升1个百分点,验证了融合方法的有效性。  相似文献   

18.
由于视频数据在时空维度上具有复杂和冗余的信息。针对这个问题,提出运动模块,该模块基于时空特征去计算像素特征之间的时空差异。将动态的时空差异分解为两个分支进行处理,一个分支用于修正相邻帧间特征差上的时空位移,另一个分支用于捕获此时间差上的上下文信息。在当前时间差中,对时空差异的像素点的概率分布进行建模。结果表明,在尽量不影响计算量(flops)与参数量的情况下,运动模块提高了视频识别任务方面的性能,并在公共数据集上证实了其有效性和效率。  相似文献   

19.
倪苒岩  张轶 《计算机应用》2023,43(2):521-528
针对双流网络提取运动信息需要预先计算光流图,从而无法实现端到端的识别以及三维卷积网络参数量巨大的问题,提出了一种基于视频时空特征的行为识别方法。该方法能够高效提取视频中的时空信息,且无需添加任何光流计算和三维卷积操作。首先,利用基于注意力机制的运动信息提取模块捕获相邻两帧之间的运动位移信息,从而模拟双流网络中光流图的作用;其次,提出了一种解耦的时空信息提取模块代替三维卷积,从而实现时空信息的编码;最后,在将两个模块嵌入二维的残差网络中后,完成端到端的行为识别。将所提方法在几个主流的行为识别数据集上进行实验,结果表明在仅使用RGB视频帧作为输入的情况下,在UCF101、HMDB51、Something-Something-V1数据集上的识别准确率分别为96.5%、73.1%和46.6%,与使用双流结构的时间分段网络(TSN)方法相比,在UCF101数据集上的识别准确率提高了2.5个百分点。可见,所提方法能够高效提取视频中的时空特征。  相似文献   

20.
近年来使用光流作为输入特征的基于深度学习的动作预测方法逐渐成为主流,但是光流由于环境因素等影响,极易引入无关的冗余信息,从而降低动作预测的精度,而现有方法并没有考虑到光流中的冗余信息。可以从三方面去除光流图中的冗余信息:消除视频中静止部分光流所带来的冗余信息;选取合理的运动区域以消除无关背景因素引入的光流冗余信息;评估相机的运动去除相机运动产生的光流冗余信息。针对去除冗余信息的光流图,提出了一种基于深度学习的动作预测框架,通过使用空间卷积和时间卷积来减少模型的参数,使用基于时间权重的投票机制实现了对动作的预测。在UT-Interaction set1和set2数据集上的实验表明了该方法的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号