首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 218 毫秒
1.
视频异常检测旨在发现视频中的异常事件,异常事件的主体多为人、车等目标,每个目标都具有丰富的时空上下文信息,而现有检测方法大多只关注时间上下文,较少考虑代表检测目标和周围目标之间关系的空间上下文。提出一种融合目标时空上下文的视频异常检测算法。采用特征金字塔网络提取视频帧中的目标以减少背景干扰,同时计算相邻两帧的光流图,通过时空双流网络分别对目标的RGB帧和光流图进行编码,得到目标的外观特征和运动特征。在此基础上,利用视频帧中的多个目标构建空间上下文,对目标外观和运动特征重新编码,并通过时空双流网络重构上述特征,以重构误差作为异常分数对外观异常和运动异常进行联合检测。实验结果表明,该算法在UCSD-ped2和Avenue数据集上帧级AUC分别达到98.5%和86.3%,在UCSD-ped2数据集上使用时空双流网络相对于只用时间流和空间流网络分别提升5.1和0.3个百分点,采用空间上下文编码后进一步提升1个百分点,验证了融合方法的有效性。  相似文献   

2.
温静  李强 《计算机应用》2021,41(12):3565-3570
充分利用视频中的时空上下文信息能明显提高目标跟踪性能,但目前大多数基于深度学习的目标跟踪算法仅利用当前帧的特征信息来定位目标,没有利用同一目标在视频前后帧的时空上下文特征信息,导致跟踪目标易受到邻近相似目标的干扰,从而在跟踪定位时会引入一个潜在的累计误差。为了保留时空上下文信息,在SiamMask算法的基础上引入一个短期记忆存储池来存储历史帧特征;同时,提出了外观显著性增强模块(ASBM),一方面增强跟踪目标的显著性特征,另一方面抑制周围相似目标对目标的干扰。基于此,提出一种基于时空上下文信息增强的目标跟踪算法。在VOT2016、VOT2018、DAVIS-2016和DAVIS-2017等四个数据集上进行实验与分析,结果表明所提出的算法相较于SiamMask算法在VOT2016上的准确率和平均重叠率(EAO)分别提升了4个百分点和2个百分点;在VOT2018上的准确率、鲁棒性和EAO分别提升了3.7个百分点、2.8个百分点和1个百分点;在DAVIS-2016上的区域相似度、轮廓精度指标中的下降率均分别降低了0.2个百分点;在DAVIS-2017上的区域相似度、轮廓精度指标中的下降率分别降低了1.3和0.9个百分点。  相似文献   

3.
提出了一种新颖的视频显著性检测方法。为了提取视频序列中具有高置信度的特征,根据输入帧和输入帧的初始显著图提出一种简单帧选择标准,并使用该简单选择标准挑选出视频序列中比较容易且准确提取前景对象的帧,从简单帧中获得鲁棒的前景背景标签;将图像进行超像素分割,提取时空特征与前景标签输入集成学习模型,经过多核SVM集成学习,最终生成像素级别的显著图,并且由运动特征扩散到整个视频集。各种视频序列的实验结果表明,该算法在定性和定量上优于传统的显着性检测算法。  相似文献   

4.
现有的运动目标显著性提取算法对具有树枝摇晃、水波荡漾等复杂扰动背景的视频处理效果较差,无法排除背景对显著目标提取的干扰.针对此类视频,提出一种基于时空显著性信息动态融合的目标提取算法.在空间上,利用简单线性迭代聚类(SLIC)超像素分割算法计算重建误差,得到每帧图像上完整的显著目标;在时间上,考虑到显著目标内部各像素具有运动一致性的特点,利用连续多帧图像的运动估计引入运动熵来表征,同时利用中心周边差的机制来区分目标和背景的运动;最后由于人的视觉系统对运动信息更敏感,根据时间显著性的大小设置动态权重进行时空显著性融合,得到最终能兼顾动静两种情况的视频显著图.在4个视频数据库上的实验结果表明,该方法能够较好地抑制复杂扰动背景对于运动显著目标提取的干扰,优于对比方法.  相似文献   

5.
罗雪 《信息与电脑》2022,(23):194-196
为缩短视频编码和解码的时间,提升编码效率,引入深度学习算法,开展对视频编码技术的设计研究。首先,通过视频帧内预测和帧间预测,去除视频序列时间域冗余信息;其次,利用深度学习算法,对视频进行环路滤波处理;最后,生成高性能参考帧,并利用参考帧完成编码。通过对比实验证明,新的视频编码技术可有效缩短视频编码和解码的时间,从而提升编码效率,减轻视频资源存储和传输的负担。  相似文献   

6.
针对视频异常行为检测问题,提出结合全局与局部视频表示的视频异常检测算法.首先将输入视频连续多帧划分为视频块.再按空间位置将视频块划分为互不重叠的时空立方体,利用时空立方体运动特征构建基于空间位置的全局时空网格位置支持向量数据描述模型(SVDD).然后针对视频运动目标,提取局部纹理运动特征,采用SVDD获得围绕目标特征的超球体边界,构建运动目标正常行为模型.最后组合两部分以实现更全面的检测.公共数据集上的实验验证文中算法的有效性.  相似文献   

7.
针对全局运动视频序列中的目标检测,提出了改进的灰度投影算法.通过对灰度投影相关曲线的分析,根据其单峰性特征,提出了三点局域自适应搜索算法,该方法能够快速的估计出前后两帧之间的运动矢量.然后以参考帧图像背景为参照,映射当前帧的背景信息,以此补偿全局运动矢量,将连续几帧图像的相同背景稳定在同一幅图像的相同位置上,从而能够利用改进的连续三帧差分法准确地检测出运动目标,并根据目标的特征进行分类识别.实验结果表明,该方法能够有效地从视频序列中提取和识别出运动目标.  相似文献   

8.
基于时空上下文信息的目标跟踪算法利用目标与背景之间的时空关系,在一定程度上解决静态遮挡问题,但当目标出现较大遮挡或快速运动目标被背景中物体遮挡(动态遮挡)时,仍然会出现跟踪不准确或跟丢的情况.基于此种情况,文中提出基于遮挡检测和时空上下文信息的目标跟踪算法.首先利用首帧图像中压缩后的光照不变颜色特征构造并初始化时空上下文模型.然后利用双向轨迹误差对输入的视频帧进行遮挡情况判断.如果相邻帧间目标区域特征点的双向匹配误差小于给定阈值,说明目标未出现严重遮挡或动态遮挡,可以利用时空上下文模型进行准确跟踪.否则利用文中提出的组合分类器对后续帧进行目标检测,直至重新检测到目标,同时对上下文模型和分类器进行在线更新.在多个视频帧序列上的测试表明,文中算法可以较好地解决复杂场景下较严重的静态遮挡和动态遮挡问题.  相似文献   

9.
本文针对当前指代视频目标分割方法缺乏目标时空一致性建模和目标时空表征学习不足等问题,进行了深入的研究,提出了基于时空层级查询的指代视频目标分割方法 (STHQ).本文将指代视频目标分割看作基于查询的序列预测问题,并提出两级查询机制进行目标的时空一致性建模和时空特征学习.在第1阶段,本文提出了帧级空间信息提取模块,该模块使用语言特征作为查询独立地和视频序列中的每一帧在空间维度进行信息交互,生成包含目标空间信息的实例嵌入;在第2阶段,本文提出时空信息聚合模块,该模块使用视频级的可学习查询嵌入和第1阶段生成的实例嵌入在时空维度进行信息交互,生成具有时空表征信息的视频级实例嵌入;最后,视频级实例嵌入线性变换为条件卷积参数,并和视频序列中的每一帧进行卷积操作,生成目标的掩码预测序列.在该领域的3个基准数据集上的实验结果表明,本文提出的STHQ方法超越了现有的方法,实现了最佳的性能.  相似文献   

10.
目的 视频目标检测旨在序列图像中定位运动目标,并为各个目标分配指定的类别标签。视频目标检测存在目标模糊和多目标遮挡等问题,现有的大部分视频目标检测方法是在静态图像目标检测的基础上,通过考虑时空一致性来提高运动目标检测的准确率,但由于运动目标存在遮挡、模糊等现象,目前视频目标检测的鲁棒性不高。为此,本文提出了一种单阶段多框检测(single shot multibox detector,SSD)与时空特征融合的视频目标检测模型。方法 在单阶段目标检测的SSD模型框架下,利用光流网络估计当前帧与近邻帧之间的光流场,结合多个近邻帧的特征对当前帧的特征进行运动补偿,并利用特征金字塔网络提取多尺度特征用于检测不同尺寸的目标,最后通过高低层特征融合增强低层特征的语义信息。结果 实验结果表明,本文模型在ImageNet VID (Imagelvet for video object detetion)数据集上的mAP (mean average precision)为72.0%,相对于TCN (temporal convolutional networks)模型、TPN+LSTM (tubelet proposal network and long short term memory network)模型和SSD+孪生网络模型,分别提高了24.5%、3.6%和2.5%,在不同结构网络模型上的分离实验进一步验证了本文模型的有效性。结论 本文模型利用视频特有的时间相关性和空间相关性,通过时空特征融合提高了视频目标检测的准确率,较好地解决了视频目标检测中目标漏检和误检的问题。  相似文献   

11.
目的 人脸表情识别是计算机视觉的核心问题之一。一方面,表情的产生对应着面部肌肉的一个连续动态变化过程,另一方面,该运动过程中的表情峰值帧通常包含了能够识别该表情的完整信息。大部分已有的人脸表情识别算法要么基于表情视频序列,要么基于单幅表情峰值图像。为此,提出了一种融合时域和空域特征的深度神经网络来分析和理解视频序列中的表情信息,以提升表情识别的性能。方法 该网络包含两个特征提取模块,分别用于学习单幅表情峰值图像中的表情静态“空域特征”和视频序列中的表情动态“时域特征”。首先,提出了一种基于三元组的深度度量融合技术,通过在三元组损失函数中采用不同的阈值,从单幅表情峰值图像中学习得到多个不同的表情特征表示,并将它们组合在一起形成一个鲁棒的且更具辩识能力的表情“空域特征”;其次,为了有效利用人脸关键组件的先验知识,准确提取人脸表情在时域上的运动特征,提出了基于人脸关键点轨迹的卷积神经网络,通过分析视频序列中的面部关键点轨迹,学习得到表情的动态“时域特征”;最后,提出了一种微调融合策略,取得了最优的时域特征和空域特征融合效果。结果 该方法在3个基于视频序列的常用人脸表情数据集CK+(the e...  相似文献   

12.
在视频应用中,运动目标的提取是一个重要的研究课题。为了对运动目标进行更有效的分割,提出了一种从视频序列中自动提取运动目标的空时分割算法。该算法在时域分割中采用基于齐异矢量消除的目标检测方法来获得运动目标的初始模板。通常,该初始模板具有不连续的边界和一些"孔"。为了得到较为完整的目标区域,用具有距离约束的区域生长算法来补偿初始模板。而在空域分割中,分水岭分割则通过考虑全局信息来增强其分割的精确性。然后,精确的运动目标即可通过空时融合模块提取出来。试验结果表明,该空时分割算法是有效的。  相似文献   

13.
一种有效的基于时空信息的视频运动对象分割算法   总被引:1,自引:0,他引:1  
为实现视频编码标准MPEG-4中语义对象的自动提取,提出一种基于时空信息的运动对象分割算法。在时域上通过双边加权累积帧差和分块高阶统计算法得到目标的运动区域检测模板,以在充分利用时域信息的同时提高算法的速度;在提取空域信息时,先对视频序列的灰度图进行对比度增强处理,然后利用自适应Canny算子获取准确的空间边缘信息;最后进行时空融合,用空域边缘信息修正过的时域运动模板来提取运动对象。实验结果表明,本算法可以快速准确地分割视频运动对象。  相似文献   

14.
基于H.264压缩域的实时运动对象分割算法   总被引:3,自引:0,他引:3       下载免费PDF全文
在压缩域内直接分割运动对象对于有实时要求的应用而言是十分必要的,H.264以其优越的压缩效率已经在许多应用中逐渐取代了MPEG-2/4,但有关在H.264压缩域内进行运动对象分割的研究还很少。为此提出了一种从H.264压缩域实时分割运动对象的算法,该算法首先对从H.264视频中提取出的原始运动矢量场进行时域和空域的归一化,接着通过对连续多帧的运动矢量场进行累积来增强显著的运动信息;然后对累积运动矢量场进行全局运动补偿,同时利用快速的统计区域生长算法按照运动相似性将其分割成多个区域;最后利用运动矢量场的方向角直方图来判断出属于运动对象的分割区域,以组成运动对象。通过对多个MPEG-4测试序列的实验结果表明,该方法不仅能够从H.264压缩域中实时地分割出运动对象,且具有良好的分割质量。  相似文献   

15.
针对移动镜头下的运动目标检测中的背景建模复杂、计算量大等问题,提出一种基于运动显著性的移动镜头下的运动目标检测方法,在避免复杂的背景建模的同时实现准确的运动目标检测。该方法通过模拟人类视觉系统的注意机制,分析相机平动时场景中背景和前景的运动特点,计算视频场景的显著性,实现动态场景中运动目标检测。首先,采用光流法提取目标的运动特征,用二维高斯卷积方法抑制背景的运动纹理;然后采用直方图统计衡量运动特征的全局显著性,根据得到的运动显著图提取前景与背景的颜色信息;最后,结合贝叶斯方法对运动显著图进行处理,得到显著运动目标。通用数据库视频上的实验结果表明,所提方法能够在抑制背景运动噪声的同时,突出并准确地检测出场景中的运动目标。  相似文献   

16.
视频显著性检测是计算机视觉领域的一个热点研究方向,其目的在于通过联合空间和时间信息实现视频序列中与运动相关的显著性目标的连续提取.由于视频序列中目标运动模式多样、场景复杂以及存在相机运动等,使得视频显著性检测极具挑战性.本文将对现有的视频显著性检测方法进行梳理,介绍相关实验数据集,并通过实验比较分析现有方法的性能.首先,本文介绍了基于底层线索的视频显著性检测方法,主要包括基于变换分析的方法、基于稀疏表示的方法、基于信息论的方法、基于视觉先验的方法和其他方法五类.然后,对基于学习的视频显著性检测方法进行了总结,主要包括传统学习方法和深度学习方法,并着重对后一类方法进行了介绍.随后,介绍了常用的视频显著性检测数据集,给出了四种算法性能评价指标,并在不同数据集上对最新的几种算法进行了定性和定量的比较分析.最后,对视频显著性检测的关键问题进行了总结,并对未来的发展趋势进行了展望.  相似文献   

17.
深度学习在人物动作识别方面已取得较好的成效,但当前仍然需要充分利用视频中人物的外形信息和运动信息。为利用视频中的空间信息和时间信息来识别人物行为动作,提出一种时空双流视频人物动作识别模型。该模型首先利用两个卷积神经网络分别抽取视频动作片段空间和时间特征,接着融合这两个卷积神经网络并提取中层时空特征,最后将提取的中层特征输入到3D卷积神经网络来完成视频中人物动作的识别。在数据集UCF101和HMDB51上,进行视频人物动作识别实验。实验结果表明,所提出的基于时空双流的3D卷积神经网络模型能够有效地识别视频人物动作。  相似文献   

18.
Petri网模型对复合时序事件具有较好的描述和检测能力,提出基于Petri网描述和推理的监控视频事件信息的自动识别方法。将运动目标及其特征间的空间关系用Petri网的库表示,时间关系及其他推理规则用变迁表示,结合低级计算机视觉算法获得的运动目标特征以及基本事件信息,通过对Petri网推理执行,实现监控视频复杂语义事件的交互式查询,通过实验验证了该方法的有效性。  相似文献   

19.
目的 视频中的人体行为识别技术对智能安防、人机协作和助老助残等领域的智能化起着积极的促进作用,具有广泛的应用前景。但是,现有的识别方法在人体行为时空特征的有效利用方面仍存在问题,识别准确率仍有待提高。为此,本文提出一种在空间域使用深度学习网络提取人体行为关键语义信息并在时间域串联分析从而准确识别视频中人体行为的方法。方法 根据视频图像内容,剔除人体行为重复及冗余信息,提取最能表达人体行为变化的关键帧。设计并构造深度学习网络,对图像语义信息进行分析,提取表达重要语义信息的图像关键语义区域,有效描述人体行为的空间信息。使用孪生神经网络计算视频帧间关键语义区域的相关性,将语义信息相似的区域串联为关键语义区域链,将关键语义区域链的深度学习特征计算并融合为表达视频中人体行为的特征,训练分类器实现人体行为识别。结果 使用具有挑战性的人体行为识别数据集UCF (University of Central Florida)50对本文方法进行验证,得到的人体行为识别准确率为94.3%,与现有方法相比有显著提高。有效性验证实验表明,本文提出的视频中关键语义区域计算和帧间关键语义区域相关性计算方法能够有效提高人体行为识别的准确率。结论 实验结果表明,本文提出的人体行为识别方法能够有效利用视频中人体行为的时空信息,显著提高人体行为识别准确率。  相似文献   

20.
为了利用计算机视觉技术准确检测老年人的跌倒状况,针对现有跌倒检测算法中人为设计特征造成的不完备性以及跌倒检测过程中前后景分离困难、目标混淆、运动目标丢失、跌倒检测准确率低等问题,提出了一种融合人体运动信息的深度学习跌倒检测算法对人体跌倒状态进行检测.首先,通过改进YOLOv3网络进行前景与背景的分离,并根据YOLOv3...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号