首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 171 毫秒
1.
时空特征传播对准确的无监督视频目标分割任务至关重要.但是,由于现实中视频的复杂性,导致时空特征学习与传播变得十分具有挑战性.在本文中,提出了两个新颖的模块分别用于增强视频中目标的空间和时间表示.具体来说,首先,针对当前帧,在空间上提出一个新颖的多方向注意力模块,旨在沿着水平、垂直与通道方向上分别提取注意力图.同时,设计了一个并行时序模块用于整合当前帧和之前帧的信息.该模块并行地计算出连续帧之间的二阶相似度,并且根据该相似度图重新对当前帧特征进行加权与增强.此外,该相似度图还直接生成一个有效的掩膜,用于进一步增广当前帧中目标的特征表示.接着,将上述空间和时间特征进行融合以获得最终增广的时空特征表示,并将其输入解码器来预测当前帧中待分割目标的掩膜.在三个主流无监督视频目标分割数据集上的大量实验结果表明,本文提出的方法与当前最新方法相比取得了领先的性能.相关代码将公布在https://github.com/su1517007879/MP-VOS.  相似文献   

2.
目的 传统的半监督视频分割多是基于光流的方法建模关键帧与当前帧之间的特征关联。而光流法在使用过程中容易因遮挡、特殊纹理等情况产生错误,从而导致多帧融合存在问题。为了更好地融合多帧特征,本文提取第1帧的外观特征信息与邻近关键帧的位置信息,通过Transformer和改进的PAN(path aggregation network)模块进行特征融合,从而基于多帧时空注意力学习并融合多帧的特征。方法 多帧时空注意力引导的半监督视频分割方法由视频预处理(即外观特征提取网络和当前帧特征提取网络)以及基于Transformer和改进的PAN模块的特征融合两部分构成。具体包括以下步骤:构建一个外观信息特征提取网络,用于提取第1帧图像的外观信息;构建一个当前帧特征提取网络,通过Transformer模块对当前帧与第1帧的特征进行融合,使用第1帧的外观信息指导当前帧特征信息的提取;借助邻近数帧掩码图与当前帧特征图进行局部特征匹配,决策出与当前帧位置信息相关性较大的数帧作为邻近关键帧,用来指导当前帧位置信息的提取;借助改进的PAN特征聚合模块,将深层语义信息与浅层语义信息进行融合。结果 本文算法在DAVIS(densely annotated video segmentation)-2016数据集上的J和F得分为81.5%和80.9%,在DAVIS-2017数据集上为78.4%和77.9%,均优于对比方法。本文算法的运行速度为22帧/s,对比实验中排名第2,比PLM(pixel-level matching)算法低1.6%。在YouTube-VOS(video object segmentation)数据集上也取得了有竞争力的结果,JF的平均值达到了71.2%,领先于对比方法。结论 多帧时空注意力引导的半监督视频分割算法在对目标物体进行分割的同时,能有效融合全局与局部信息,减少细节信息丢失,在保持较高效率的同时能有效提高半监督视频分割的准确率。  相似文献   

3.
本文针对当前指代视频目标分割方法缺乏目标时空一致性建模和目标时空表征学习不足等问题,进行了深入的研究,提出了基于时空层级查询的指代视频目标分割方法 (STHQ).本文将指代视频目标分割看作基于查询的序列预测问题,并提出两级查询机制进行目标的时空一致性建模和时空特征学习.在第1阶段,本文提出了帧级空间信息提取模块,该模块使用语言特征作为查询独立地和视频序列中的每一帧在空间维度进行信息交互,生成包含目标空间信息的实例嵌入;在第2阶段,本文提出时空信息聚合模块,该模块使用视频级的可学习查询嵌入和第1阶段生成的实例嵌入在时空维度进行信息交互,生成具有时空表征信息的视频级实例嵌入;最后,视频级实例嵌入线性变换为条件卷积参数,并和视频序列中的每一帧进行卷积操作,生成目标的掩码预测序列.在该领域的3个基准数据集上的实验结果表明,本文提出的STHQ方法超越了现有的方法,实现了最佳的性能.  相似文献   

4.
提出了基于二阶非线性投票的多目标跟踪算法。该算法通过目标匹配得到同一目标在不同帧中的位置,同时利用特征监测来处理目标的遮挡、分裂问题,并实现目标特征的实时更新。在目标匹配过程中,通过对目标前一帧与当前帧的特征相似性进行投票,得到匹配目标。利用视频图像进行实验,结果表明,该方法对噪声、阴影、遮挡、分裂等具有良好的鲁棒性,较好地实现了多目标的跟踪。  相似文献   

5.
张晓燕  赵荣椿  聂烜 《计算机工程》2006,32(24):159-161
提出了一种基于小波变换和运动边缘检测的自动视频对象分割方法。该方法对相邻帧分别进行二维小波变换,在小波域进行变化检测和Canny边缘提取,返回空间域后得到鲁棒的相邻帧差分边缘模板。结合当前帧边缘、背景边缘和前一帧的运动边缘,检测出当前帧对象的运动边缘,从而实现对视频对象的提取。通过实验验证,该算法对目标的整体运动和局部形变都有较强的适应性。此外,算法还具有快速、简便、准确性高的特点。  相似文献   

6.
针对前景和背景深度交叠或相机运动时基于深度统计的传统视频分割算法中存在的问题,提出一种基于时空测地线的方法,并证明该方法适合基于深度的视频分割.首先使用基于运动检测的方式进行初始化;然后使用基于特征点选择方式定义种子结点,特征点匹配方式构建时域链接,空间上8邻域像素连接形成空域链接,在连续两帧之间构建时空测地线传播图;最后在时空测地线传播图上使用泛化测地线距离变换将前一帧的分割结果传播到当前帧,并自适应地在传播和检测间切换消除累计误差.实验结果表明,该方法能够在复杂场景和相机运动情形下输出稳定的分割结果.  相似文献   

7.
为了高效、准确地获得视频中的行为类别和运动信息,减少计算的复杂度,文中提出一种融合特征传播和时域分割网络的视频行为识别算法.首先将视频分为3个小片段,分别从相应片段中提取关键帧,从而实现对长时间视频的建模;然后设计一个包含特征传播表观信息流和FlowNet运动信息流的改进时域分割网络(P-TSN),分别以RGB关键帧、RGB非关键帧、光流图为输入提取视频的表观信息流和运动信息流;最后将改进时域分割网络的BN-Inception描述子进行平均加权融合后送入Softmax层进行行为识别.在UCF101和HMDB51这2个数据集上分别取得了94.6%和69.4%的识别准确率,表明该算法能够有效地获得视频中空域表观信息和时域运动信息,提高了视频行为识别的准确率.  相似文献   

8.
目的 视频目标分割是在给定第1帧标注对象掩模条件下,实现对整个视频序列中感兴趣目标的分割。但是由于分割对象尺度的多样性,现有的视频目标分割算法缺乏有效的策略来融合不同尺度的特征信息。因此,本文提出一种特征注意金字塔调制网络模块用于视频目标分割。方法 首先利用视觉调制器网络和空间调制器网络学习分割对象的视觉和空间信息,并以此为先验引导分割模型适应特定对象的外观。然后通过特征注意金字塔模块挖掘全局上下文信息,解决分割对象多尺度的问题。结果 实验表明,在DAVIS 2016数据集上,本文方法在不使用在线微调的情况下,与使用在线微调的最先进方法相比,表现出更具竞争力的结果,J-mean指标达到了78.7%。在使用在线微调后,本文方法的性能在DAVIS 2017数据集上实现了最好的结果,J-mean指标达到了68.8%。结论 特征注意金字塔调制网络的视频目标分割算法在对感兴趣对象分割的同时,针对不同尺度的对象掩模能有效结合上下文信息,减少细节信息的丢失,实现高质量视频对象分割。  相似文献   

9.
视频目标分割任务是通过算法自动获得视频序列中感兴趣目标对应的像素级区域.因为存在目标表观变化、尺度变化、相似目标干扰、遮挡等困难,所以视频目标分割是一个非常有挑战的任务.现有的方法按照对给定的视频第一帧真实标签的利用方式不同可以分为两类:一类是基于在线归纳学习的方法;另一类是基于直推推理的方法.基于在线归纳学习的方法为了获得准确的结果,在测试阶段,利用给定的初始帧分割图来在线地微调整个网络,导致时间消耗较大,很难满足实时需求.此外,基于直推推理的方法在建模时序推理规则时需要使用大量的合成数据或者标注数据,增加了算法训练的成本.为了充分利用基于在线归纳学习和基于直推推理的两类算法的优点,同时避免两种方法的缺点,本文提出了一个新的结合在线归纳学习和直推推理的快速视频目标分割算法,该网络由直推推理分支和在线归纳分支组成.具体的,直推推理分支可以通过视频前若干帧图像和对应的分割图建模视频短期内的时序变换和运动信息,从而推理出当前帧的分割结果,其学到的时序特征可以指导网络提高视频分割的稳定性.直推推理分支的预训练过程中只需要使用无标注的原始视频数据,不需要使用任何的合成或标注信息.在线归纳分支根...  相似文献   

10.
为了实现在监控视频中对人体运动目标的准确提取,针对传统的三帧差分法在运动目标提取过程中容易出现“空洞”现象,提出了一种鲁棒主成分分析(Robust Principal Component Analysis,RPCA)与三帧差分相融合的运动目标检测算法。本算法通过将RPCA提取的视频当前帧的背景作为三帧差分法的中间帧与视频当前帧的前一帧和视频当前帧分别进行邻间差分,使得三帧差分法在运动目标检测过程中避免了背景像素点所带来的影响,消除了“空洞”现象。仿真结果表明该算法在完整性和准确性方面要优于其他三种传统运动目标检测算法,可以在复杂背景环境中实现准确的运动目标提取。  相似文献   

11.
目的 针对视觉目标跟踪(video object tracking,VOT)和视频对象分割(video object segmentation,VOS)问题,研究人员提出了多个多任务处理框架,但是该类框架的精确度和鲁棒性较差。针对此问题,本文提出一个融合多尺度上下文信息和视频帧间信息的实时视觉目标跟踪与视频对象分割多任务的端到端框架。方法 文中提出的架构使用了由空洞深度可分离卷积组成的更加多尺度的空洞空间金字塔池化模块,以及具备帧间信息的帧间掩模传播模块,使得网络对多尺度目标对象分割能力更强,同时具备更好的鲁棒性。结果 本文方法在视觉目标跟踪VOT-2016和VOT-2018数据集上的期望平均重叠率(expected average overlap,EAO)分别达到了0.462和0.408,分别比SiamMask高了0.029和0.028,达到了最先进的结果,并且表现出更好的鲁棒性。在视频对象分割DAVIS(densely annotated video segmentation)-2016和DAVIS-2017数据集上也取得了有竞争力的结果。其中,在多目标对象分割DAVIS-2017数据集上,本文方法比SiamMask有更好的性能表现,区域相似度的杰卡德系数的平均值JM和轮廓精确度的F度量的平均值FM分别达到了56.0和59.0,并且区域和轮廓的衰变值JDFD都比SiamMask中的低,分别为17.9和19.8。同时运行速度为45帧/s,达到了实时的运行速度。结论 文中提出的融合多尺度上下文信息和视频帧间信息的实时视觉目标跟踪与视频对象分割多任务的端到端框架,充分捕捉了多尺度上下文信息并且利用了视频帧间的信息,使得网络对多尺度目标对象分割能力更强的同时具备更好的鲁棒性。  相似文献   

12.
目的 视频目标分割(video object segmentation, VOS)是在给定初始帧的目标掩码条件下,实现对整个视频序列中感兴趣对象的分割,但是视频中往往会出现目标形状不规则、背景中存在干扰信息和运动速度过快等情况,影响视频目标分割质量。对此,本文提出一种融合视觉词和自注意力机制的视频目标分割算法。方法 对于参考帧,首先将其图像输入编码器中,提取分辨率为原图像1/8的像素特征。然后将该特征输入由若干卷积核构成的嵌入空间中,并将其结果上采样至原始尺寸。最后结合参考帧的目标掩码信息,通过聚类算法对嵌入空间中的像素进行聚类分簇,形成用于表示目标对象的视觉词。对于目标帧,首先将其图像通过编码器并输入嵌入空间中,通过单词匹配操作用参考帧生成的视觉词来表示嵌入空间中的像素,并获得多个相似图。然后,对相似图应用自注意力机制捕获全局依赖关系,最后取通道方向上的最大值作为预测结果。为了解决目标对象的外观变化和视觉词失配的问题,提出在线更新机制和全局校正机制以进一步提高准确率。结果 实验结果表明,本文方法在视频目标分割数据集DAVIS(densely annotated video segme...  相似文献   

13.
目的 针对现有视频目标分割(video object segmentation,VOS)算法不能自适应进行样本权重更新,以及使用过多的冗余特征信息导致不必要的空间与时间消耗等问题,提出一种自适应权重更新的轻量级视频目标分割算法。方法 首先,为建立一个具有较强目标判别性的算法模型,所提算法根据提取特征的表征质量,自适应地赋予特征相应的权重;其次,为了去除冗余信息,提高算法的运行速度,通过优化信息存储策略,构建了一个轻量级的记忆模块。结果 实验结果表明,在公开数据集DAVIS2016 (densely annotated video segmentation)和DAVIS2017上,本文算法的区域相似度与轮廓准确度的均值J&F分别达到了85.8%和78.3%,与对比的视频目标分割算法相比具有明显的优势。结论 通过合理且无冗余的历史帧信息利用方式,提升了算法对于目标建模的泛化能力,使目标掩码质量更高。  相似文献   

14.
提出了一种基于层次化结构的视频颜色迁移方法。利用层次化分割技术对视频帧进行区域分割并将分割区域之间的组织关系用树的形式来描述,形成表示图像组成区域的具有层次化特征的树状结构。通过定义表示图像的树之间的层次化结构的相似性比较方法,对迁移图像之间的局部区域特征进行相似性比较,以寻找目标图像与参考图像局部迁移的最佳区域。在此基础上,利用颜色概率分布迁移的方法在图像的不同区域上进行局部颜色迁移以实现保持目标图像视觉特征的目的。  相似文献   

15.
视频目标检测是对视频内的目标进行准确分类与定位。现有基于深度学习的视频目标检测方法通过光流传播特征,不仅存在模型参数量大的问题,而且直接将光流应用于高层特征难以建立准确的空间对应关系。提出一种轻量级的视频目标检测方法。通过设计一种特征传播模型,在不同帧的局部区域内将高层特征从关键帧传播到非关键帧,并将有限的计算资源分配给关键帧,以加快检测速度。构建动态分配关键帧模块,根据目标运动速度动态地调整关键帧选择间隔,以减少计算量并提高检测精度。在此基础上,为进一步降低最大延迟,提出异步检测模式,使得特征传播模型和关键帧选择模块协同工作。实验结果表明,该方法的检测速度和最大延迟分别为31.8 frame/s和31 ms,与基于内存增强的全局-局部聚合方法相比,其在保证检测精度的前提下,具有较快的检测速度,并且实现实时在线的视频目标检测。  相似文献   

16.
目的 卷积神经网络广泛应用于目标检测中,视频目标检测的任务是在序列图像中对运动目标进行分类和定位。现有的大部分视频目标检测方法在静态图像目标检测器的基础上,利用视频特有的时间相关性来解决运动目标遮挡、模糊等现象导致的漏检和误检问题。方法 本文提出一种双光流网络指导的视频目标检测模型,在两阶段目标检测的框架下,对于不同间距的近邻帧,利用两种不同的光流网络估计光流场进行多帧图像特征融合,对于与当前帧间距较小的近邻帧,利用小位移运动估计的光流网络估计光流场,对于间距较大的近邻帧,利用大位移运动估计的光流网络估计光流场,并在光流的指导下融合多个近邻帧的特征来补偿当前帧的特征。结果 实验结果表明,本文模型的mAP(mean average precision)为76.4%,相比于TCN(temporal convolutional networks)模型、TPN+LSTM(tubelet proposal network and long short term memory network)模型、D(&T loss)模型和FGFA(flow-guided feature aggregation)模型分别提高了28.9%、8.0%、0.6%和0.2%。结论 本文模型利用视频特有的时间相关性,通过双光流网络能够准确地从近邻帧补偿当前帧的特征,提高了视频目标检测的准确率,较好地解决了视频目标检测中目标漏检和误检的问题。  相似文献   

17.
多目标跟踪技术在视频分析、信号处理等领域有着广泛的应用。在现代多目标跟踪系统通常遵循的“按检测跟踪”模式中,目标检测器的性能决定了多目标跟踪任务的跟踪精度和速度。为提高多目标跟踪系统跟踪性能,提出了面向多目标跟踪系统的专用循环目标检测器,它利用视频帧序列间高度相似性的特点,依据先前帧的目标位置信息和当前帧相对于先前帧的变化得分图来选取候选框,解决了传统二阶段目标检测器中使用候选框推荐网络带来的参数量和计算量大的问题,同时融合了目标外观特征提取分支,进一步减少了多目标跟踪系统整体运行时间。实验表明,专用循环目标检测器及其他最先进的检测器分别应用于多目标跟踪系统,采用专用循环目标检测器时能够在保证多目标跟踪系统跟踪精度的情况下提升跟踪速度。  相似文献   

18.
基于深度模型的视频动作识别通常先对输入视频进行采样,然后对获得的视频帧进行特征表达,输出动作类别,因此视频帧采样方法对动作识别的效果有直接的影响。为了在采样到关键有效的特征同时,并增强视频运动信息,提出了一种基于特征级采样策略的局部—全局运动信息增强的动作识别网络(local-global motion enhancement network,LGMeNet)。首先,利用特征级采样模块对输入数据进行相同运动信息间隔均匀取帧;其次,局部运动特征提取模块使用相似性函数计算单帧短期运动特征;最后,全局运动特征提取模块利用LSTM网络计算多尺度长期运动特征。通过实验评估,LGMeNet在UCF101和Something-SomethingV1数据集上分别取得了97.7%和56.9%的精确度。结果表明,采用LGMeNet能够有效提升动作识别的效果,对进一步改进相关领域的研究具有重要意义。  相似文献   

19.
目的 视频目标检测旨在序列图像中定位运动目标,并为各个目标分配指定的类别标签。视频目标检测存在目标模糊和多目标遮挡等问题,现有的大部分视频目标检测方法是在静态图像目标检测的基础上,通过考虑时空一致性来提高运动目标检测的准确率,但由于运动目标存在遮挡、模糊等现象,目前视频目标检测的鲁棒性不高。为此,本文提出了一种单阶段多框检测(single shot multibox detector,SSD)与时空特征融合的视频目标检测模型。方法 在单阶段目标检测的SSD模型框架下,利用光流网络估计当前帧与近邻帧之间的光流场,结合多个近邻帧的特征对当前帧的特征进行运动补偿,并利用特征金字塔网络提取多尺度特征用于检测不同尺寸的目标,最后通过高低层特征融合增强低层特征的语义信息。结果 实验结果表明,本文模型在ImageNet VID (Imagelvet for video object detetion)数据集上的mAP (mean average precision)为72.0%,相对于TCN (temporal convolutional networks)模型、TPN+LSTM (tubelet proposal network and long short term memory network)模型和SSD+孪生网络模型,分别提高了24.5%、3.6%和2.5%,在不同结构网络模型上的分离实验进一步验证了本文模型的有效性。结论 本文模型利用视频特有的时间相关性和空间相关性,通过时空特征融合提高了视频目标检测的准确率,较好地解决了视频目标检测中目标漏检和误检的问题。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号