共查询到20条相似文献,搜索用时 0 毫秒
1.
2.
目的 视频目标分割是计算机视觉领域的一个重要方向,已有的一些方法在面对目标形状不规则、帧间运动存在干扰信息和运动速度过快等情况时,显得无能为力。针对以上不足,提出基于特征一致性的分割算法。方法 本文分割算法框架是基于马尔可夫随机场(Markov random field,MRF)的图论方法。使用高斯混合模型,对预先给定的已标记区域分别进行颜色特征的建模,获得分割的数据项。结合颜色、光流方向等多种特征,建立时空平滑项。在此基础之上,加入基于特征一致性的能量约束项,以增强分割结果的外观一致性。这项添加的能量本身属于一种高阶能量约束,会显著增加能量优化的计算复杂度。为此,添加辅助结点,以解决能量的优化问题,从而提高算法速度。结果 在DAVIS_2016(densely annotated video segmentation)数据集上对该算法进行评估与测试,并与最新的基于图论的方法进行对比分析,对比算法主要有HVS(efficient hierarchical graph-based video segmentation)、NLC(video segmentation by non-local consensus voting)、BVS(bilateral space video segmentation)和OFL(video segmentation via object flow)。本文算法的分割结果精度排在第2,比OFL算法略低1.6%;在算法的运行速度方面,本文算法领先于对比方法,尤其是OFL算法的近6倍。结论 所提出的分割算法在MRF框架的基础之上融合了特征一致性的约束,在不增加额外计算复杂度的前提下,提高了分割精度,提升了算法运行速度。 相似文献
3.
针对复杂视频场景中难以分割特定目标的问题,提出一种基于双重金字塔网络(DPN)的视频目标分割方法。首先,通过调制网络的单向传递让分割模型适应特定目标的外观。具体而言,从给定目标的视觉和空间信息中学习一种调制器,并通过调制器调节分割网络的中间层以适应特定目标的外观变化。然后,通过基于不同区域的上下文聚合的方法,在分割网络的最后一层中聚合全局上下文信息。最后,通过横向连接的自左而右结构,在所有尺度中构建高阶语义特征图。所提出的视频目标分割方法是一个可以端到端训练的分割网络。大量实验结果表明,所提方法在DAVIS2016数据集上的性能与较先进的使用在线微调的方法相比,可达到相竞争的结果,且在DAVIS2017数据集上性能较优。 相似文献
4.
我们提出了一个全新的视频分割的方法。它不仅效率很高,而且,可以为任意长的视频生成结果。首先,我们将每一帧图像利用超像素的方法进行预分割。然后,利用基于图的层级分割的方法,将每一帧的预分割进一步分割成不同的区域。预分割中光流分析的方法保证了分割结果的时间空间一致性。在利用这种方法对视频进行分割的时候,我们只要根据上一帧的结果就可以计算下一帧,所以,我们可以针对任意长度的视频进行分割。 相似文献
5.
大量基于深度学习的视频目标分割方法存在两方面局限性:1)单帧编码特征直接输入网络解码器,未能充分利用多帧特征,导致解码器输出的目标表观特征难以自适应复杂场景变化;2)常采用前馈网络结构,阻止了后层特征反馈前层进行补充学习,导致学习到的表观特征判别力受限.为此,本文提出了反馈高斯表观网络,通过建立在线高斯模型并反馈后层特征到前层来充分利用多帧、多尺度特征,学习鲁棒的视频目标分割表观模型.网络结构包括引导、查询与分割三个分支.其中,引导与查询分支通过共享权重来提取引导与查询帧的特征,而分割分支则由多尺度高斯表观特征提取模块与反馈多核融合模块构成.前一个模块通过建立在线高斯模型融合多帧、多尺度特征来增强对外观的表征力,后一个模块则通过引入反馈机制进一步增强模型的判别力.最后,本文在三个标准数据集上进行了大量评测,充分证明了本方法的优越性能. 相似文献
6.
针对已有视频分割算法对复杂动态背景下所出现的误分割问题,提出通过显著性映射构造时空注意特征,并采用分层条件随机场进行视频分割,提高分割准确率。算法首先根据视觉注意理论提取时域和空域特征,并建立加权混合模型。其次,采用该混合模型计算运动目标的显著性映射概率分布,有效地提取出运动目标区域。最后,在显著性映射概率分布基础上,采用高斯混合模型建立前景和背景的能量函数,构造分层条件随机场模型对这些特征能量函数进行分割建模,精确地提取出运动对象目标。实验结果表明,该算法即使对复杂动态背景下的视频也能够得到稳定的分割效果,有效地去除摄像机运动等所导致的误分割问题。 相似文献
7.
目的 传统的半监督视频分割多是基于光流的方法建模关键帧与当前帧之间的特征关联。而光流法在使用过程中容易因遮挡、特殊纹理等情况产生错误,从而导致多帧融合存在问题。为了更好地融合多帧特征,本文提取第1帧的外观特征信息与邻近关键帧的位置信息,通过Transformer和改进的PAN(path aggregation network)模块进行特征融合,从而基于多帧时空注意力学习并融合多帧的特征。方法 多帧时空注意力引导的半监督视频分割方法由视频预处理(即外观特征提取网络和当前帧特征提取网络)以及基于Transformer和改进的PAN模块的特征融合两部分构成。具体包括以下步骤:构建一个外观信息特征提取网络,用于提取第1帧图像的外观信息;构建一个当前帧特征提取网络,通过Transformer模块对当前帧与第1帧的特征进行融合,使用第1帧的外观信息指导当前帧特征信息的提取;借助邻近数帧掩码图与当前帧特征图进行局部特征匹配,决策出与当前帧位置信息相关性较大的数帧作为邻近关键帧,用来指导当前帧位置信息的提取;借助改进的PAN特征聚合模块,将深层语义信息与浅层语义信息进行融合。结果 本文算法在DAVIS(densely annotated video segmentation)-2016数据集上的J和F得分为81.5%和80.9%,在DAVIS-2017数据集上为78.4%和77.9%,均优于对比方法。本文算法的运行速度为22帧/s,对比实验中排名第2,比PLM(pixel-level matching)算法低1.6%。在YouTube-VOS(video object segmentation)数据集上也取得了有竞争力的结果,J和F的平均值达到了71.2%,领先于对比方法。结论 多帧时空注意力引导的半监督视频分割算法在对目标物体进行分割的同时,能有效融合全局与局部信息,减少细节信息丢失,在保持较高效率的同时能有效提高半监督视频分割的准确率。 相似文献
8.
随着基于对象视频应用的发展,视频对象的分割成为人们研究的熟点。本文提出了一种结合变化检测与时空滤波器快速分割视频对象的新方法,该方法利用t分布显著性检验检测帧问的变化,不需要知道噪声的方差;利用间隔为k的两帧图像代替连续两帧进行变化检测,可以很好地处理关节运动和慢运动。然后通过时空滤波器快速有效地消除由于视频对象运动而露出的背景区域,同时能够减少变化检测掩膜中的残留噪声。最后,通过形态学处理实现视频对象的分割。 相似文献
9.
10.
时空特征传播对准确的无监督视频目标分割任务至关重要.但是,由于现实中视频的复杂性,导致时空特征学习与传播变得十分具有挑战性.在本文中,提出了两个新颖的模块分别用于增强视频中目标的空间和时间表示.具体来说,首先,针对当前帧,在空间上提出一个新颖的多方向注意力模块,旨在沿着水平、垂直与通道方向上分别提取注意力图.同时,设计了一个并行时序模块用于整合当前帧和之前帧的信息.该模块并行地计算出连续帧之间的二阶相似度,并且根据该相似度图重新对当前帧特征进行加权与增强.此外,该相似度图还直接生成一个有效的掩膜,用于进一步增广当前帧中目标的特征表示.接着,将上述空间和时间特征进行融合以获得最终增广的时空特征表示,并将其输入解码器来预测当前帧中待分割目标的掩膜.在三个主流无监督视频目标分割数据集上的大量实验结果表明,本文提出的方法与当前最新方法相比取得了领先的性能.相关代码将公布在https://github.com/su1517007879/MP-VOS. 相似文献
11.
12.
目的 从大量数据中学习时空目标模型对于半监督视频目标分割任务至关重要,现有方法主要依赖第1帧的参考掩膜(通过光流或先前的掩膜进行辅助)估计目标分割掩膜。但由于这些模型在对空间和时域建模方面的局限性,在快速的外观变化或遮挡下很容易失效。因此,提出一种时空部件图卷积网络模型生成鲁棒的时空目标特征。方法 首先,使用孪生编码模型,该模型包括两个分支:一个分支输入历史帧和掩膜捕获序列的动态特征,另一个分支输入当前帧图像和前一帧的分割掩膜。其次,构建时空部件图,使用图卷积网络学习时空特征,增强目标的外观和运动模型,并引入通道注意模块,将鲁棒的时空目标模型输出到解码模块。最后,结合相邻阶段的多尺度图像特征,从时空信息中分割出目标。结果 在DAVIS(densely annotated video segmentation)-2016和DAVIS-2017两个数据集上与最新的12种方法进行比较,在DAVIS-2016数据集上获得了良好性能,Jacccard相似度平均值(Jaccard similarity-mean,J-M)和F度量平均值(F measure-mean,F-M)得分达到了85.3%,比性能最高的对比方法提高了1.7%;在DAVIS-2017数据集上,J-M和F-M得分达到了68.6%,比性能最高的对比方法提高了1.2%。同时,在DAVIS-2016数据集上,进行了网络输入与后处理的对比实验,结果证明本文方法改善了多帧时空特征的效果。结论 本文方法不需要在线微调和后处理,时空部件图模型可缓解因目标外观变化导致的视觉目标漂移问题,同时平滑精细模块增加了目标边缘细节信息,提高了视频目标分割的性能。 相似文献
13.
对视频中的目标进行像素级分割是计算机视觉领域的研究热点,完全没有用户标注的无监督视频分割对分割算法提出了更高的要求。近几年在分割中常使用基于帧间运动信息进行建模的方法,即用光流等运动信息预测目标轮廓,再结合颜色等特征建立模型进行分割。针对这些方法产生的前景背景混淆以及边缘粗糙等问题,本文提出结合全卷积网络的视频目标分割方法。首先通过全卷积网络预测视频序列中显著目标的轮廓,结合光流获得的运动显著性标签进行修正,然后建立时间-空间图模型,运用图割的方法获得最终的预测标签。在SegTrack v2以及DAVIS这2个通用数据集上进行评估,结果表明本文方法较基于帧间运动信息的方法在分割效果上有明显的提高。 相似文献
14.
文章主要研究半监督视频目标分割任务,输入一个完整视频及首帧的像素级标注(掩膜),使用端到端的深度神经网络模型来预测后续帧的掩膜.该模型使用残差卷积网络进行深度特征提取,通过层次级联模块实现各层次不同分辨率特征的交互融合,以此捕捉不同尺寸的目标,并通过尺度融合模块处理视频帧的细节和语义信息,生成像素级分类标注.在主流视频... 相似文献
15.
16.
文本指代实例分割(RIS)任务是解析文本描述所指代的实例,并在对应图像中分割出该实例,是计算机视觉与媒体领域中热门的研究课题。当前,大多数RIS方法基于单尺度文本/图像模态信息的融合,以感知指代实例的位置和语义信息。然而,单一尺度模态信息很难同时涵盖定位不同大小实例所需的语义和结构上下文信息,阻碍了模型对任意大小指代实例的感知,进而影响模型对不同大小指代实例的分割。对此,设计多尺度视觉-语言交互感知模块和多尺度掩膜预测模块:前者增强模型对不同尺度实例语义与文本语义之间的融合与感知;后者通过充分捕捉不同尺度实例的所需语义和结构信息提升指代实例分割的表现。由此,提出了多尺度模态感知的文本指代实例分割模型(MMPN-RIS)。实验结果表明,MMPN-RIS模型在RefCOCO,RefCOCO+和RefCOCOg3个公开数据集的oIoU指标上均达到了前沿性能;针对文本指代不同尺度实例的分割,MMPN-RIS模型有着较好的表现。 相似文献
17.
一种有效的基于时空信息的视频运动对象分割算法 总被引:1,自引:0,他引:1
为实现视频编码标准MPEG-4中语义对象的自动提取,提出一种基于时空信息的运动对象分割算法。在时域上通过双边加权累积帧差和分块高阶统计算法得到目标的运动区域检测模板,以在充分利用时域信息的同时提高算法的速度;在提取空域信息时,先对视频序列的灰度图进行对比度增强处理,然后利用自适应Canny算子获取准确的空间边缘信息;最后进行时空融合,用空域边缘信息修正过的时域运动模板来提取运动对象。实验结果表明,本算法可以快速准确地分割视频运动对象。 相似文献
18.
视频目标分割任务是通过算法自动获得视频序列中感兴趣目标对应的像素级区域.因为存在目标表观变化、尺度变化、相似目标干扰、遮挡等困难,所以视频目标分割是一个非常有挑战的任务.现有的方法按照对给定的视频第一帧真实标签的利用方式不同可以分为两类:一类是基于在线归纳学习的方法;另一类是基于直推推理的方法.基于在线归纳学习的方法为了获得准确的结果,在测试阶段,利用给定的初始帧分割图来在线地微调整个网络,导致时间消耗较大,很难满足实时需求.此外,基于直推推理的方法在建模时序推理规则时需要使用大量的合成数据或者标注数据,增加了算法训练的成本.为了充分利用基于在线归纳学习和基于直推推理的两类算法的优点,同时避免两种方法的缺点,本文提出了一个新的结合在线归纳学习和直推推理的快速视频目标分割算法,该网络由直推推理分支和在线归纳分支组成.具体的,直推推理分支可以通过视频前若干帧图像和对应的分割图建模视频短期内的时序变换和运动信息,从而推理出当前帧的分割结果,其学到的时序特征可以指导网络提高视频分割的稳定性.直推推理分支的预训练过程中只需要使用无标注的原始视频数据,不需要使用任何的合成或标注信息.在线归纳分支根... 相似文献
19.
从视频序列中提取视频目标是基于内容编码中的一项关键技术。提出了将高阶统计运动检测和多尺度分水岭相结合的视频目标分割算法。该算法首先利用高阶统计运动检测算法检测出运动区域,通过后处理得到运动目标的初始模板。然后,用小波变换对视频图像进行多分辨率分解。在最低分辨率上应用分水岭算法分割得到具有精确边缘的分割区域,通过将区域融合后的区域逐步投影到高分辨率图像上并结合高分辨率图像上的分水岭算法逐步提取出具有精确边缘的区域。最后,将运动目标的初始模板和多尺度分水岭分割得到的区域结合起来提取出具有精确边缘的视频对象。实验结果表明该算法能有效地分割和提取出视频序列中的视频对象。 相似文献
20.
在DMN的基础上提出一种跨模态目标实例分割方法,旨在结合自然语言表达,利用不同模态信息从图像中分割所描述对象。在视觉特征提取网络DPN92中引入CBAM注意力机制,关注空间和通道上的有用信息;将BN层替换为联合BN和FRN的正则化,减少批次量和通道数对提取特征网络性能的影响,提高网络的泛化能力;在三个通用数据集ReferIt、GRef和UNC上进行仿真实验。实验结果显示,提出的引入CBAM注意力机制和联合正则化改进模型在mIou评价指标上,ReferIt和GRef上分别提升了1.85和0.52个百分点,在UNC三个验证集上分别提升了1.98、2.22和2.75个百分点。表明改进模型在预测准确度方面优于已有模型。 相似文献