首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 150 毫秒
1.
基于内窥镜的微创手术机器人在临床上的应用日益广泛,为医生提供内窥镜视频中精准的手术器械分割信息,对提高医生操作的准确度、改善患者预后有重要意义.现阶段,深度学习框架训练手术器械分割模型需要大量精准标注的术中视频数据,然而视频数据标注成本较高,在一定程度上限制了深度学习在该任务上的应用.目前的半监督方法通过预测与插帧,可以改善稀疏标注视频的时序信息与数据多样性,从而在有限标注数据下提高分割精度,但是这些方法在插帧质量与对连续帧时序特征方面存在一定缺陷.针对此问题,提出了一种带有时空Transformer的半监督分割框架,该方法可以通过高精度插帧与生成伪标签来提高稀疏标注视频数据集的时序一致性与数据多样性,在分割网络bottleneck位置使用Transformer模块,并利用其自我注意力机制,从时间与空间两个角度分析全局上下文信息,增强高级语义特征,改善分割网络对复杂环境的感知能力,克服手术视频中各类干扰从而提高分割效果.提出的半监督时空Transformer网络在仅使用30%带标签数据的情况下,在MICCAI2017手术器械分割挑战赛数据集上取得了平均DICE为82.42%、平均IoU...  相似文献   

2.
文章主要研究半监督视频目标分割任务,输入一个完整视频及首帧的像素级标注(掩膜),使用端到端的深度神经网络模型来预测后续帧的掩膜.该模型使用残差卷积网络进行深度特征提取,通过层次级联模块实现各层次不同分辨率特征的交互融合,以此捕捉不同尺寸的目标,并通过尺度融合模块处理视频帧的细节和语义信息,生成像素级分类标注.在主流视频...  相似文献   

3.
目标检测大量应用于监控系统的行人检测以及人脸识别,是当前深度学习的研究热点.监督学习利用人工标注大量数据集训练出针对特定场景的行人检测器.但是人工标注方法费时费力,本文针对监督学习需要人工标注数据集的缺点,研究了一种半自动标注行人的方法.针对静止的单目摄像机拍摄的监控视频,利用光流信息提供的初始前景可能性,以及跨越时间的视觉相似性来迭代地更新初始的前景可能性,分割出运动的行人,根据分割的前景对象,提出了一种半自动标注行人的方法.实验结果显示,本文的方法可以为行人检测系统提供大量数据集,且效率上明显优于传统人工标注的方法.  相似文献   

4.
针对二维图像序列提出一种基于运动对象的深度图像生成方法。采用改进的均方差累加算法提取背景模型,并利用背景差分法提取运动对象图形,将人工绘制的背景模型的深度图像,结合每帧运动对象图形深度赋值,自动合成用于二维视频到三维视频转换的图像序列的深度图像。实验结果证明,相对于传统的仅仅依靠计算机视觉获取深度图像的方法,它获得的深度图像,不仅画面的深度信息真实、可靠,而且转换后的三维场景更立体化。  相似文献   

5.
视觉理解,如物体检测、语义和实例分割以及动作识别等,在人机交互和自动驾驶等领域中有着广泛的应用并发挥着至关重要的作用。近年来,基于全监督学习的深度视觉理解网络取得了显著的性能提升。然而,物体检测、语义和实例分割以及视频动作识别等任务的数据标注往往需要耗费大量的人力和时间成本,已成为限制其广泛应用的一个关键因素。弱监督学习作为一种降低数据标注成本的有效方式,有望对缓解这一问题提供可行的解决方案,因而获得了较多的关注。围绕视觉弱监督学习,本文将以物体检测、语义和实例分割以及动作识别为例综述国内外研究进展,并对其发展方向和应用前景加以讨论分析。在简单回顾通用弱监督学习模型,如多示例学习(multiple instance learning,MIL)和期望—最大化(expectation-maximization,EM)算法的基础上,针对物体检测和定位,从多示例学习、类注意力图机制等方面分别进行总结,并重点回顾了自训练和监督形式转换等方法;针对语义分割任务,根据不同粒度的弱监督形式,如边界框标注、图像级类别标注、线标注或点标注等,对语义分割研究进展进行总结分析,并主要回顾了基于图像级别类别标注和边界框标注的弱监督实例分割方法;针对视频动作识别,从电影脚本、动作序列、视频级类别标签和单帧标签等弱监督形式,对弱监督视频动作识别的模型与算法进行回顾,并讨论了各种弱监督形式在实际应用中的可行性。在此基础上,进一步讨论视觉弱监督学习面临的挑战和发展趋势,旨在为相关研究提供参考。  相似文献   

6.
对视频中的目标进行像素级分割是计算机视觉领域的研究热点,完全没有用户标注的无监督视频分割对分割算法提出了更高的要求。近几年在分割中常使用基于帧间运动信息进行建模的方法,即用光流等运动信息预测目标轮廓,再结合颜色等特征建立模型进行分割。针对这些方法产生的前景背景混淆以及边缘粗糙等问题,本文提出结合全卷积网络的视频目标分割方法。首先通过全卷积网络预测视频序列中显著目标的轮廓,结合光流获得的运动显著性标签进行修正,然后建立时间-空间图模型,运用图割的方法获得最终的预测标签。在SegTrack v2以及DAVIS这2个通用数据集上进行评估,结果表明本文方法较基于帧间运动信息的方法在分割效果上有明显的提高。  相似文献   

7.
在兼顾运动图像分割效果和实时性的基础上,针对视频序列,仅利用其时域信息,提出了一种简单有效的运动前景分割算法。首先对图像序列做帧间差分与隔帧差分,然后将两类差分结果进行累积,对累积结果采取交集聚类的方法求出运动前景轮廓。二值化处理后,扫描填充即可得到图像序列中的运动前景。实验证明:该算法兼顾分割效果和实时性的要求,是一种较好的运动前景分割算法。  相似文献   

8.
李阳  刘扬  刘国军  郭茂祖 《软件学报》2020,31(11):3640-3656
深度卷积神经网络使用像素级标注,在图像语义分割任务中取得了优异的分割性能.然而,获取像素级标注是一项耗时并且代价高的工作.为了解决这个问题,提出一种基于图像级标注的弱监督图像语义分割方法.该方法致力于使用图像级标注获取有效的伪像素标注来优化分割网络的参数.该方法分为3个步骤:(1)首先,基于分类与分割共享的网络结构,通过空间类别得分(图像二维空间上像素点的类别得分)对网络特征层求导,获取具有类别信息的注意力图;(2)采用逐次擦除法产生显著图,用于补充注意力图中缺失的对象位置信息;(3)融合注意力图与显著图来生成伪像素标注并训练分割网络.在PASCAL VOC 2012分割数据集上的一系列对比实验,证明了该方法的有效性及其优秀的分割性能.  相似文献   

9.
在计算机视觉领域中,语义分割是场景解析和行为识别的关键任务,基于深度卷积神经网络的图像语义分割方法已经取得突破性进展。语义分割的任务是对图像中的每一个像素分配所属的类别标签,属于像素级的图像理解。目标检测仅定位目标的边界框,而语义分割需要分割出图像中的目标。本文首先分析和描述了语义分割领域存在的困难和挑战,介绍了语义分割算法性能评价的常用数据集和客观评测指标。然后,归纳和总结了现阶段主流的基于深度卷积神经网络的图像语义分割方法的国内外研究现状,依据网络训练是否需要像素级的标注图像,将现有方法分为基于监督学习的语义分割和基于弱监督学习的语义分割两类,详细阐述并分析这两类方法各自的优势和不足。本文在PASCAL VOC(pattern analysis, statistical modelling and computational learning visual object classes)2012数据集上比较了部分监督学习和弱监督学习的语义分割模型,并给出了监督学习模型和弱监督学习模型中的最优方法,以及对应的MIoU(mean intersection-over-union)。最后,指出了图像语义分割领域未来可能的热点方向。  相似文献   

10.
针对三维视频图像的空洞填充中的前景背景分割时容易造成前景对象提取不准确而影响修复效果的问题,提出利用梯度融合与聚类相结合的三维视频图像修复算法.首先利用分水岭算法与标记相结合的办法对图像进行分割;然后充分利用深度图像的深度梯度结构信息,并采用K均值聚类对梯度图像进行标记修正,以增强对前景对象的辨别能力.实验结果表明,该算法较好地克服了原有分水岭算法在图像分割过程中易发生过分割现象,完整地提取了前景对象的纹理信息,使修复图像具有更好的视觉效果,峰值信噪比相比于原算法提高了1~3 d B.  相似文献   

11.
吕潇  宋慧慧  樊佳庆 《计算机应用》2022,42(12):3884-3890
为了解决半监督视频目标分割任务中,分割精度与分割速度难以兼顾以及无法对视频中与前景相似的背景目标做出有效区分的问题,提出一种基于深浅层特征融合的半监督视频目标分割算法。首先,利用预先生成的粗糙掩膜对图像特征进行处理,以获取更鲁棒的特征;然后,通过注意力模型提取深层语义信息;最后,将深层语义信息与浅层位置信息进行融合,从而得到更加精确的分割结果。在多个流行的数据集上进行了实验,实验结果表明:在分割运行速度基本不变的情况下,所提算法在DAVIS 2016数据集上的雅卡尔(J)指标相较于学习快速鲁棒目标模型的视频目标分割(FRTM)算法提高了1.8个百分点,综合评价指标为JF得分的均值J&F相较于FRTM提高了2.3个百分点;同时,在DAVIS 2017数据集上,所提算法的J指标比FRTM提升了1.2个百分点,综合评价指标J&F比FRTM提升了1.1个百分点。以上结果充分说明所提算法能够在保持较快分割速度的情况下实现更高的分割精度,并且能够有效区别相似的前景与背景目标,具有较强的鲁棒性。可见所提算法在平衡速度与精度以及有效区分前景背景方面的优越性能。  相似文献   

12.
目的 视频目标分割(video object segmentation,VOS)是在给定初始帧的目标掩码条件下,实现对整个视频序列中感兴趣对象的分割,但是视频中往往会出现目标形状不规则、背景中存在干扰信息和运动速度过快等情况,影响视频目标分割质量。对此,本文提出一种融合视觉词和自注意力机制的视频目标分割算法。方法 对于参考帧,首先将其图像输入编码器中,提取分辨率为原图像1/8的像素特征。然后将该特征输入由若干卷积核构成的嵌入空间中,并将其结果上采样至原始尺寸。最后结合参考帧的目标掩码信息,通过聚类算法对嵌入空间中的像素进行聚类分簇,形成用于表示目标对象的视觉词。对于目标帧,首先将其图像通过编码器并输入嵌入空间中,通过单词匹配操作用参考帧生成的视觉词来表示嵌入空间中的像素,并获得多个相似图。然后,对相似图应用自注意力机制捕获全局依赖关系,最后取通道方向上的最大值作为预测结果。为了解决目标对象的外观变化和视觉词失配的问题,提出在线更新机制和全局校正机制以进一步提高准确率。结果 实验结果表明,本文方法在视频目标分割数据集DAVIS (densely annotated video segmentation)2016和DAVIS 2017上取得了有竞争力的结果,区域相似度与轮廓精度之间的平均值J&F-mean (Jaccard and F-score mean)分别为83.2%和72.3%。结论 本文提出的算法可以有效地处理由遮挡、变形和视点变化等带来的干扰问题,实现高质量的视频目标分割。  相似文献   

13.
在半监督的分割任务中,单镜头视频对象分割(OSVOS)方法根据第一帧的对象标记掩模进行引 导,从视频画面中分离出后续帧中的前景对象。虽然取得了令人印象深刻的分割结果,但其不适用于前景对象 外观变化显著或前景对象与背景外观相似的情形。针对这些问题,提出一种用于视频对象分割的仿 U 形网络结 构。将注意力机制加入到此网络的编码器和解码器之间,以便在特征图之间建立关联来产生全局语义信息。同 时,优化损失函数,进一步解决了类别间的不平衡问题,提高了模型的鲁棒性。此外,还将多尺度预测与全连 接条件随机场(FC/Dense CRF)结合,提高了分割结果边缘的平滑度。在具有挑战性的 DAVIS 2016 数据集上进 行了大量实验,此方法与其他最先进方法相比获得了具有竞争力的分割结果。  相似文献   

14.
针对复杂视频场景中难以分割特定目标的问题,提出一种基于双重金字塔网络(DPN)的视频目标分割方法。首先,通过调制网络的单向传递让分割模型适应特定目标的外观。具体而言,从给定目标的视觉和空间信息中学习一种调制器,并通过调制器调节分割网络的中间层以适应特定目标的外观变化。然后,通过基于不同区域的上下文聚合的方法,在分割网络的最后一层中聚合全局上下文信息。最后,通过横向连接的自左而右结构,在所有尺度中构建高阶语义特征图。所提出的视频目标分割方法是一个可以端到端训练的分割网络。大量实验结果表明,所提方法在DAVIS2016数据集上的性能与较先进的使用在线微调的方法相比,可达到相竞争的结果,且在DAVIS2017数据集上性能较优。  相似文献   

15.
Recently, video object segmentation has received great attention in the computer vision community. Most of the existing methods heavily rely on the pixel-wise human annotations, which are expensive and time-consuming to obtain. To tackle this problem, we make an early attempt to achieve video object segmentation with scribble-level supervision, which can alleviate large amounts of human labor for collecting the manual annotation. However, using conventional network architectures and learning objective functions under this scenario cannot work well as the supervision information is highly sparse and incomplete. To address this issue, this paper introduces two novel elements to learn the video object segmentation model. The first one is the scribble attention module, which captures more accurate context information and learns an effective attention map to enhance the contrast between foreground and background. The other one is the scribble-supervised loss, which can optimize the unlabeled pixels and dynamically correct inaccurate segmented areas during the training stage. To evaluate the proposed method, we implement experiments on two video object segmentation benchmark datasets, YouTube-video object segmentation (VOS), and densely annotated video segmentation (DAVIS)-2017. We first generate the scribble annotations from the original per-pixel annotations. Then, we train our model and compare its test performance with the baseline models and other existing works. Extensive experiments demonstrate that the proposed method can work effectively and approach to the methods requiring the dense per-pixel annotations.   相似文献   

16.
目的 视频目标分割是在给定第1帧标注对象掩模条件下,实现对整个视频序列中感兴趣目标的分割。但是由于分割对象尺度的多样性,现有的视频目标分割算法缺乏有效的策略来融合不同尺度的特征信息。因此,本文提出一种特征注意金字塔调制网络模块用于视频目标分割。方法 首先利用视觉调制器网络和空间调制器网络学习分割对象的视觉和空间信息,并以此为先验引导分割模型适应特定对象的外观。然后通过特征注意金字塔模块挖掘全局上下文信息,解决分割对象多尺度的问题。结果 实验表明,在DAVIS 2016数据集上,本文方法在不使用在线微调的情况下,与使用在线微调的最先进方法相比,表现出更具竞争力的结果,J-mean指标达到了78.7%。在使用在线微调后,本文方法的性能在DAVIS 2017数据集上实现了最好的结果,J-mean指标达到了68.8%。结论 特征注意金字塔调制网络的视频目标分割算法在对感兴趣对象分割的同时,针对不同尺度的对象掩模能有效结合上下文信息,减少细节信息的丢失,实现高质量视频对象分割。  相似文献   

17.
Multimedia analysis usually deals with a large amount of video data with a significant number of moving objects. Often it is necessary to reduce the amount of data and to represent the video in terms of moving objects and events. Event analysis can be built on the detection of moving objects. In order to automatically process a variety of video content in different domain, largely unsupervised moving object segmentation algorithms are needed. We propose a fully unsupervised system for moving object segmentation that does not require any restriction on the video content. Our approach to extract moving objects relies on a mesh-based combination of results from colour segmentation (Mean Shift) and motion segmentation by feature point tracking (KLT tracker). The proposed algorithm has been evaluated using precision and recall measures for comparing moving objects and their colour segmented regions with manually labelled ground truth data. Results show that the algorithm is comparable to other state-of-the-art algorithms. The extracted information is used in a search and retrieval tool. For that purpose a moving object representation in MPEG-7 is implemented. It facilitates high performance indexing and retrieval of moving objects and events in large video databases, such as the search for similar moving objects occurring in a certain period.  相似文献   

18.
In this paper, it is introduced an interactive method to object segmentation in image sequences, by combining classical morphological segmentation with motion estimation – the watershed from propagated markers. In this method, the objects are segmented interactively in the first frame and the mask generated by its segmentation provides the markers that will be used to track and segment the object in the next frame. Besides the interactivity, the proposed method has the following important characteristics: generality, rapid response and progressive manual edition. This paper also introduces a new benchmark to do quantitative evaluation of assisted object segmentation methods applied to image sequences. The evaluation is done according to several criteria such as the robustness of segmentation and the easiness to segment the objects through the sequence.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号