首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 187 毫秒
1.
由于弱监督语义分割任务中种子区域的随机生长机制,导致弱监督语义分割网络经常出现错分割和漏分割的问题。针对上述问题,提出一种基于边界辅助的弱监督语义分割网络。该网络利用边界信息和语义信息,为种子区域的生长提供参考,使种子区域可以自然生长至目标边界,并在目标被遮挡或重叠时正确区分目标类别,生成可以覆盖更完整目标的伪像素掩码。以此伪像素掩码作为监督信息训练分割网络,可以改善弱监督语义分割网络由于伪像素掩码无法准确覆盖目标区域导致的错分割和漏分割问题,提升弱监督语义分割网络精度。在通用数据集PASCAL VOC 2012验证集和测试集上对该网络进行评估,mIoU分别达到71.7%和73.2%。实验结果表明,其网络性能优于当前大多数图像级弱监督语义分割方法。  相似文献   

2.
王子愉  袁春  黎健成 《软件学报》2019,30(4):954-961
实例分割是一项具有挑战性的任务,它不仅需要每个实例的边界框,而且需要精确的像素级分割掩码.最近提出的端到端的全卷积实例感知分割网络(FCIS)在检测与分割的结合方面做得很好.但是,FCIS没有利用低层特征,而低层次的特征信息在检测和分割上都证明是有用的.在FCIS的基础上,提出了一种新的模型,充分利用了各层次的特征,并对实例分割模块进行了优化.该方法在检测分支中使用了具有大型卷积核的可分离卷积来获得更精确的边界框.同时,设计了一个包含边界细化操作的分割模块,以获得更精确的掩模.此外,将Resnet-101网络中的低级、中级和高级特征组合成4个不同级别的新特征,每个新特征都被用于生成实例的掩码.这些掩码被相加之后通过进一步细化以产生最终的最精确的掩模.通过这3项改进,实验结果表明,该方法明显优于基线方法FCIS,相比于FCIS,该方法在PASCAL VOC数据集上的评测指标mAPr@0.5和mAPr@0.7分别提高了4.9%和5.8%.  相似文献   

3.
目的 针对三维点云语义与实例分割特征点提取精度不高、实例分割精度极度依赖语义分割的性能、在密集场景或小单元分割目标中出现语义类别错分以及实例边缘模糊等问题,提出了基于递归切片网络的三维点云语义分割与实例分割网络。方法 网络对输入点云进行切片,并将无序点云映射到有序序列上;利用双向长短期记忆网络(bidirectional long short-term memory,BiLSTM)得到带有局部特征和全局特征的编码特征矩阵;将编码特征矩阵解码为两个并行分支,进行多尺度的特征融合;对语义与实例特征进行融合,得到并行的语义与实例分割网络。结果 在斯坦福大尺度3D室内场景数据集(Stanford large-scale 3D indoor spaces dataset,S3DIS)以及ShapeNet数据集上,与目前最新点云分割方法进行实验对比。实验结果表明,在S3DIS数据集上,本文算法的语义分割的平均交并比指标为73%,较动态核卷积方法(position adaptive convolution,PAConv)提高7.4%,并且在13个类别中的8个类别取得最好成绩;实例分割中平均实例覆盖率指标为67.7%。在ShapeNet数据集上,语义分割的平均交并比为89.2%,较PAConv算法提高4.6%,较快速、鲁棒的点云语义与实例分割方法(fast and robust joint semantic-instance segmentation,3DCFS)提高1.6%。结论 本文提出的语义与实例分割融合网络,综合了语义分割与实例分割的优点,有效提高语义分割与实例分割精度。  相似文献   

4.
本文针对当前指代视频目标分割方法缺乏目标时空一致性建模和目标时空表征学习不足等问题,进行了深入的研究,提出了基于时空层级查询的指代视频目标分割方法 (STHQ).本文将指代视频目标分割看作基于查询的序列预测问题,并提出两级查询机制进行目标的时空一致性建模和时空特征学习.在第1阶段,本文提出了帧级空间信息提取模块,该模块使用语言特征作为查询独立地和视频序列中的每一帧在空间维度进行信息交互,生成包含目标空间信息的实例嵌入;在第2阶段,本文提出时空信息聚合模块,该模块使用视频级的可学习查询嵌入和第1阶段生成的实例嵌入在时空维度进行信息交互,生成具有时空表征信息的视频级实例嵌入;最后,视频级实例嵌入线性变换为条件卷积参数,并和视频序列中的每一帧进行卷积操作,生成目标的掩码预测序列.在该领域的3个基准数据集上的实验结果表明,本文提出的STHQ方法超越了现有的方法,实现了最佳的性能.  相似文献   

5.
融合SPA遮挡分割的多目标跟踪方法   总被引:1,自引:0,他引:1       下载免费PDF全文
复杂环境下的多目标视频跟踪是计算机视觉领域的一个难点,有效处理目标间遮挡是解决多目标跟踪问题的关键。将运动分割方法引入目标跟踪领域,提出一种融合骨架点指派(SPA)遮挡分割的多目标跟踪方法。由底层光流信息得到骨架点,并估计骨架点遮挡状态;综合使用目标外观、运动、颜色信息等高级语义信息,将骨架点指派给各个目标;最后以骨架点为核,对运动前景密集分类,得到准确的目标前景像素;在粒子滤波器跟踪框架下,使用概率外观模型进行多目标跟踪。在PETS2009数据集上的实验结果表明,文中方法能够改进现有多目标跟踪方法对目标间交互适应性较差的缺点,更好地处理动态遮挡问题。  相似文献   

6.
针对非结构化场景中存在的多工件堆叠遮挡等问题,提出了基于多尺度特征注意Yolact网络的堆叠工件识别定位算法。所提算法首先在Yolact网络的掩码模板生成分支中加入多尺度融合与特征注意机制,提升网络预测堆叠工件掩码的质量,并设计了基于膨胀编码的目标检测模块,增强网络对不同尺度堆叠工件的适应能力,构建了多尺度特征注意Yolact网络。其次,利用构建的多尺度特征注意Yolact网络预测堆叠工件的掩码与边界框,并对堆叠工件掩码进行最小外接矩形生成,根据掩码边界框与掩码的最小外接矩形确定目标工件的抓取点与旋转角度。最后,基于堆叠工件识别定位算法研发了视觉机器人工件分拣系统。实验结果表明,所提模型在边界框回归、掩码预测两项任务上的识别精度均有提升,机器人工件分拣系统进行堆叠工件分拣作业的成功率达到97.5%。  相似文献   

7.
三维多目标跟踪技术在自动驾驶中发挥着重要的作用,许多基于检测的三维多目标跟踪方法被提出。数据关联是多目标跟踪中的关键步骤,基于中心点的检测网络在三维多目标检测上的有效性得到了广泛验证。因此,充分利用检测框与跟踪框之间的中心点距离信息,在三维多目标跟踪网络中,提出了基于中心点距离交并比(DIoU)的检测预处理以及数据关联优化算法。在公开数据集nuScenes上的实验结果表明,该网络与其他方法相比,在自行车、汽车以及行人等类别的平均跟踪精度上有明显提升,在ID切换次数上有较好的抑制效果。  相似文献   

8.
针对场景图像语义分割任务中存在多尺度目标以及特征提取网络缺乏对全局上下文信息的获取等问题,设计了一种嵌入改进自注意力机制以及自适应融合多尺度特征的双路径分割算法。在空间路径利用双分支的简易下采样模块进行4倍下采样提取高分辨率的边缘细节信息,使网络对目标边界分割更精确。在语义路径嵌入上下文捕获模块和自适应特征融合模块,为解码阶段提供具有丰富多尺度的高语义上下文信息,并采用类别平衡策略进一步提升分割效果。经过实验验证,该模型在Camvid和Aeroscapes数据集上的MIOU(mean intersection over union)指标分别为59.4%和60.1%,具有较好的分割效果。  相似文献   

9.
在无人驾驶应用场景中,现有无锚框实例分割方法存在大目标特征覆盖小目标特征、缺少两阶段检测器中的感兴趣区域对齐操作、忽略类别分支对掩膜分支提供的位置和空间信息等问题,导致特征提取不充分且无法准确获取目标区域。提出一种改进的无锚框实例分割方法。结合可变形卷积,设计编码-解码特征提取网络提取高分辨率特征,以增强对小目标特征的提取能力,并采用空洞卷积和合并连接的方式,在不增加计算量的前提下有效融合多种分辨率的特征。在此基础上,将注意力机制引入到类别分支中,同时设计结合空间信息和通道信息的信息增强模块,以提高目标检测能力。实验结果表明,该方法在COCO 2017和Cityscapes数据集上平均精度和平均交并比分别为41.1%和83.3%,相比Mask R-CNN、SOLO、Yolact等方法,能够有效改进实例分割效果并具有较优的鲁棒性。  相似文献   

10.
随着可穿戴设备的日益普及,人的上肢行为数据急剧增长,而自然场景下的人手分割研究较少。针对现有的算法对手工设计特征、像素级标签、设备、环境等的依赖,造成的精度有限或设备、人工标注成本较高的问题,提出一种弱监督人手分割算法,并将其应用到人手操作行为分割中。在像素级标签的源数据集上,利用全卷积神经网络(FCN)预训练。在只有类别标签的目标数据集上,实现基于超像素的局部-全局一致性学习的分割优化,进而实现FCN网络训练和分割优化的交替迭代。使用全连接条件随机场(CRF)进行后处理。提出基于边界框的弱监督分割,以及半监督分割方法。与其他方法的对比实验表明,该方法具有较高的召回率和区域交叠率。  相似文献   

11.
视觉理解,如物体检测、语义和实例分割以及动作识别等,在人机交互和自动驾驶等领域中有着广泛的应用并发挥着至关重要的作用。近年来,基于全监督学习的深度视觉理解网络取得了显著的性能提升。然而,物体检测、语义和实例分割以及视频动作识别等任务的数据标注往往需要耗费大量的人力和时间成本,已成为限制其广泛应用的一个关键因素。弱监督学习作为一种降低数据标注成本的有效方式,有望对缓解这一问题提供可行的解决方案,因而获得了较多的关注。围绕视觉弱监督学习,本文将以物体检测、语义和实例分割以及动作识别为例综述国内外研究进展,并对其发展方向和应用前景加以讨论分析。在简单回顾通用弱监督学习模型,如多示例学习(multiple instance learning, MIL)和期望—最大化(expectation-maximization, EM)算法的基础上,针对物体检测和定位,从多示例学习、类注意力图机制等方面分别进行总结,并重点回顾了自训练和监督形式转换等方法;针对语义分割任务,根据不同粒度的弱监督形式,如边界框标注、图像级类别标注、线标注或点标注等,对语义分割研究进展进行总结分析,并主要回顾了基于图像级别类别...  相似文献   

12.
目的 视频多目标跟踪(multiple object tracking, MOT)是计算机视觉中的一项重要任务,现有研究分别针对目标检测和目标关联部分进行改进,均忽视了多目标跟踪中的不一致问题。不一致问题主要包括3方面,即目标检测框中心与身份特征中心不一致、帧间目标响应不一致以及训练测试过程中相似度度量方式不一致。为了解决上述不一致问题,本文提出一种基于时空一致性的多目标跟踪方法,以提升跟踪的准确度。方法 从空间、时间以及特征维度对上述不一致性进行修正。对于目标检测框中心与身份特征中心不一致,针对每个目标检测框中心到特征中心之间的空间差异,在偏移后的位置上提取目标的ReID(re-identification)特征;对帧间响应不一致,使用空间相关计算相邻帧之间的运动偏移信息,基于该偏移信息对前一帧的目标响应进行变换后得到帧间一致性响应信息,然后对目标响应进行增强;对训练和测试过程中的相似度度量不一致,提出特征正交损失函数,在训练时考虑目标两两之间的相似关系。结果 在3个数据集上与现有方法进行比较。在MOT17、MOT20和Hieve数据集中,MOTA(multiple object t...  相似文献   

13.
目的 多目标跟踪与分割是计算机视觉领域一个重要的研究方向。现有方法多是借鉴多目标跟踪领域先检测然后进行跟踪与分割的思路,这类方法对重要特征信息的关注不足,难以处理目标遮挡等问题。为了解决上述问题,本文提出一种基于时空特征融合的多目标跟踪与分割模型,利用空间三坐标注意力模块和时间压缩自注意力模块选择出显著特征,以此达到优异的多目标跟踪与分割性能。方法 本文网络由2D编码器和3D解码器构成,首先将多幅连续帧图像输入到2D编码层,提取出不同分辨率的图像特征,然后从低分辨率的特征开始通过空间三坐标注意力模块得到重要的空间特征,通过时间压缩自注意力模块获得含有关键帧信息的时间特征,再将两者与原始特征融合,然后与较高分辨率的特征共同输入3D卷积层,反复聚合不同层次的特征,以此得到融合多次的既有关键时间信息又有重要空间信息的特征,最后得到跟踪和分割结果。结果 实验在YouTube-VIS(YouTube video instance segmentation)和KITTI MOTS(multi-object tracking and segmentation)两个数据集上进行定量评估。在YouTub...  相似文献   

14.
在计算机视觉领域中,语义分割是场景解析和行为识别的关键任务,基于深度卷积神经网络的图像语义分割方法已经取得突破性进展。语义分割的任务是对图像中的每一个像素分配所属的类别标签,属于像素级的图像理解。目标检测仅定位目标的边界框,而语义分割需要分割出图像中的目标。本文首先分析和描述了语义分割领域存在的困难和挑战,介绍了语义分割算法性能评价的常用数据集和客观评测指标。然后,归纳和总结了现阶段主流的基于深度卷积神经网络的图像语义分割方法的国内外研究现状,依据网络训练是否需要像素级的标注图像,将现有方法分为基于监督学习的语义分割和基于弱监督学习的语义分割两类,详细阐述并分析这两类方法各自的优势和不足。本文在PASCAL VOC(pattern analysis, statistical modelling and computational learning visual object classes)2012数据集上比较了部分监督学习和弱监督学习的语义分割模型,并给出了监督学习模型和弱监督学习模型中的最优方法,以及对应的MIoU(mean intersection-over-union)。最后,指出了图像语义分割领域未来可能的热点方向。  相似文献   

15.
目的 视频目标分割是在给定第1帧标注对象掩模条件下,实现对整个视频序列中感兴趣目标的分割。但是由于分割对象尺度的多样性,现有的视频目标分割算法缺乏有效的策略来融合不同尺度的特征信息。因此,本文提出一种特征注意金字塔调制网络模块用于视频目标分割。方法 首先利用视觉调制器网络和空间调制器网络学习分割对象的视觉和空间信息,并以此为先验引导分割模型适应特定对象的外观。然后通过特征注意金字塔模块挖掘全局上下文信息,解决分割对象多尺度的问题。结果 实验表明,在DAVIS 2016数据集上,本文方法在不使用在线微调的情况下,与使用在线微调的最先进方法相比,表现出更具竞争力的结果,J-mean指标达到了78.7%。在使用在线微调后,本文方法的性能在DAVIS 2017数据集上实现了最好的结果,J-mean指标达到了68.8%。结论 特征注意金字塔调制网络的视频目标分割算法在对感兴趣对象分割的同时,针对不同尺度的对象掩模能有效结合上下文信息,减少细节信息的丢失,实现高质量视频对象分割。  相似文献   

16.
显著性实例分割是指分割出图像中最引人注目的实例对象。现有的显著性实例分割方法中存在 较小显著性实例不易检测分割,以及较大显著性实例分割精度不足等问题。针对这 2 个问题,提出了一种新的 显著性实例分割模型,即注意力残差多尺度特征增强网络(ARMFE)。模型 ARMFE 主要包括 2 个模块:注意力 残差网络模块和多尺度特征增强模块,注意力残差网络模块是在残差网络基础上引入注意力机制,分别从通道 和空间对特征进行选择增强;多尺度特征增强模块则是在特征金字塔基础上进一步增强尺度跨度较大的特征信 息融合。因此,ARMFE 模型通过注意力残差多尺度特征增强,充分利用多个尺度特征的互补信息,同时提升 较大显著性实例对象和较小显著性实例对象的分割效果。ARMFE 模型在显著性实例分割数据集 Salient Instance Saliency-1K (SIS-1K)上进行了实验,分割精度和速度都得到了提升,优于现有的显著性实例分割算法 MSRNet 和 S4Net。  相似文献   

17.
Transformer模型在自然语言处理领域取得了很好的效果,同时因其能够更好地连接视觉和语言,也激发了计算机视觉界的极大兴趣。本文总结了视觉Transformer处理多种识别任务的百余种代表性方法,并对比分析了不同任务内的模型表现,在此基础上总结了每类任务模型的优点、不足以及面临的挑战。根据识别粒度的不同,分别着眼于诸如图像分类、视频分类的基于全局识别的方法,以及目标检测、视觉分割的基于局部识别的方法。考虑到现有方法在3种具体识别任务的广泛流行,总结了在人脸识别、动作识别和姿态估计中的方法。同时,也总结了可用于多种视觉任务或领域无关的通用方法的研究现状。基于Transformer的模型实现了许多端到端的方法,并不断追求准确率与计算成本的平衡。全局识别任务下的Transformer模型对补丁序列切分和标记特征表示进行了探索,局部识别任务下的Transformer模型因能够更好地捕获全局信息而取得了较好的表现。在人脸识别和动作识别方面,注意力机制减少了特征表示的误差,可以处理丰富多样的特征。Transformer可以解决姿态估计中特征错位的问题,有利于改善基于回归的方法性能,还减少了三维估计时深度映射所产生的歧义。大量探索表明视觉Transformer在识别任务中的有效性,并且在特征表示或网络结构等方面的改进有利于提升性能。  相似文献   

18.
Accurate Object Recognition with Shape Masks   总被引:1,自引:0,他引:1  
In this paper we propose an object recognition approach that is based on shape masks—generalizations of segmentation masks. As shape masks carry information about the extent (outline) of objects, they provide a convenient tool to exploit the geometry of objects. We apply our ideas to two common object class recognition tasks—classification and localization. For classification, we extend the orderless bag-of-features image representation. In the proposed setup shape masks can be seen as weak geometrical constraints over bag-of-features. Those constraints can be used to reduce background clutter and help recognition. For localization, we propose a new recognition scheme based on high-dimensional hypothesis clustering. Shape masks allow to go beyond bounding boxes and determine the outline (approximate segmentation) of the object during localization. Furthermore, the method easily learns and detects possible object viewpoints and articulations, which are often well characterized by the object outline. Our experiments reveal that shape masks can improve recognition accuracy of state-of-the-art methods while returning richer recognition answers at the same time. We evaluate the proposed approach on the challenging natural-scene Graz-02 object classes dataset.  相似文献   

19.
In this work we discuss the problem of automatically determining bounding box annotations for objects in images whereas we only assume weak labeling in the form of global image labels. We therefore are only given a set of positive images all containing at least one instance of a desired object and a negative set of images which represent background. Our goal is then to determine the locations of the object instances within the positive images by bounding boxes. We also describe and analyze a method for automatic bounding box annotation which consists of two major steps. First, we apply a statistical model for determining visual features which are likely to be indicative for the respective object class. Based on these feature models we infer preliminary estimations for bounding boxes. Second, we use a CCCP training algorithm for latent structured SVM in order to improve the initial estimations by using them as initializations for latent variables modeling the optimal bounding box positions. We evaluate our approach on three publicly available datasets.  相似文献   

20.
目的 由于室内点云场景中物体的密集性、复杂性以及多遮挡等带来的数据不完整和多噪声问题,极大地限制了室内点云场景的重建工作,无法保证场景重建的准确度。为了更好地从无序点云中恢复出完整的场景,提出了一种基于语义分割的室内场景重建方法。方法 通过体素滤波对原始数据进行下采样,计算场景三维尺度不变特征变换(3D scale-invariant feature transform,3D SIFT)特征点,融合下采样结果与场景特征点从而获得优化的场景下采样结果;利用随机抽样一致算法(random sample consensus,RANSAC)对融合采样后的场景提取平面特征,将该特征输入PointNet网络中进行训练,确保共面的点具有相同的局部特征,从而得到每个点在数据集中各个类别的置信度,在此基础上,提出了一种基于投影的区域生长优化方法,聚合语义分割结果中同一物体的点,获得更精细的分割结果;将场景物体的分割结果划分为内环境元素或外环境元素,分别采用模型匹配的方法、平面拟合的方法从而实现场景的重建。结果 在S3DIS (Stanford large-scale 3D indoor space dataset)数据集上进行实验,本文融合采样算法对后续方法的效率和效果有着不同程度的提高,采样后平面提取算法的运行时间仅为采样前的15%;而语义分割方法在全局准确率(overall accuracy,OA)和平均交并比(mean intersection over union,mIoU)两个方面比PointNet网络分别提高了2.3%和4.2%。结论 本文方法能够在保留关键点的同时提高计算效率,在分割准确率方面也有着明显提升,同时可以得到高质量的重建结果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号