首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 156 毫秒
1.
基于深度学习的图像语义分割方法综述   总被引:5,自引:0,他引:5  
田萱  王亮  丁琪 《软件学报》2019,30(2):440-468
近年来,深度学习技术已经广泛应用到图像语义分割领域.主要对基于深度学习的图像语义分割的经典方法与研究现状进行分类、梳理和总结.根据分割特点和处理粒度的不同,将基于深度学习的图像语义分割方法分为基于区域分类的图像语义分割方法和基于像素分类的图像语义分割方法.把基于像素分类的图像语义分割方法进一步细分为全监督学习图像语义分割方法和弱监督学习图像语义分割方法.对每类方法的代表性算法进行了分析介绍,并详细总结了每类方法的基本思想和优缺点,系统地阐述了深度学习对图像语义分割领域的贡献.对图像语义分割相关实验进行了分析对比,并介绍了图像语义分割实验中常用公共数据集和性能评价指标.最后,预测并分析总结了该领域未来可能的研究方向及相应的发展趋势.  相似文献   

2.
深度神经网络图像语义分割方法综述   总被引:1,自引:0,他引:1  
图像语义分割是计算机视觉领域近年来的热点研究课题,随着深度学习技术的兴起,图像语义分割与深度学习技术进行融合发展,取得了显著的进步,在无人驾驶、智能安防、智能机器人、人机交互等真实场景中应用广泛。首先对应用于图像语义分割的几种深度神经网络模型进行简单介绍,接着详细阐述了现有主流的基于深度神经网络的图像语义分割方法,依据实现技术的区别对图像语义分割方法进行分类,并对每类方法中代表性算法的技术特点、优势和不足进行分析与总结。之后归纳了图像语义分割常用的大规模公共数据集和性能评价指标,并在此基础上对经典的语义分割方法的实验结果进行了对比,最后对语义分割领域未来可行的研究方向进行展望。  相似文献   

3.
图像分割作为计算机视觉领域的一个重要分支,在可穿戴计算、自动驾驶、医学图像分析等方面都发挥着重要作用,并有着广泛应用。为了更好地了解图像分割领域的发展以及研究现状,该文对图像分割进行了深入梳理和系统述评。首先,对图像分割的含义以及其工作流程、指标等进行阐释;然后,对图像分割方法按照时间的跨度进行分类——基于阈值和区域、基于图论和聚类,以及基于深度学习的图像分割,对每类方法的代表性算法进行分析介绍,较为全面地总结了每类方法的基本思想和优缺点;最后,对该领域目前存在的问题和未来的发展方向进行展望,提出实时图像语义分割、弱监督或非监督语义分割和三维场景的语义分割是目前研究中的主要挑战。  相似文献   

4.
近年来,随着深度学习进入计算机视觉领域,各种深度学习图像语义分割方法相继出现,其中全监督学习方法的分割效果显著超过弱监督学习方法.将全监督学习的图像语义分割方法分为五类,并对各类中最具有代表性的方法进行详细分析,重点阐述各种方法核心部分的实现过程.对语义分割领域中的主流数据集进行归纳总结,介绍了性能算法指标,并在主流数...  相似文献   

5.
在计算机视觉领域中,语义分割是场景解析和行为识别的关键任务,基于深度卷积神经网络的图像语义分割方法已经取得突破性进展。语义分割的任务是对图像中的每一个像素分配所属的类别标签,属于像素级的图像理解。目标检测仅定位目标的边界框,而语义分割需要分割出图像中的目标。本文首先分析和描述了语义分割领域存在的困难和挑战,介绍了语义分割算法性能评价的常用数据集和客观评测指标。然后,归纳和总结了现阶段主流的基于深度卷积神经网络的图像语义分割方法的国内外研究现状,依据网络训练是否需要像素级的标注图像,将现有方法分为基于监督学习的语义分割和基于弱监督学习的语义分割两类,详细阐述并分析这两类方法各自的优势和不足。本文在PASCAL VOC(pattern analysis, statistical modelling and computational learning visual object classes)2012数据集上比较了部分监督学习和弱监督学习的语义分割模型,并给出了监督学习模型和弱监督学习模型中的最优方法,以及对应的MIoU(mean intersection-over-union)。最后,指出了图像语义分割领域未来可能的热点方向。  相似文献   

6.
基于深度学习的实例分割研究进展   总被引:1,自引:0,他引:1       下载免费PDF全文
目标检测确定检测图像中目标对象所在区域及其类别,语义分割对检测图像实现像素级分类,实例分割可以定义为同时解决目标检测与语义分割问题,在分类的同时确定每个目标实例语义。实例分割网络在无人机驾驶、机器人抓取、工业筛检等领域具有重要应用意义,针对目前基于深度学习实例分割综述性文章的空白,对实例分割进展进行概述,按照单阶段实例分割与双阶段实例分割的分类对不同网络模型进行论述,重点介绍近两年网络框架的发展,总结各网络特点的同时提出未来发展方向。  相似文献   

7.
语义分割是计算机视觉领域的基本任务,旨在为每个像素分配语义类别标签,实现对图像的像素级理解。得益于深度学习的发展,基于深度学习的全监督语义分割方法取得了巨大进展。然而,这些方法往往需要大量带有像素级标注的训练数据,标注成本巨大,限制了其在诸如自动驾驶、医学图像分析以及工业控制等实际场景中的应用。为了降低数据的标注成本并进一步拓宽语义分割的应用场景,研究者们越来越关注基于深度学习的弱监督语义分割方法,希望通过诸如图像级标注、最小包围盒标注、线标注和点标注等弱标注信息实现图像的像素级分割预测。首先对语义分割任务进行了简要介绍,并分析了全监督语义分割所面临的困境,从而引出弱监督语义分割。然后,介绍了相关数据集和评估指标。接着,根据弱标注的类型和受关注程度,从图像级标注、其他弱标注以及大模型辅助这3个方面回顾和讨论了弱监督语义分割的研究进展。其中,第2类弱监督语义分割方法包括基于最小包围盒、线和点标注的弱监督语义分割。最后,分析了弱监督语义分割领域存在的问题与挑战,并就其未来可能的研究方向提出建议,旨在进一步推动弱监督语义分割领域研究的发展。  相似文献   

8.
语义分割是计算机视觉领域的一项像素级别的感知任务,目的是为图像中的每个像素分配相应类别标签,具有广泛应用。许多语义分割网络结构复杂,计算量和参数量较大,在对高分辨率图像进行像素层次的理解时具有较大的延迟,这极大限制了其在资源受限环境下的应用,如自动驾驶、辅助医疗和移动设备等。因此,实时推理的语义分割网络得到了广泛关注。本文对深度学习中实时语义分割算法进行了全面论述和分析。1)介绍了语义分割和实时语义分割任务的基本概念、应用场景和面临问题;2)详细介绍了实时语义分割算法中常用的技术和设计,包括模型压缩技术、高效卷积神经网络(convolutional neural network,CNN)模块和高效Transformer模块;3)全面整理和归纳了现阶段的实时语义分割算法,包括单分支网络、双分支网络、多分支网络、U型网络和神经架构搜索网络5种类别的实时语义分割方法,涵盖基于CNN、基于Transformer和基于混合框架的分割网络,并分析了各类实时语义分割算法的特点和局限性;4)提供了完整的实时语义分割评价体系,包括相关数据集和评价指标、现有方法性能汇总以及领域主流方法的同设备比较,为后续研究者提供统一的比较标准;5)给出结论并分析了实时语义分割领域仍存在的挑战,对实时语义分割领域未来可能的研究方向提出了相应见解。本文提及的算法、数据集和评估指标已汇总至https://github.com/xzz777/Awesome-Real-time-Semantic-Segmentation,以便后续研究者使用。  相似文献   

9.
近年来,深度传感器和三维激光扫描仪的普及推动了三维点云处理方法的快速发展。点云语义分割作为理解三维场景的关键步骤,受到了研究者的广泛关注。随着深度学习的迅速发展并广泛应用到三维语义分割领域,点云语义分割效果得到了显著提升。主要对基于深度学习的点云语义分割方法和研究现状进行了详细的综述。将基于深度学习的点云语义分割方法分为间接语义分割方法和直接语义分割方法,根据各方法的研究内容进一步细分,对每类方法中代表性算法进行分析介绍,总结每类方法的基本思想和优缺点,并系统地阐述了深度学习对语义分割领域的贡献。然后,归纳了当前主流的公共数据集和遥感数据集,并在此基础上对比主流点云语义分割方法的实验结果。最后,对语义分割技术未来的发展方向进行了展望。  相似文献   

10.
图像语义分割旨在将视觉场景分解为不同的语义类别实体,实现对图像中每一个像素的类别预测。多模态图像语义分割通过联合利用不同模态图像(即通过基于不同成像机理的传感器获取的图像)间的互补特性,能够全面且准确地实现复杂场景信息的学习与推理。目前基于深度学习的多模态图像语义分割前沿成果较多,但缺少系统且全面的调研与分析。本文首先总结并分析了目前主流的基于深度学习的可见光—热红外(red-green-bluethermal,RGB-T)图像语义分割算法和可见光—深度(red-green-blue-depth,RGB-D)图像语义分割算法。依据算法侧重点不同,将基于深度学习的RGB-T图像语义分割算法划分为基于图像特征增强的方法、基于多模态图像特征融合的方法和基于多层级图像特征交互的方法;依据算法对深度信息的利用方式,将基于深度学习的RGB-D图像语义分割算法划分为基于深度信息提取的方法和基于深度信息引导的方法。然后,介绍了多模态图像语义分割算法常用的客观评测指标以及数据集,并在常用数据集上对上述算法进行对比。对于RGB-T图像语义分割,在MFNet(multi-spectral fusion network)数据集上,GMNet (graded-feature multilabel-learning network)和MFFENet (multiscale feature fusion and enhancement network)分别取得了最优的类平均交并比(mean intersection-over-union per class,mIoU)(57.3%)和类平均精度(mean accuracy per class,mAcc)(74.3%)值。在PST900(PENN subterranean thermal 900)数据集上,GMNet仍然取得了最优的mIoU(84.12%)值,而EGFNet取得了最优的mAcc(94.02%)值。对于RGB-D图像语义分割,在NYUD v2(New York University depth dataset v2)数据集上,GLPNet(global-local propagation network)的mIoU和mAcc分别达到了54.6%和66.6%,取得最优性能。而在SUN-RGBD(scene understanding-RGB-D)数据集上,Zig-Zag的mIoU为51.8%,GLPNet的mAcc为63.3%,均为最优性能。最后,本文还指出了多模态图像语义分割领域未来可能的发展方向。  相似文献   

11.
目的 为有效解决半监督及弱监督语义分割模型中上下文信息缺失问题,在充分考虑模型推理效率的基础上,提出基于流形正则化的交叉一致性语义分割算法。方法 首先,以交叉一致性训练模型作为骨架网络,通过骨架网络获得预测分割图像。其次,对输入域图像和输出域图像进行子图像块划分,以获取具有相同几何结构的数据对。再次,通过原始图像和分割图像的子图像块,计算输入数据与预测结果所处流形曲面上的潜在几何约束关系,并根据不同的训练方式分别设计半监督及弱监督的正则化算法。最后,利用流形约束的结果进一步优化图像分割网络中的参数,并通过反复迭代使半监督或弱监督的语义分割模型达到最优。结果 通过加入流形正则化约束,捕获了图像中上下文信息,降低了网络前向计算过程中造成的本征结构的损失,在不改变网络结构的前提下提高了算法精度。为验证算法的有效性,实验分别在半监督和弱监督两种不同类型的语义分割中进行了对比,在PASCAL VOC 2012(pattern analysis, statistical modeling and computational learning visual object classes 2012)数...  相似文献   

12.
自FCN网络在2014年提出后,SegNet、DeepLab等一系列关于图像语义分割的深度学习架构被相继提出。与传统方法相比,这些架构效果更好、运算速度更快,已经能够运用于自然图像的分割处理。围绕图像语义分割技术,对常用的数据集和典型网络架构进行了梳理分析,对2017年以来的新进展进行了综合研究,利用主流评价指标对主要模型的语义分割效果进行了比较和分析。对语义分割技术面临的挑战以及可能的发展趋势进行了展望。  相似文献   

13.
语义理解是自然语言理解的一项关键任务,传统上采用以语法为中心的词法和句法分析等技术来解析句义。该文提出了一种以语义块分析藏文句义的新方法,其中藏文语义块识别通过采用Bi-LSTM和ID-CNN 两种神经网络构架对该任务进行建模和对比分析。经实验,上述的两种模型在测试数据集上取得了良好的性能表现, F1值平均分别为89%和92%。这种语义块分析和识别技术能够较好地替代词义消歧和语义角色标注等工作。  相似文献   

14.
Because pixel values of foggy images are irregularly higher than those of images captured in normal weather (clear images), it is difficult to extract and express their texture. No method has previously been developed to directly explore the relationship between foggy images and semantic segmentation images. We investigated this relationship and propose a generative adversarial network (GAN) for foggy image semantic segmentation (FISS GAN), which contains two parts: an edge GAN and a semantic segmentation GAN. The edge GAN is designed to generate edge information from foggy images to provide auxiliary information to the semantic segmentation GAN. The semantic segmentation GAN is designed to extract and express the texture of foggy images and generate semantic segmentation images. Experiments on foggy cityscapes datasets and foggy driving datasets indicated that FISS GAN achieved state-of-the-art performance.   相似文献   

15.
在计算机视觉领域,全景分割是一个新颖且重要的研究主题,它是机器感知、自动驾驶等新兴前沿技术的基石,具有十分重要的研究意义.本文综述了基于深度学习的全景分割研究的最新进展,首先总结了全景分割任务的基本处理流程,然后对已发表的全景分割工作基于其网络结构特点进行分类,并进行了全面的介绍与分析,最后对全景分割任务目前面临的问题...  相似文献   

16.
激光雷达采集的自动驾驶场景点云数据规模庞大且包含丰富的空间结构信息,一些方法将点云变换到体素化网格等稠密表示形式进行处理,但却忽略了点云变换引起的信息丢失问题,导致分割性能降低。为此,提出了一种基于局部特征聚合网络的三维语义分割方法。其中的局部特征融合模块,聚合中心点的K个最近点的特征,并通过强大的注意力机制,得到增强的点特征,从而弥补丢失的信息,提高网络的分割精度。此外,为了提高小物体的分类精度,提出了3D注意力特征融合块,通过摒弃常规的特征图拼接,使用注意力机制来决定不同层次语义特征的权重,得到更加丰富的语义特征,提高网络的性能。在SemanticKITTI和nuScenes数据集上的大量实验表明了该方法的优越性。  相似文献   

17.
Domain adaptation (DA) for semantic segmentation aims to reduce the annotation burden for the dense pixel-level prediction task. It focuses on tackling the domain gap problem and manages to transfer knowledge learned from abundant source data to new target scenes. Although recent works have achieved rapid progress in this field, they still underperform fully supervised models with a large margin due to the absence of any available hints in the target domain. Considering that few-shot labels are cheap to obtain in practical applications, we attempt to leverage them to mitigate the performance gap between DA and fully supervised methods. The key to this problem is to leverage the few-shot labels to learn robust domain-invariant predictions effectively. To this end, we first design a data perturbation strategy to enhance the robustness of the representations. Furthermore, a transferable prototype module is proposed to bridge the domain gap based on the source data and few-shot targets. By means of these proposed methods, our approach can perform on par with the fully supervised models to some extent. We conduct extensive experiments to demonstrate the effectiveness of the proposed methods and report the state-of-the-art performance on two popular DA tasks, i.e., from GTA5 to Cityscapes and SYNTHIA to Cityscapes.  相似文献   

18.
交互式图像分割是像素级注释和图像编辑的重要工具. 现存方法大多采取两阶段预测, 首先预测一个粗糙的结果, 在第2个阶段细化之前预测的结果来得到更精确的预测, 为了使在硬件资源受限时, 网络模型仍可以使用, 基于此, 在两阶段共享同一个网络, 为了更好地将标记信息传播到未标记区域, 设计了一个相似度约束传播模块, 在训练时使用了一个简单的原型提取模块来使正点击向量高度内聚, 加速网络收敛, 在推理时移除. 在推理阶段通过使用意图感知模块来捕获细节, 使得预测性能进一步提升. 大量实验表明, 该方法在所有流行的基准测试上与最先进的方法最有可比性, 证明了其有效性.  相似文献   

19.
目前对视频语义分割的研究主要分为两方面,一是如何利用视频帧之间的时序信息提高图像分割的精度;二是如何利用视频帧之间的相似性确定关键帧,减少计算量,提升模型的运行速度.在提升分割精度方面一般设计新的模块,将新模块与现有的CNNs结合;在减少计算量方面,利用帧序列的低层特征相关性选择关键帧,同时减少操作时间.本文首先介绍视频语义分割的发展背景与操作数据集Cityscapes、CamVid;其次,介绍现有的视频语义分割方法;最后总结当前视频语义分割的发展情况,并对未来的发展给出一些展望和建议.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号