首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 78 毫秒
1.
针对室内场景图像语义分割结果不精确、显著图粗糙的问题,提出一种基于多模态特征优化提取和双路径引导解码的网络架构(feature regulator and dual-path guidance,FG-Net)。具体来说,设计的特征调节器对每个阶段的多模态特征依次进行噪声过滤、重加权表示、差异性互补和交互融合,通过强化RGB和深度特征聚合,优化特征提取过程中的多模态特征表示。然后,在解码阶段引入特征交互融合后丰富的跨模态线索,进一步发挥多模态特征的优势。结合双路径协同引导结构,在解码阶段融合多尺度、多层次的特征信息,从而输出更细致的显著图。实验在公开数据集NYUD-v2和SUN RGB-D上进行,在主要评价指标mIoU上达到48.5 %,优于其他先进算法。结果表明,该算法实现了更精细的室内场景图像语义分割,表现出了较好的泛化性和鲁棒性。  相似文献   

2.
针对复杂室内场景中,现有RGB图像语义分割网络易受颜色、光照等因素影响以及RGB-D图像语义分割网络难以有效融合双模态特征等问题,提出一种基于注意力机制的RGB-D双模态特征融合语义分割网络AMBFNet(attention mechanism bimodal fusion network)。该网络采用编-解码器结构,首先搭建双模态特征融合结构(AMBF)来合理分配编码支路各阶段特征的位置与通道信息,然后设计双注意感知的上下文(DA-context)模块以合并上下文信息,最后通过解码器将多尺度特征图进行跨层融合,以减少预测结果中类间误识别和小尺度目标丢失问题。在SUN RGB-DNYU和NYU Depth v2(NYUDV2)两个公开数据集上的测试结果表明,相较于残差编解码(RedNet)、注意力互补网络(ACNet)、高效场景分析网络(ESANet)等目前较先进的RGB-D语义分割网络,在同等硬件条件下,该网络具有更好的分割性能,平均交并比(MIoU)分别达到了47.9%和50.0%。  相似文献   

3.
针对现存可见光—红外(RGB-T)图像语义分割模型分割性能不高的问题,提出一种基于深层差异特征互补融合的巢式分割网络。具体来说,网络的编码和解码部分通过多级稠密中间路径相连形成一个嵌套形式的结构,编码器的深浅特征通过多级路径供解码器实现密集的多尺度特征复用,另一方面多模态深层特征通过特征差异性融合策略增强其语义表达能力。实验结果表明,所提网络在MFNet数据集上实现了65.8%的平均准确率和54.7%的平均交并比,与其他先进RGB-T分割模型相比,具有更优越的分割能力。  相似文献   

4.
针对目前室内场景语义分割网络无法很好融合图像的RGB信息和深度信息的问题,提出一种改进的室内场景语义分割网络。为使网络能够有选择性地融合图像的深度特征和RGB特征,引入注意力机制的思想,设计了特征融合模块。该模块能够根据深度特征图和RGB特征图的特点,学习性地调整网络参数,更有效地对深度特征和RGB特征进行融合;同时使用多尺度联合训练,加速网络收敛,提高分割准确率。通过在SUNRGB-D和NYUDV2数据集上验证,相比于包含深度敏感全连接条件随机场的RGB-D全卷积神经网络(DFCN-DCRF)、深度感知卷积神经网络(Depth-aware CNN)、多路径精炼网络(RefineNet)等目前主流的语义分割网络,所提网络具有更高的分割精度,平均交并比(mIoU)分别达到46.6%和48.0%。  相似文献   

5.
从深度图RGB-D域中联合学习RGB图像特征与3D几何信息有利于室内场景语义分割,然而传统分割方法通常需要精确的深度图作为输入,严重限制了其应用范围。提出一种新的室内场景理解网络框架,建立基于语义特征与深度特征提取网络的联合学习网络模型提取深度感知特征,通过几何信息指导的深度特征传输模块与金字塔特征融合模块将学习到的深度特征、多尺度空间信息与语义特征相结合,生成具有更强表达能力的特征表示,实现更准确的室内场景语义分割。实验结果表明,联合学习网络模型在NYU-Dv2与SUN RGBD数据集上分别取得了69.5%与68.4%的平均分割准确度,相比传统分割方法具有更好的室内场景语义分割性能及更强的适用性。  相似文献   

6.
窦猛  陈哲彬  王辛  周继陶  姚宇 《计算机应用》2023,(11):3385-3395
多模态医学图像可以为临床医生提供靶区(如肿瘤、器官或组织)的丰富信息。然而,由于多模态图像之间相互独立且仅有互补性,如何有效融合多模态图像并进行分割仍是亟待解决的问题。传统的图像融合方法难以有效解决此问题,因此基于深度学习的多模态医学图像分割算法得到了广泛的研究。从原理、技术、问题及展望等方面对基于深度学习的多模态医学图像分割任务进行了综述。首先,介绍了深度学习与多模态医学图像分割的一般理论,包括深度学习与卷积神经网络(CNN)的基本原理与发展历程,以及多模态医学图像分割任务的重要性;其次,介绍了多模态医学图像分割的关键概念,包括数据维度、预处理、数据增强、损失函数以及后处理等;接着,对基于不同融合策略的多模态分割网络进行综述,对不同方式的融合策略进行分析;最后,对医学图像分割过程中常见的几个问题进行探讨,并对今后研究作了总结与展望。  相似文献   

7.
针对深空探测活动中地外环境复杂和计算资源受限,导致语义分割精度较低的问题,提出了一种基于邻域度量关系的RGB-D融合语义分割算法。该算法采用多模态的RGB-D信息取代传统的单目相机数据,并以中期融合框架构建基础网络,且额外设计了邻域度量关系模块来优化表现。具体来说,中期融合网络针对不同尺度的原始特征执行精炼、融合、跳接等操作,实现跨模态数据以及跨层级特征的有效互补。进一步地,结合语义特征图与语义标签,以不增加网络推理开销的方法构建邻域度量关系,从全局及局部特征中挖掘样本类别之间的关联信息,提升分割网络的性能。分别在室内数据集NYUDv2和火星模拟场地数据集MARSv1上进行实验,结果表明多模态RGB-D信息以及邻域度量关系均能显著提升语义分割的精度。  相似文献   

8.
在计算机视觉领域中,语义分割是场景解析和行为识别的关键任务,基于深度卷积神经网络的图像语义分割方法已经取得突破性进展。语义分割的任务是对图像中的每一个像素分配所属的类别标签,属于像素级的图像理解。目标检测仅定位目标的边界框,而语义分割需要分割出图像中的目标。本文首先分析和描述了语义分割领域存在的困难和挑战,介绍了语义分割算法性能评价的常用数据集和客观评测指标。然后,归纳和总结了现阶段主流的基于深度卷积神经网络的图像语义分割方法的国内外研究现状,依据网络训练是否需要像素级的标注图像,将现有方法分为基于监督学习的语义分割和基于弱监督学习的语义分割两类,详细阐述并分析这两类方法各自的优势和不足。本文在PASCAL VOC(pattern analysis, statistical modelling and computational learning visual object classes)2012数据集上比较了部分监督学习和弱监督学习的语义分割模型,并给出了监督学习模型和弱监督学习模型中的最优方法,以及对应的MIoU(mean intersection-over-union)。最后,指出了图像语义分割领域未来可能的热点方向。  相似文献   

9.
为了降低语义分割任务的标注成本,提出一种基于自监督图像对的弱监督语义分割算法Co-Net。首先,将一对图像分别输入骨干网络中提取图像对特征;然后,将特征展开加入位置信息送入编码层中进行编码;接着,将编码特征送入协同注意力模块(CoAM)以及双向自注意力模块(BiAM)中进行信息相互表征;最后,将图像区域掩码模型(MRM)以及图像对匹配(IPM)两种自监督任务用于网络训练,学习图像对中的全局关联以及局部关联,以此得到更加精确的初始化种子。仅使用图像级标签进行弱监督语义分割,在Pascal VOC 2012验证和测试集上分别实现了69.8%和70.3%的平均交并比(mIoU),相较于同样为图像对输入的算法GroupWSSS(Group-Wise Semantic mining for weakly Supervised Semantic Segmentation),验证集、测试集上的mIoU分别提高了1.6、1.8个百分点。实验结果表明,所提算法可以获得更加完整的目标激活区域。  相似文献   

10.
有效的RGB-D图像特征提取和准确的3D空间结构化学习是提升RGB-D场景解析结果的关键。目前,全卷积神经网络(FCNN)具有强大的特征提取能力,但是,该网络无法充分地学习3D空间结构化信息。为此,提出了一种新颖的三维空间结构化编码深度网络,内嵌的结构化学习层有机地结合了图模型网络和空间结构化编码算法。该算法能够比较准确地学习和描述物体所处3D空间的物体分布。通过该深度网络,不仅能够提取包含多层形状和深度信息的分层视觉特征(HVF)和分层深度特征(HDF),而且可以生成包含3D结构化信息的空间关系特征,进而得到融合上述3类特征的混合特征,从而能够更准确地表达RGB-D图像的语义信息。实验结果表明,在NYUDv2和SUNRGBD标准RGB-D数据集上,该深度网络较现有先进的场景解析方法能够显著提升RGB-D场景解析的结果。  相似文献   

11.
温静  李智宏 《计算机应用》2021,41(1):215-219
针对目前单目图像深度估计任务缺乏对特征通道之间的全局信息关系表示的问题,提出了一种基于SE-ResNeXt的单目图像深度估计方法。首先,通过建模特征通道间的动态且非线性的关系来提高网络的全局信息表示能力;然后,采用特征重标定策略来自适应地重新校准特征通道的响应,从而进一步提升特征利用率;最后,通过ResNeXt结构在不增加模型复杂度的基础上进一步提升方法的性能。实验结果表明,相比与没有采用ResNeXt结构的算法,该方法获得了更低的误差值,其均方根误差(RMSE)降低了10%,绝对相对误差(AbsRel)降低了27%。  相似文献   

12.
基于显微图像散焦特征的微操作机器人深度信息提取   总被引:4,自引:1,他引:4  
吕遐东  黄心汉  王敏  彭刚 《机器人》2003,25(4):322-326
提出了一种单目显微视觉下微操作机器人深度信息的快速提取方法,通过计算微操作空间中 X-Y平面的散焦图像特征,表征图像清晰程度,从而获得机械手在Z方向的深度信息.实验 特征曲线证明方法简洁快速,有效的反映了微操作深度信息的变化和机械手在纵向的运动特 性.  相似文献   

13.
目的:受水下复杂光学环境以及水下运动目标特性影响,水下视频图像中难以获取准确的目标特征,也难以准确预测目标空间尺寸,使得目标跟踪过程中跟踪窗偏移量较大且无法准确地包络目标区域。本文提出一种新的以视觉深度信息为核心的目标特征计算和跟踪方法。方法:首先,基于暗原色先验计算视觉深度信息,提取目标的空间位置特征;然后,基于深度信息对水下图像进行去光幕及色彩恢复,增强图像目标特征,最后,在贝叶斯滤波框架下对水下目标进行跟踪,同时结合目标深度信息及尺度变化规律自适应调整跟踪窗口大小。结果:实验结果表明,本文提出的方法能够根据视觉深度信息准确计算目标特征并优化跟踪窗口,实现对水下目标的自适应跟踪。结论:本文提出了一种新的水下目标跟踪方法,以视觉深度信息计算为核心。实验结果验证了该方法在水下目标自适应跟踪方面的鲁棒性,可适用于各种非线性非高斯水下目标跟踪框架中。  相似文献   

14.
深度图像直接反映景物表面的三维几何信息,且不受光照、阴影等因素的影响,对深度图像处理、识别、理解是目前计算机视觉领域研究的热点和重点之一。针对深度图像信息单一且噪声较大的特点,提出一种基于组合特征的阈值分割算法,实现对深度图像数据的有效分割。算法首先通过梯度特征对图像进行Otsu阈值分割;在此基础上,分别在不同分割区域内利用深度特征进行Otsu多阈值分割,得到候选目标;然后,在空域上利用像素的位置特征对候选目标进行分割、合并与去噪,最终得到图像分割的结果。实验结果表明,该方法能有效克服深度图像中噪声的影响,得到的分割区域边界准确,分割质量较高,为以后的室内对象识别和场景理解工作奠定了较好的基础。  相似文献   

15.
针对普通摄像头手势识别系统易受复杂环境和光照条件等因素影响,存在对指尖点的漏判、误判问题,提出一种基于Kinect 骨骼信息与深度图像的掌心点提取和指尖点检测的手势识别方法。在DRVI平台上创建Kinect的接口控件,对Kinect传感器获取人体骨骼信息和深度图像进行分析,采用了坐标映射、图像分割、距离变换的关键技术和方法从深度图中分割出手势部分区域,对手势区域形态学处理,结合凸包和K-曲率算法检测不同手势中指尖点的个数和位置,计算不同手势凸包轮廓上的点集生成的HOG(Histogram of Oriented Gradient)特征描述子,最后利用特征描述子对预定的6种数字手势进行识别。经实验测试可以在复杂环境和不同光照情况下正确识别指尖点。  相似文献   

16.
鉴于传统深度估计方法在高分辨率图像下存在特征提取不够充分、图像信息获取不完整、受限于局部信息或特定类型的特征提取等问题,为此提出一种面向全局特征的Transformer立体匹配网络。该网络采用编码器-解码器的端到端架构,使用多头注意力机制,允许模型在不同子空间中关注不同的特征,从而提高建模能力。模型将自注意力机制和特征重构窗口相结合,能够提高特征的表征能力,弥补局部特征不足问题,减少计算负担的同时有效应对Transformer架构通常伴随的高计算复杂度问题,确保模型的注意力计算保持在线性复杂度范围内。在Scene Flow、KITTI-2015数据集上分别进行实验,指标获得显著提升,通过对比实验验证模型的有效性和正确性。  相似文献   

17.
基于双焦的单目立体成像系统分析   总被引:2,自引:0,他引:2  
刘昕鑫  王元庆 《计算机测量与控制》2008,16(9):1316-1318,1321
讨论了基于双焦的单目立体成像模型,分析了在共轴模型下CCD成像离散性而导致的深度计算误差与镜头焦距及物点空间位置的关系,当镜头焦距增加时,可精确恢复深度增大,当物点距镜头光轴距离较远,即物点位于视场边缘时,深度计算误差较小;并根据双焦成像特点提出了相应的特征匹配方法,即采用与两焦距倍数相关的特征提取算子,并对匹配结果进行相应的深度计算及插值;文章最后给出了理想双焦图像对的相应实验结果,并探讨了实验误差的形成原因。  相似文献   

18.
不同姿态的人体模型易对骨架提取算法产生干扰。为此,提出一种新的骨架提取算法。该算法通过将人体模型矢状面深度信息和改进Hopfield神经网络相结合的方式,引入一种网络输入输出函数,对传统的人体骨架提取算法进行改进,使网络收敛速度明显加快。通过特征点的深度信息决定点对差异的方式,使网络成功地避免局部极小点,同时减少网络的运行时间。实验结果表明,该算法在定位骨架特征点处的误差明显小于传统算法,且缩短了算法的运行时间。该算法对人体骨架提取的效果更好。  相似文献   

19.
采用传统视频信号进行身份识别时,易受遮挡、复杂背景等因素干扰的问题,本文提出一种利用 Kinect深度信息进行身份快速鉴别的方法。首先利用微软Kinect设备获取人体俯视图(深度图像),然后根据深度信息提取以下特征:(1)身高,(2)肩宽,(3)深度直方图,根据人体生理结构的差异达到判别人身份的目的。实验结果表明,该方法计算简单,具有较高的识别精度和较强的鲁棒性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号