首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
针对复杂室内场景中,现有RGB图像语义分割网络易受颜色、光照等因素影响以及RGB-D图像语义分割网络难以有效融合双模态特征等问题,提出一种基于注意力机制的RGB-D双模态特征融合语义分割网络AMBFNet(attention mechanism bimodal fusion network)。该网络采用编-解码器结构,首先搭建双模态特征融合结构(AMBF)来合理分配编码支路各阶段特征的位置与通道信息,然后设计双注意感知的上下文(DA-context)模块以合并上下文信息,最后通过解码器将多尺度特征图进行跨层融合,以减少预测结果中类间误识别和小尺度目标丢失问题。在SUN RGB-DNYU和NYU Depth v2(NYUDV2)两个公开数据集上的测试结果表明,相较于残差编解码(RedNet)、注意力互补网络(ACNet)、高效场景分析网络(ESANet)等目前较先进的RGB-D语义分割网络,在同等硬件条件下,该网络具有更好的分割性能,平均交并比(MIoU)分别达到了47.9%和50.0%。  相似文献   

2.
基于可见光、红外双模态数据的场景语义分割在多种复杂环境下较单模态分割显现出更好的性能,然而,获取较好分割效果的前提条件是可见光相机和红外热像仪的成像均清晰。真实场景中存在较多不利的环境因素,如恶劣的光照和天气会对可见光或红外产生不同程度的干扰,从而限制了基于双模态语义分割方法的性能表现。为解决该问题,建立一种改进的双模态语义分割模型。在双流网络架构的基础上增加红外与可见光的像素级融合模块,将其作为一个独立的分支网络并与可见光、红外2个已有分支进行特征级融合,从而实现双模态的像素级和特征级融合。此外,在融合分支中增加空间、通道注意力机制,以挖掘双模态在像素级上的互补特征。实验结果表明,在MF和FR-T这2个公开数据集上,该模型的mIoU指标相比性能表现次优的RTFNet-50模型分别提高6.5和0.6个百分点,且在双模态图像降质和失效时依然具有良好的分割性能。  相似文献   

3.
场景中的不规则文本识别仍然是一个具有挑战性的问题。针对场景中的任意形状以及低质量文本,本文提出了融合视觉注意模块与语义感知模块的多模态网络模型。视觉注意模块采用基于并行注意的方式,与位置感知编码结合提取图像的视觉特征。基于弱监督学习的语义感知模块用于学习语言信息以弥补视觉特征的缺陷,采用基于Transformer的变体,通过随机遮罩单词中的一个字符进行训练提高模型的上下文语义推理能力。视觉语义融合模块通过选通机制将不同模态的信息进行交互以产生用于字符预测的鲁棒特征。通过大量的实验证明,所提出的方法可以有效地对任意形状和低质量的场景文本进行识别,并且在多个基准数据集上获得了具有竞争力的结果。特别地,对于包含低质量文本的数据集SVT和SVTP,识别准确率分别达到了93.6%和86.2%。与只使用视觉模块的模型相比,准确率分别提升了3.5%和3.9%,充分表明了语义信息对于文本识别的重要性。  相似文献   

4.
从深度图RGB-D域中联合学习RGB图像特征与3D几何信息有利于室内场景语义分割,然而传统分割方法通常需要精确的深度图作为输入,严重限制了其应用范围。提出一种新的室内场景理解网络框架,建立基于语义特征与深度特征提取网络的联合学习网络模型提取深度感知特征,通过几何信息指导的深度特征传输模块与金字塔特征融合模块将学习到的深度特征、多尺度空间信息与语义特征相结合,生成具有更强表达能力的特征表示,实现更准确的室内场景语义分割。实验结果表明,联合学习网络模型在NYU-Dv2与SUN RGBD数据集上分别取得了69.5%与68.4%的平均分割准确度,相比传统分割方法具有更好的室内场景语义分割性能及更强的适用性。  相似文献   

5.
三维视觉理解旨在智能地感知和解释三维场景,实现对物体、环境和动态变化的深入理解与分析。三维目标检测作为其核心技术,发挥着不可或缺的作用。针对当前的三维检测算法对于远距离目标和小目标检测精度较低的问题,提出了一种面向多模态交互式融合与渐进式优化的三维目标检测方法MIFPR。在特征提取阶段,首先引入自适应门控信息融合模块。通过把点云的几何特征融入图像特征中,能够获取对光照变化更有辨别力的图像表示。随后提出基于体素质心的可变形跨模态注意力模块,以驱使图像中丰富的语义特征和上下文信息融合到点云特征中。在目标框优化阶段,提出渐进式注意力模块,通过学习、聚合不同阶段的特征,不断增强模型对于精细化特征的提取与建模能力,逐步优化目标框,以提升对于远距离、小目标的检测精度,进而提高对于视觉场景理解的能力。在KITTI数据集上,所提方法对于Pedestrian和Cyclist等小目标的检测精度较最优基线有明显提升,证实了该方法的有效性。  相似文献   

6.
机器视觉技术对改善煤矿安全监测手段、提高装备自动化水平具有积极意义。详细阐述了当前煤矿智能化建设过程中基于机器视觉的不同场景和系统下的设备信息状态感知原理,综述了机器视觉感知技术在煤矿安全监测、拣选识别、煤岩识别、定位导航、运输检测、位姿检测和信息测量等方面的实践应用;分析指出未来煤矿机器视觉感知技术应深入挖掘采掘工作面机器视觉场景理解需求,构建生产全视场监视检测体系,提升多时空多维度多变量集成监测效果,改善视频自主监视告警能力,增强视觉引导能力,并形成地面生产管理运行系统的视觉资料统一化管理方式等,重点研究综采装备(群)姿态同时空测量、采掘环境动态变化感知、生产全视场监测与自主告警、煤矿机器人视觉引导控制等技术;指出煤矿机器视觉感知技术在防爆或本安型智能视觉传感器研发、高效视觉测量与分析、检测识别测量精度提升、图像高质量标注方面仍存在挑战,通过开发具有边缘计算能力的视觉传感器,构建井上下视觉分布式测量方案,实现各类复杂环境下开采信息准确识别与测量,可有效提高机器视觉感知技术在煤炭行业的更深层次融合和应用。  相似文献   

7.
针对常规机器人导航系统采用单一类型地形识别传感器,观察维度单一等问题,对煤矿井下探测搜救机器人地形感知系统进行研究,使用远近感知系统数据融合,提高机器人避障能力。由激光扫描仪采集的二维点云数据建立远距离地形信息,由Kinect相机采集的地形深度信息建立近距离地形信息。基于PCL模型,应用像素遍方法,实现观测信息的采集与云图像的构建。使用2.5维栅格地图构建方法得到近距离环境地形信息。使用Dijkstra算法进行了路径规划研究,建立了融合路径长度和地面危险度等级的目标函数。通过仿真研究验证了本文提出的最优路径减小机器人行走过程的俯仰角、侧倾角的波动幅度。  相似文献   

8.
在机器人自主导航中,同时定位与建图负责感知周围环境并定位自身位姿,为后续的高级任务提供感知支撑。场景识别作为其中的关键模块,可以帮助机器人更加准确地感知周围环境,它通过识别当前的观测和之前的观测是否属于同一个场景来校正传感器硬件固有误差导致的误差累积。现有的方法主要关注稳定视角下的场景识别,根据两个观测之间的视觉相似性来判断它们是否属于同一个场景。然而,当观测视角发生变化时,同一个场景的观测可能存在较大的视觉差异,使得观测之间可能只是局部相似,进而导致传统方法失效,因此,一种基于稀疏点云分割的场景识别方法被提出。它将场景进行分割,以解决局部相似的问题,并且结合视觉信息和几何信息实现准确的场景描述和匹配,使得机器人能识别出不同视角下的相同场景,支撑单机的回环检测模块或多机的地图融合模块。该方法基于稀疏点云分割将每个观测分割为若干部分,分割结果对视角具有不变性,并且从每个分割部分中提取出局部词袋向量和β角直方图来准确描述其场景内容,前者包含场景的视觉语义信息,后者包含场景的几何结构信息。之后,基于分割部分匹配观测之间的相同部分,丢弃不同部分,实现准确的场景内容匹配,提高场景识别的成功率。最...  相似文献   

9.
《工矿自动化》2017,(7):7-11
针对标准尺度不变特征变换(SIFT)算法存在搜索视觉图像中关键点出现计算冗余和目标识别实时性差的问题,提出了一种改进的SIFT算法,并将其应用到煤矿救援机器人的环境信息感知和目标识别匹配中。该方法以马氏距离代替标准SIFT算法中的欧氏距离,简化了特征点提取,避免了特征点的误匹配。现场试验结果表明,改进后的SIFT算法提高了煤矿救援机器人对煤矿井下环境目标识别的实时性和目标匹配的准确性,为煤矿救援自主移动机器人实现避障、行走做好了视觉前提。  相似文献   

10.
面向机器人自主运动的视觉感知技术是实现机器人与环境交互的关键技术之一,边线作为保证机器人运动安全的一种视觉信息,具有广泛的研究价值,而半结构化场景为边线检测带来新的挑战.基于手工提取特征的检测方法在面对非城市环境或路面视觉信息不明显的复杂场景时并不能表现出鲁棒性,利用深度学习方法进行边线检测已成为一种主流趋势.鉴于此,针对半结构化场景下的移动机器人视觉边线检测研究进行综述,考察部分边线检测算法在半结构化场景下的应用前景与应用效果.首先,对常用的边线检测数据集进行整理,从采集场景、标注类型等角度分析当前数据集及研究的侧重点;其次,对不同的方法进行分类与总结,比较检测与数据处理过程;接着,对深度学习常用的评价指标进行整理,并对不同方法在面对不同场景时的检测效果进行比较和分析;最后,针对半结构化场景下边线检测所存在的问题,对基于深度学习的视觉边线检测方法的研究方向进行展望.  相似文献   

11.
为了解决传统双模态目标检测方法难以在复杂场景(如大雾、眩光、黑夜)中克服低对比度噪声以及无法有效识别小尺寸目标的问题,文中提出基于自引导注意力的双模态校准融合目标检测算法.首先,设计双模态融合网络,利用通道特征和空间特征校准纠正输入图像(可见光图像与红外图像)中的低对比度噪声,从纠正后的特征中获取互补信息,并准确实现特征融合,提高算法在眩光、黑夜和大雾等场景下的检测精度.然后,构建自引导注意力机制,捕捉图像像素之间的依赖关系,增强不同尺度特征的融合能力,提高算法对于小尺寸目标的检测精度.最后,在行人、行人车辆、航拍车辆三类六种数据集上进行的大量实验表明,文中算法检测精度较高.  相似文献   

12.
余娜  刘彦  魏雄炬  万源 《计算机应用》2022,42(3):844-853
针对现有RGB-D室内场景语义分割不能有效融合多模态特征的问题,提出一种基于注意力机制和金字塔融合的RGB-D室内场景图像语义分割网络模型APFNet,并为其设计了两个新模块:注意力机制融合模块与金字塔融合模块.其中,注意力机制融合模块分别提取RGB特征和Depth特征的注意力分配权重,充分利用两种特征的互补性,使网络...  相似文献   

13.
目前视频目标分割算法多是基于匹配和传播策略分割目标,常常以掩模或者光流的方式利用前一帧的信息,探索了新的帧间特征传播方式,利用短时匹配模块提取前一帧信息并传播给当前帧,提出一种面向视频序列数据的目标分割模型。通过长时匹配模块和短时匹配模块分别与第一帧和前一帧做相关操作进行像素级匹配,得到的全局相似性图和局部相似性图,以及前一帧的掩模和当前帧的特征图,经过两个优化网络后通过分割网络得到分割结果。在视频目标分割公开数据集上的实验表明,所提出方法在单目标和多目标上分别取得了86.5%和77.4%的区域相似度和轮廓精度均值,每秒可计算21帧。提出的短时匹配模块比仅使用掩模更有利于提取前一帧的信息,通过长时匹配模块和短时匹配模块的结合,不使用在线微调即可实现高效的视频目标分割,适合应用于移动机器人视觉感知。  相似文献   

14.
论文为了降低复杂场景中基于单一传感器进行目标检测的局限性,提出了一种特征级的毫米波雷达和图像融合的目标检测方法(SPCRF-Net)。该方法将毫米波雷达原始数据预处理成固定大小的线段并映射到图像中,引入金字塔池化处理毫米波雷达数据;对图像采用VGG16作为主干网络进行特征提取,并在每一层中融合毫米波雷达特征和图像特征。在融合层次中引入SE注意力模块增强高级别特征感知能力,并构建了一种融合结构(PFPN)强化特征提取。实验表明该方法有效减少了目标的漏检情况,提升了模型目标检测的性能。  相似文献   

15.
针对室内复杂场景中, 图像语义分割存在的特征损失和双模态有效融合等问题, 提出了一种基于编码器-解码器架构的融合注意力机制的轻量级语义分割网络. 首先采用两个残差网络作为主干网络分别对RGB和深度图像进行特征提取, 并在编码器中引入极化自注意力机制, 然后设计引入双模态融合模块在不同阶段对RGB特征和深度特征进行有效融合, 接着引入并行聚合金字塔池化以获取区域之间的依赖性. 最后, 采用3个不同尺寸的解码器将前面的多尺度特征图进行跳跃连接并融合解码, 使分割结果含有更多的细节纹理. 将本文提出的网络模型在NYUDv2数据集上进行训练和测试, 并与一些较先进RGB-D语义分割网络对比, 实验证明本文网络具有较好分割性能.  相似文献   

16.
现有图像去雾方法在网络训练时没有考虑去雾后的图像是否满足人类视觉感知;其次以编解码结构为主要结构的去雾网络,不可避免丢失细节信息,去雾后的图像存在纹理模糊、颜色失真等问题。针对上述问题,提出了一个基于感知监督和多层次特征融合的图像去雾网络。在网络结构中设计了不同层次的特征融合模块。在编码阶段设计分辨率层次特征复用与融合模块,更好地提取不同尺度下表达能力更强的特征,为重建高质量图像提供更多细节信息;特征转换阶段设计空间上下文层次特征提取与融合模块,提取与融合不同感受野的空间上下文的特征,以提供更加精准的图像结构信息;解码阶段设计自适应特征融合模块,自适应地融合下采样阶段生成的不同分辨率层次的特征及特征转换阶段输出的不同空间上下文层次的特征;其次在训练阶段的损失函数中引入感知损失和多尺度结构相似度损失,引导网络学习更多的视觉感知属性。与当前主流方法相比较,该方法在定量和定性指标得到明显提升的同时提高了对去雾图像的视觉效果。实验结果表明在RESIDE合成数据集以及真实有雾图像上取得显著的去雾效果。  相似文献   

17.
为了预防人员防护缺失导致的生产事故,着力探究复杂施工场景下人员安全帽佩戴情况的智能化识别。在一阶段目标检测算法的基础上,针对安全帽识别问题中的小目标和安全帽纹理信息缺失的问题,提出提取并融合上下文信息,以增强模型的表征学习能力。首先,为解决特征鉴别力不足的问题,提出局部上下文感知模块和全局上下文融合模块。局部上下文感知模块能够融合人体头部信息和安全帽信息获取具有鉴别力的特征表示;全局上下文融合模块将高层的语义信息与浅层特征融合,提升浅层特征的抽象能力。其次,为了解决小目标识别问题,提出使用多个不同的目标检测模块分别识别不同大小的目标。在构建的复杂施工场景下的安全帽识别数据集上的实验结果表明:提出的2个模块将mAP提高了11.46个百分点,安全帽识别的平均精度提高了10.55个百分点。本文提出的方法具有速度快、精度高的特点,为智慧工地提供了有效的技术解决方案。  相似文献   

18.
路沿检测是智能车辆环境感知的重要目标,使用语义分割的方法对路沿目标进行检测。针对语义分割网络不能平衡浅层特征和深度特征的问题,设计了一种具有双支路特征融合的实时路沿分割网络。网络主支使用残差结构模块进行下采样,在特征图分辨率为输入分辨率的1/16时恢复至原来分辨率。采用多个模块来融合浅层空间特征与高级语义特征:使用SDFE(spatial detail feature extraction)模块弥补几何特征的丢失;使用联合特征金字塔(joint feature pyramid,JFP)模块将网络多个阶段具有强语义信息的多尺度特征结合使用;支路中设计了特征注意力机制(feature attention,FA)模块,使用4个卷积归一化,通过注意力模块处理,用来增强空间细节特征的提取;设计了FFM(feature fusion module)模块融合高级语义特征与浅层特征。对网络进行性能评价,该网络测试mIoU为79.65%,FPS为59.6,在道路上进行实车实验,分割快速且效果良好。  相似文献   

19.
传统的分拣作业无法伴随工作环境的变化进行相应的调整,针对此种不足,出现了基于机器视觉的分拣机器人的相关研究,通过将图像处理和特征工程技术引入视觉模块,使得分拣系统能适时的调整.不同于这些方法,本研究基于实验室的工业分拣系统,将深度学习方法应用其中.通过将Faster RCNN检测算法引入视觉模块并对区域提取网络RPN进行相关改进,加快Faster RCNN模型的检测过程,使得该系统满足工业的实时性要求.Faster RCNN作为一种端到端的方法,能自动对输入图像生成更具表达力的特征,对相应目标提取相应特征,这避免了人工设计特征,它的特征自动生成能力使其能适用于各种场景,这提升了工业分拣机器人的环境适应能力.  相似文献   

20.
显著目标检测是指通过引入人类视觉注意力机制,使计算机能检测视觉场景中人们最感兴趣的区域或对象.针对显著性目标检测中存在检测边缘不清晰、检测目标不完整及小目标漏检的问题,文中提出基于渐进式嵌套特征的融合网络.网络采用渐进式压缩模块,将较深层特征不断向下传递融合,在降低模型参数量的同时也充分利用高级语义信息.先设计加权特征融合模块,将编码器的多尺度特征聚合成可访问高级信息和低级信息的特征图.再将聚合的特征分配到其它层,充分获取图像上下文信息及关注图像中的小目标对象.同时引入非对称卷积模块,进一步提高检测准确性.在6个公开数据集上的实验表明文中网络取得较优的检测效果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号