首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 390 毫秒
1.
为解决图像语义分割中多尺度目标分割困难、类别边界预测不准确等问题,提出一种基于改进空洞空间金字塔池化的多层次特征语义融合分割方法。将深层次网络特征按通道分组,利用分组空洞空间金字塔池化模块捕获每个分组多尺度特征上下文信息;引入条状池化模块对上下文信息补充和完善,增强全局语义信息表达;根据语义引导融合模块建立不同层次特征像素间对应关系,将深层次语义信息以自底向上方式逐步融入到低层次高分辨率图像中。实验结果表明,该方法在PASCAL VOC 2012和Cityscapes公开数据集上分别获得73.1%、71.8%的平均交并比,且在相同精度下,该方法减少了39%的参数量。  相似文献   

2.
为了解决在街道场景图像语义分割任务中传统U-Net网络在多尺度类别下目标分割的准确率较低和图像上下文特征的关联性较差等问题,提出一种改进U-Net的语义分割网络AS-UNet,实现对街道场景图像的精确分割.首先,在U-Net网络中融入空间通道挤压激励(spatial and channel squeeze&excitation block, scSE)注意力机制模块,在通道和空间两个维度来引导卷积神经网络关注与分割任务相关的语义类别,以提取更多有效的语义信息;其次,为了获取图像的全局上下文信息,聚合多尺度特征图来进行特征增强,将空洞空间金字塔池化(atrous spatial pyramid pooling, ASPP)多尺度特征融合模块嵌入到U-Net网络中;最后,通过组合使用交叉熵损失函数和Dice损失函数来解决街道场景目标类别不平衡的问题,进一步提升分割的准确性.实验结果表明,在街道场景Cityscapes数据集和Cam Vid数据集上AS-UNet网络模型的平均交并比(mean intersection over union, MIo U)相较于传统U-Net网络分别提...  相似文献   

3.
针对人群计数图像人头尺度变化大、背景噪声高等问题,提出一种基于注意力机制的多尺度融合人群计数算法,以充分聚合多尺度信息,并有效区分背景噪声。构建基于残差连接的空洞空间金字塔池化,通过残差结构以及多个不同扩张率的空洞卷积在捕获多尺度头部目标特征的同时融入浅层特征图的空间细节信息,提高特征图质量;构建跨层多尺度特征融合模块,融合浅层和深层分支不同大小的边缘细节信息和上下文语义信息,并设计基于多分支的特征融合模块,融合不同感受野大小的多尺度信息以缓解大规模人头尺度变化的问题;构建基于矩阵相似运算的通道和空间注意力机制模块提取像素级特征权重,加强网络对于背景和人头目标的判别能力,自适应矫正位置信息。实验结果表明,相比11种对比算法的最优值,所提算法在SHA数据集上的平均绝对误差和均方根误差指标降低1.4%、4.2%,在UCF_CC_50数据集上降低4.9%、1.8%,能够精确地预测人群分布状态和估计人群数量,生成高质量的人群密度图。  相似文献   

4.
针对场景图像语义分割任务中存在多尺度目标以及特征提取网络缺乏对全局上下文信息的获取等问题,设计了一种嵌入改进自注意力机制以及自适应融合多尺度特征的双路径分割算法。在空间路径利用双分支的简易下采样模块进行4倍下采样提取高分辨率的边缘细节信息,使网络对目标边界分割更精确。在语义路径嵌入上下文捕获模块和自适应特征融合模块,为解码阶段提供具有丰富多尺度的高语义上下文信息,并采用类别平衡策略进一步提升分割效果。经过实验验证,该模型在Camvid和Aeroscapes数据集上的MIOU(mean intersection over union)指标分别为59.4%和60.1%,具有较好的分割效果。  相似文献   

5.
杨昊  张轶 《计算机应用》2023,(9):2727-2734
针对目标检测中分类和定位子任务分别需要大感受野和高分辨率,难以在这两个相互矛盾的需求间取得平衡的问题,提出一种用于目标检测的基于注意力机制的特征金字塔网络算法。该算法能整合多个不同感受野来获取更丰富的语义信息,以一种更关注不同特征图重要性的方式融合多尺度特征图,并在注意力机制引导下进一步精练复杂融合后的特征图。首先,通过多尺度的空洞卷积获取多尺度感受野,在保留分辨率的同时增强语义信息;其次,通过多级特征融合(MLF)方式将多个不同尺度的特征图通过上采样或池化操作变为相同分辨率后融合;最后,利用注意力引导的特征精练模块(AFRM)对融合后的特征图作精练处理,丰富语义信息并消除融合带来的混叠效应。将所提特征金字塔替换Faster R-CNN中的特征金字塔网络(FPN)后在MS COCO 2017数据集上进行实验,结果表明当骨干网络为深度50和101的残差网络(ResNet)时,平均精度(AP)分别达到了39.2%和41.0%,与使用原FPN的Faster R-CNN相比,分别提高了1.4和1.0个百分点。可见,所提特征金字塔网络算法能替代原FPN,更好地应用在目标检测场景中。  相似文献   

6.
针对真实世界图像去噪算法存在对上下文信息和全局信息利用不足导致的去噪效果不佳问题,提出一种U形金字塔注意力网络(UPCA)。U形结构由多尺度特征模块与长距离通道注意力模块融合形成的金字塔注意力模块组成,U形结构通过拼接操作可以将每一层的输出特征图融合,减少卷积过程以及下采样过程中图像细节特征的丢失。多尺度特征金字塔模块可以更好地利用上下文信息从而更好地恢复出干净的图像,而建立长距离依赖的通道注意力模块可以更好地利用全局信息,提高网络的去噪效果。同时在损失函数部分加入噪声项来加快训练时收敛的速度以及提高去噪效果。UPCA网络在数据集SIDD和DND进行对比实验,验证了UPCA网络的可行性和先进性,同时与同样使用通道注意力的RIDNet相比UPCA网络的PSNR/SSIM指标提升了0.81 dB/0.044,去噪后的效果图直观表现也更好,而且同等参数下训练所需的算力更小。  相似文献   

7.
显著性实例分割是指分割出图像中最引人注目的实例对象。现有的显著性实例分割方法中存在 较小显著性实例不易检测分割,以及较大显著性实例分割精度不足等问题。针对这 2 个问题,提出了一种新的 显著性实例分割模型,即注意力残差多尺度特征增强网络(ARMFE)。模型 ARMFE 主要包括 2 个模块:注意力 残差网络模块和多尺度特征增强模块,注意力残差网络模块是在残差网络基础上引入注意力机制,分别从通道 和空间对特征进行选择增强;多尺度特征增强模块则是在特征金字塔基础上进一步增强尺度跨度较大的特征信 息融合。因此,ARMFE 模型通过注意力残差多尺度特征增强,充分利用多个尺度特征的互补信息,同时提升 较大显著性实例对象和较小显著性实例对象的分割效果。ARMFE 模型在显著性实例分割数据集 Salient Instance Saliency-1K (SIS-1K)上进行了实验,分割精度和速度都得到了提升,优于现有的显著性实例分割算法 MSRNet 和 S4Net。  相似文献   

8.
目的 X光图像违禁物品检测一直是安检领域的一个基础问题,安检违禁物品形式各异,尺度变化大,以及透视性导致大量物体堆放时出现重叠遮挡现象,传统图像处理模型很容易出现漏检误检,召回率低。针对以上问题,提出一种融合多尺度特征与全局上下文信息的特征增强融合网络(feature enhancement fusion network, FEFNet)用于X光违禁物品检测。方法 首先针对特征主干网络darknet53,加入空间坐标的注意力机制,将位置信息嵌入到通道注意力中,分别沿两个空间方向聚合特征,增强特征提取器对违禁目标的特征提取能力,抑制背景噪声干扰。然后,将特征提取主干网络输出的特征编码为1维向量,利用自监督二阶融合获取特征空间像素相关性矩阵,进而获取完整的全局上下文信息,为视觉遮挡区域提供全局信息指导。针对违禁物品尺度不一的问题,提出多尺度特征金字塔融合模块,增加一层小感受野预测特征用于提高对小尺度违禁目标的检测能力。最后,通过融合全局上下文特征信息和局部多尺度细节特征解决违禁物品之间的视觉遮挡问题。结果 在SIXRay-Lite(security inspection X-ray)数据集...  相似文献   

9.
文本指代实例分割(RIS)任务是解析文本描述所指代的实例,并在对应图像中分割出该实例,是计算机视觉与媒体领域中热门的研究课题。当前,大多数RIS方法基于单尺度文本/图像模态信息的融合,以感知指代实例的位置和语义信息。然而,单一尺度模态信息很难同时涵盖定位不同大小实例所需的语义和结构上下文信息,阻碍了模型对任意大小指代实例的感知,进而影响模型对不同大小指代实例的分割。对此,设计多尺度视觉-语言交互感知模块和多尺度掩膜预测模块:前者增强模型对不同尺度实例语义与文本语义之间的融合与感知;后者通过充分捕捉不同尺度实例的所需语义和结构信息提升指代实例分割的表现。由此,提出了多尺度模态感知的文本指代实例分割模型(MMPN-RIS)。实验结果表明,MMPN-RIS模型在RefCOCO,RefCOCO+和RefCOCOg3个公开数据集的oIoU指标上均达到了前沿性能;针对文本指代不同尺度实例的分割,MMPN-RIS模型有着较好的表现。  相似文献   

10.
目的 随着移动互联网和人工智能的蓬勃发展,海量的视频数据不断产生,如何对这些视频数据进行处理分析是研究人员面临的一个挑战性问题。视频中的物体由于拍摄角度、快速运动和部分遮挡等原因常常表现得模糊和多样,与普通图像数据集的质量存在不小差距,这使得对视频数据的实例分割难度较大。目前的视频实例分割框架大多依靠图像检测方法直接处理单帧图像,通过关联匹配组成同一目标的掩膜序列,缺少对视频困难场景的特定处理,忽略对视频时序信息的利用。方法 本文设计了一种基于时序特征融合的多任务学习视频实例分割模型。针对普通视频图像质量较差的问题,本模型结合特征金字塔和缩放点积注意力机制,在时间上把其他帧检测到的目标特征加权聚合到当前图像特征上,强化了候选目标的特征响应,抑制背景信息,然后通过融合多尺度特征丰富了图像的空间语义信息。同时,在分割网络模块增加点预测网络,提升了分割准确度,通过多任务学习的方式实现端到端的视频物体同时检测、分割和关联跟踪。结果 在YouTube-VIS验证集上的实验表明,与现有方法比较,本文方法在视频实例分割任务上平均精度均值提高了2%左右。对比实验结果证明提出的时序特征融合模块改善了视频分割的效果。结论 针对当前视频实例分割工作存在的忽略对视频时序上下文信息的利用,缺少对视频困难场景进行处理的问题,本文提出融合时序特征的多任务学习视频实例分割模型,提升对视频中物体的分割效果。  相似文献   

11.
目的 在视觉引导的工业机器人自动拾取研究中,关键技术难点之一是机器人抓取目标区域的识别问题。特别是金属零件,其表面的反光、随意摆放时相互遮挡等非结构化因素都给抓取区域的识别带来巨大的挑战。因此,本文提出一种结合深度学习和支持向量机的抓取区域识别方法。方法 分别提取抓取区域的方向梯度直方图(HOG)和局部二进制模式(LBP)特征,利用主成分分析法(PCA)对融合后的特征进行降维,以此来训练支持向量机(SVM)分类器。通过训练Mask R-CNN(regions with convolutional neural network)神经网络完成抓取区域的初步分割。然后利用SVM对Mask R-CNN识别的抓取区域进行二次分类,完成对干扰区域的剔除。最后计算掩码完成实例分割,以此达到对抓取区域的精确识别。结果 对于随机摆放的铜质金属零件,本文算法与单一的Mask R-CNN及多特征融合的SVM算法就识别准确率、错检率、漏检率3个指标进行了比较,结果表明本文算法在识别准确率上较Mask R-CNN和SVM算法分别提高了7%和25%,同时有效降低了错检率与漏检率。结论 本文算法结合了Mask R-CNN与SVM两种方法,对于反光和遮挡情况具有一定的鲁棒性,同时有效地提升了目标识别的准确率。  相似文献   

12.
在无人驾驶应用场景中,现有无锚框实例分割方法存在大目标特征覆盖小目标特征、缺少两阶段检测器中的感兴趣区域对齐操作、忽略类别分支对掩膜分支提供的位置和空间信息等问题,导致特征提取不充分且无法准确获取目标区域。提出一种改进的无锚框实例分割方法。结合可变形卷积,设计编码-解码特征提取网络提取高分辨率特征,以增强对小目标特征的提取能力,并采用空洞卷积和合并连接的方式,在不增加计算量的前提下有效融合多种分辨率的特征。在此基础上,将注意力机制引入到类别分支中,同时设计结合空间信息和通道信息的信息增强模块,以提高目标检测能力。实验结果表明,该方法在COCO 2017和Cityscapes数据集上平均精度和平均交并比分别为41.1%和83.3%,相比Mask R-CNN、SOLO、Yolact等方法,能够有效改进实例分割效果并具有较优的鲁棒性。  相似文献   

13.
针对虹膜图像中存在眼镜遮挡、模糊、角度偏差等不同噪声因素,我们设计了一种基于Mask R-CNN的卷积神经网络(convolutional neural network, CNN),命名为Mask-INet,用于虹膜分割.该网络在特征提取阶段为特征金字塔添加了一条自底向上的路径,既提高了底层到顶层特征的定位信息,增强语义信息融合,又进一步加快了底层到顶层的传播效率,有效提升对虹膜特征提取的准确性.为了进一步挖掘特征图中的特征信息,在掩模预测分支阶段,我们引入上采样和CBAM网络(convolutional block attention module),利用上采样提高特征图的空间分辨率,利用CBAM网络让特征图中的显著信息更加显著,增强对特征的判别性.该方法在NIR-ISL 2021比赛提供的虹膜数据集进行了验证.在相同实验条件下与该赛事的冠军相比,该方法的各项指标均优于其网络.与基线Mask R-CNN相比,该方法的Dice相似系数、平均交并比、召回率分别提升了8.53%、11.97%、8.88%,提升了虹膜分割效果.  相似文献   

14.
目的 针对视觉目标跟踪(video object tracking,VOT)和视频对象分割(video object segmentation,VOS)问题,研究人员提出了多个多任务处理框架,但是该类框架的精确度和鲁棒性较差。针对此问题,本文提出一个融合多尺度上下文信息和视频帧间信息的实时视觉目标跟踪与视频对象分割多任务的端到端框架。方法 文中提出的架构使用了由空洞深度可分离卷积组成的更加多尺度的空洞空间金字塔池化模块,以及具备帧间信息的帧间掩模传播模块,使得网络对多尺度目标对象分割能力更强,同时具备更好的鲁棒性。结果 本文方法在视觉目标跟踪VOT-2016和VOT-2018数据集上的期望平均重叠率(expected average overlap,EAO)分别达到了0.462和0.408,分别比SiamMask高了0.029和0.028,达到了最先进的结果,并且表现出更好的鲁棒性。在视频对象分割DAVIS(densely annotated video segmentation)-2016和DAVIS-2017数据集上也取得了有竞争力的结果。其中,在多目标对象分割DAVIS-2017数据集上,本文方法比SiamMask有更好的性能表现,区域相似度的杰卡德系数的平均值JM和轮廓精确度的F度量的平均值FM分别达到了56.0和59.0,并且区域和轮廓的衰变值JDFD都比SiamMask中的低,分别为17.9和19.8。同时运行速度为45帧/s,达到了实时的运行速度。结论 文中提出的融合多尺度上下文信息和视频帧间信息的实时视觉目标跟踪与视频对象分割多任务的端到端框架,充分捕捉了多尺度上下文信息并且利用了视频帧间的信息,使得网络对多尺度目标对象分割能力更强的同时具备更好的鲁棒性。  相似文献   

15.
王昊  李俊峰 《软件工程》2022,(3):34-38,16
针对车载导航导光板表面缺陷像素值分布不均且普遍较小、背景复杂多变等特点,提出了基于改进掩膜区域卷积神经网络(Mask Region-based Convolutional Neural Network,Mask R-CNN)模型检测车载导航导光板表面缺陷的检测方法.首先,引入PinFPN模块改进原有Mask R-CNN...  相似文献   

16.
针对高分辨率遥感图像在目标检测与分割中特征提取困难、准确率低、虚假率高等问题,提出了一种改进的Mask R-CNN卷积神经网络。该网络以ResNet50为特征提取网络,在此基础上利用自下而上和自上而下两种分层跳连融合方式来进行更好的图像特征提取。针对遥感图像不同目标间尺寸差异过大、目标易丢失的问题,设计了自适应感兴趣区域来进行感兴趣区域提取。在目标分割中,使用局部融合全连接的卷积神经网络替换原全卷积神经网络,并使用上采样操作替换反卷积操作。在NWPU VHR-10数据集上进行验证,结果表明该方法与现有常用方法相比,显著地提高了遥感图像中多目标检测与分割的准确率。  相似文献   

17.
甲状腺结节超声图像对比度低,斑点噪声严重,且不同病人的甲状腺结节形态差异较大,这给医生准确分割结节带来极大困难。为了精确地从超声图像中分割出甲状腺结节,对原掩膜区域卷积神经网络(mask regionconvolutional neural network,Mask R-CNN)的主干网络进行改进。在原主干网络的残差网络层中加入注意力机制模块来提高模型收敛性,并且在特征金字塔网络中增添一条由下向上的支路,将该支路输出特征图进行融合后,输入至区域推荐网络和感兴趣区域池化层,从而能够在融合多尺度特征的同时平衡特征图信息差异。经过对600幅甲状腺结节超声图像进行测试,改进后Mask R-CNN图像分割的平均Dice系数为0.914 8,平均精确度为0.932 2,平均召回率为0.903 4,平均F1分数为0.917 6。改进算法分割的Dice系数比原Mask R-CNN提升了0.080 6,改进算法可以应用于实际临床医学中自动分割甲状腺结节超声图像。  相似文献   

18.
Reasonable dam materials’ gradation design for asphalt-core rock-fill dams is one of the main ways to control permeability. It is a challenge to test whether it can meet the requirements of dam construction. The computer vision method provides a new idea for asphalt-core rock-fill dam material gradation testing. However, due to the characteristics of densely overlapping and multi-scale sizes of dam material particles, the traditional image segmentation methods and algorithms cannot achieve accurate segmentation of dam materials’ images, and it is hard to apply the segmentation result to quantify the gradation curve. In this research, the enhanced Cascade Mask R-CNN with ResNet and PAFPN (Path Aggregation Feature Pyramid Networks) is proposed. Multi-scale features extracted by ResNet and feature ensemble can be realized using PAFPN. Data augmentation (DA) and online hard example mining (OHEM) are also applied in segmentation model training. Moreover, the GCNet is proposed to calibrate the gradation curve. The nonlinear relationship between the real gradation and the one based on the segmentation results can be revealed and the model of dam materials’ gradation analysis can be established. In the research, the enhanced Cascade Mask R-CNN can achieve 84.2 mAP, which is higher than that of Cascade Mask R-CNN with 74.9 mAP. The effectiveness of the proposed module and training strategies is proved using ablation experiments. The average error of each level for the gradation calibration using GCNet is 0.55%, 1.87%, 2.22%, 1.18%, and 2.42% respectively. The accuracy can meet the requirements of hydraulic engineering construction, which verifies the effectiveness of the GCNet network for gradation calibration, and the research provides a new method and technology for intelligent gradation testing of the asphalt-core rock-fill dam.  相似文献   

19.
目的 多目标跟踪与分割是计算机视觉领域一个重要的研究方向。现有方法多是借鉴多目标跟踪领域先检测然后进行跟踪与分割的思路,这类方法对重要特征信息的关注不足,难以处理目标遮挡等问题。为了解决上述问题,本文提出一种基于时空特征融合的多目标跟踪与分割模型,利用空间三坐标注意力模块和时间压缩自注意力模块选择出显著特征,以此达到优异的多目标跟踪与分割性能。方法 本文网络由2D编码器和3D解码器构成,首先将多幅连续帧图像输入到2D编码层,提取出不同分辨率的图像特征,然后从低分辨率的特征开始通过空间三坐标注意力模块得到重要的空间特征,通过时间压缩自注意力模块获得含有关键帧信息的时间特征,再将两者与原始特征融合,然后与较高分辨率的特征共同输入3D卷积层,反复聚合不同层次的特征,以此得到融合多次的既有关键时间信息又有重要空间信息的特征,最后得到跟踪和分割结果。结果 实验在YouTube-VIS(YouTube video instance segmentation)和KITTI MOTS(multi-object tracking and segmentation)两个数据集上进行定量评估。在YouTub...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号