期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

基于注意力感知和语义感知的RGB-D室内图像语义分割算法 总被引：1，自引：0，他引：1

段立娟孙启超乔元华陈军成崔国勤《计算机学报》2021,44(2):275-291

近年来,全卷积神经网络有效提升了语义分割任务的准确率.然而,由于室内环境的复杂性,室内场景语义分割仍然是一个具有挑战性的问题.随着深度传感器的出现,人们开始考虑利用深度信息提升语义分割效果.以往的研究大多简单地使用等权值的拼接或求和操作来融合RGB特征和深度特征,未能充分利用RGB特征与深度特征之间的互补信息.本文提出一种基于注意力感知和语义感知的网络模型ASNet(Attention-aware and Semantic-aware Network).通过引入注意力感知多模态融合模块和语义感知多模态融合模块,有效地融合多层次的RGB特征和深度特征.其中,在注意力感知多模态融合模块中,本文设计了一种跨模态注意力机制,RGB特征和深度特征利用互补信息相互指导和优化,从而提取富含空间位置信息的特征表示.另外,语义感知多模态融合模块通过整合语义相关的RGB特征通道和深度特征通道,建模多模态特征之间的语义依赖关系,提取更精确的语义特征表示.本文将这两个多模态融合模块整合到一个带有跳跃连接的双分支编码-解码网络模型中.同时,网络在训练时采用深层监督策略,在多个解码层上进行监督学习.在公开数据集上的实验结果表明,本文算法优于现有的RGB-D图像语义分割算法,在平均精度和平均交并比上分别比近期算法提高了1.9%和1.2%. 相似文献

2.

互注意力机制驱动的轻量级图像语义分割网络

下载免费PDF全文

栗风永叶彬秦川《中国图象图形学报》2023,28(7):2068-2080

目的在图像语义分割中,细节特征和语义特征的融合是该领域的一个难点。一些在特定网络架构下设计的专用融合模块缺乏可扩展性和普适性,自注意力虽然可以实现全局的信息捕获,但不能实现不同特征的融合,其他的注意力机制在进行掩码计算时缺少可解释性。本文根据特征图之间的关联度进行建模,提出一种互注意力机制驱动的分割模块。方法该模块获取不同阶段的细节特征图和语义特征图,建立细节特征图上任一点和语义特征图之间的关联模型,并在关联模型的指导下对语义特征图上的特征进行聚合,作为细节特征图上该特征点的补充,从而将语义特征图上的信息融合到细节特征图上,并进一步采用相同的操作将细节特征图上的信息融合到语义特征图上,实现来自不同阶段特征图的相互融合。结果选取5个语义分割模型进行实验,实验结果表明,在使用替换方式对BiSeNet V2（bilateral segmentation network）进行修改之后,浮点运算量、内存占用量和模型参数数量分别下降了8.6%,8.5%和2.6%,但是平均交并比却得到了提升。在使用插入方式对另外4个网络进行修改后,所有网络的平均交并比全部得到了不同程度的提高。结论本文提出的互注意力模块可普遍提升模型的语义分割准确度,实现不同网络模型的即插即用,具有较高的普适性。相似文献

3.

一种改进的室内场景语义分割网络

下载免费PDF全文

贺照蒙孔广黔吴云《计算机工程与应用》2021,57(16):197-202

针对目前室内场景语义分割网络无法很好融合图像的RGB信息和深度信息的问题,提出一种改进的室内场景语义分割网络。为使网络能够有选择性地融合图像的深度特征和RGB特征,引入注意力机制的思想,设计了特征融合模块。该模块能够根据深度特征图和RGB特征图的特点,学习性地调整网络参数,更有效地对深度特征和RGB特征进行融合;同时使用多尺度联合训练,加速网络收敛,提高分割准确率。通过在SUNRGB-D和NYUDV2数据集上验证,相比于包含深度敏感全连接条件随机场的RGB-D全卷积神经网络（DFCN-DCRF）、深度感知卷积神经网络（Depth-aware CNN）、多路径精炼网络（RefineNet）等目前主流的语义分割网络,所提网络具有更高的分割精度,平均交并比（mIoU）分别达到46.6%和48.0%。相似文献

4.

基于RGB-D的反向融合实例分割算法

下载免费PDF全文

汪丹丹张旭东范之国孙锐《图学学报》2021,42(5):767-774

RGB-D 图像在提供场景 RGB 信息的基础上添加了 Depth 信息,可以有效地描述场景的色彩及三维几何信息。结合 RGB 图像及 Depth 图像的特点,提出一种将高层次的语义特征反向融合到低层次的边缘细节特征的反向融合实例分割算法。该方法通过采用不同深度的特征金字塔网络(FPN)分别提取 RGB 与 Depth 图像特征,将高层特征经上采样后达到与最底层特征同等尺寸,再采用反向融合将高层特征融合到低层,同时在掩码分支引入掩码优化结构,从而实现 RGB-D 的反向融合实例分割。实验结果表明,反向融合特征模型能够在 RGB-D 实例分割的研究中获得更加优异的成绩,有效地融合了 Depth 图像与彩色图像 2 种不同特征图像特征,在使用 ResNet-101 作为骨干网络的基础上,与不加入深度信息的 Mask R-CNN 相比平均精度提高 10.6%, 比直接正向融合 2 种特征平均精度提高 4.5%。相似文献

5.

基于深度学习算法的高分辨率无人机遥感图像自动分割

鲁杰陈建门宝霞于然《自动化与仪器仪表》2023,(8):5-9

高分辨率无人机遥感图像自动分割对于图像的目标识别与检测具有重要意义,为提升图像分割精度,提出基于深度学习算法的高分辨率无人机遥感图像自动分割方法。采用直方图均衡化算法增强遥感图像后,构建基于编/解码器架构的深度学习网络语义分割模型,针对增强后的图像,在编码环节中引入残差模块强化对分割目标有效的特征;在解码环节中,采用多尺度融合模块将低层特征的局部细节信息和高层特征的语义信息相融合。同时针对遥感图像内地物类别不均衡的现象,以带权重的交叉熵为模型损失函数,克服模型选择偏好问题,提升模型分割精度。实验结果显示该方法可准确分割遥感图像内不同类型目标,分割精度达到95%以上。相似文献

6.

交叉特征融合和RASPP驱动的场景分割方法

朱新杰熊风光谢帅康宋宁栋李文清《计算机系统应用》2024,33(1):76-86

本文针对场景中目标多样性和尺度不统一等现象造成的边缘分割错误、特征不连续问题, 提出了一种交叉特征融合和RASPP驱动的场景分割方法. 该方法以交叉特征融合的方式合并编码器输出的多尺度特征, 在融合高层语义信息时使用复合卷积注意力模块进行处理, 避免上采样操作造成的特征信息丢失以及引入噪声的影响, 细化目标边缘分割效果. 同时提出了深度可分离残差卷积, 在此基础上设计并实现了结合残差的金字塔池化模块——RASPP, 对交叉融合后的特征进行处理, 获得不同尺度的上下文信息, 增强特征语义表达. 最后, 将RASPP模块处理后的特征进行合并, 提升分割效果. 在Cityscapes和CamVid数据集上的实验结果表明, 本文提出方法相比现有方法具有更好的表现, 并且对场景中的目标边缘有更好的分割效果. 相似文献

7.

结合自注意力和特征自适应融合的语义分割算法

傅双杰陈玮尹钟《信息与控制》2022,51(6):680

针对场景图像语义分割任务中存在多尺度目标以及特征提取网络缺乏对全局上下文信息的获取等问题,设计了一种嵌入改进自注意力机制以及自适应融合多尺度特征的双路径分割算法。在空间路径利用双分支的简易下采样模块进行4倍下采样提取高分辨率的边缘细节信息,使网络对目标边界分割更精确。在语义路径嵌入上下文捕获模块和自适应特征融合模块,为解码阶段提供具有丰富多尺度的高语义上下文信息,并采用类别平衡策略进一步提升分割效果。经过实验验证,该模型在Camvid和Aeroscapes数据集上的MIOU(mean intersection over union)指标分别为59.4％和60.1％,具有较好的分割效果。相似文献

8.

基于注意力机制和金字塔融合的RGB-D室内场景语义分割

余娜刘彦魏雄炬万源《计算机应用》2022,42(3):844-853

针对现有RGB-D室内场景语义分割不能有效融合多模态特征的问题,提出一种基于注意力机制和金字塔融合的RGB-D室内场景图像语义分割网络模型APFNet,并为其设计了两个新模块:注意力机制融合模块与金字塔融合模块.其中,注意力机制融合模块分别提取RGB特征和Depth特征的注意力分配权重,充分利用两种特征的互补性,使网络... 相似文献

9.

基于深度感知特征提取的室内场景理解

陈苏婷张良臣《计算机工程》2021,47(6):217-224

从深度图RGB-D域中联合学习RGB图像特征与3D几何信息有利于室内场景语义分割,然而传统分割方法通常需要精确的深度图作为输入,严重限制了其应用范围。提出一种新的室内场景理解网络框架,建立基于语义特征与深度特征提取网络的联合学习网络模型提取深度感知特征,通过几何信息指导的深度特征传输模块与金字塔特征融合模块将学习到的深度特征、多尺度空间信息与语义特征相结合,生成具有更强表达能力的特征表示,实现更准确的室内场景语义分割。实验结果表明,联合学习网络模型在NYU-Dv2与SUN RGBD数据集上分别取得了69.5%与68.4%的平均分割准确度,相比传统分割方法具有更好的室内场景语义分割性能及更强的适用性。相似文献

10.

改进残差密集生成对抗网络的红外与可见光图像融合

闵莉曹思健赵怀慈刘鹏飞邰炳昌《控制与决策》2023,38(3):721-728

基于深度学习的红外与可见光图像融合算法通常无法感知源图像显著性区域,导致融合结果没有突出红外与可见光图像各自的典型特征,无法达到理想的融合效果.针对上述问题,设计一种适用于红外与可见光图像融合任务的改进残差密集生成对抗网络结构.首先,使用改进残差密集模块作为基础网络分别构建生成器与判别器,并引入基于注意力机制的挤压激励网络来捕获通道维度下的显著特征,充分保留红外图像的热辐射信息和可见光图像的纹理细节信息;其次,使用相对平均判别器,分别衡量融合图像与红外图像、可见光图像之间的相对差异,并根据差异指导生成器保留缺少的源图像信息;最后,在TNO等多个图像融合数据集上进行实验,结果表明所提方法能够生成目标清晰、细节丰富的融合图像,相比基于残差网络的融合方法,边缘强度和平均梯度分别提升了64.56%和64.94%. 相似文献

11.

基于特征调节器和双路径引导的RGB-D室内语义分割

张帅雷景生靳伍银俞云祥杨胜英《计算机应用研究》2024,41(5)

针对室内场景图像语义分割结果不精确、显著图粗糙的问题,提出一种基于多模态特征优化提取和双路径引导解码的网络架构（feature regulator and dual-path guidance,FG-Net）。具体来说,设计的特征调节器对每个阶段的多模态特征依次进行噪声过滤、重加权表示、差异性互补和交互融合,通过强化RGB和深度特征聚合,优化特征提取过程中的多模态特征表示。然后,在解码阶段引入特征交互融合后丰富的跨模态线索,进一步发挥多模态特征的优势。结合双路径协同引导结构,在解码阶段融合多尺度、多层次的特征信息,从而输出更细致的显著图。实验在公开数据集NYUD-v2和SUN RGB-D上进行,在主要评价指标mIoU上达到48.5 %,优于其他先进算法。结果表明,该算法实现了更精细的室内场景图像语义分割,表现出了较好的泛化性和鲁棒性。相似文献

12.

结合上下文编码与特征融合的SAR图像分割

下载免费PDF全文

范艺华董张玉杨学志《中国图象图形学报》2022,27(8):2527-2536

目的图像分割的中心任务是寻找更强大的特征表示,而合成孔径雷达(synthetic aperture radar,SAR)图像中斑点噪声阻碍特征提取。为加强对SAR图像特征的提取以及对特征充分利用,提出一种改进的全卷积分割网络。方法该网络遵循编码器—解码器结构,主要包括上下文编码模块和特征融合模块两部分。上下文编码模块(contextual encoder module,CEM)通过捕获局部上下文和通道上下文信息增强对图像的特征提取;特征融合模块(feature fusion module,FFM)提取高层特征中的全局上下文信息,将其嵌入低层特征,然后将增强的低层特征并入解码网络,提升特征图分辨率恢复的准确性。结果在两幅真实SAR图像上,采用5种基于全卷积神经网络的分割算法作为对比,并对CEM与CEM-FFM分别进行实验。结果<显示,该网络分割结果的总体精度(overall accuracy,OA)、平均精度(average accuracy,AA)与Kappa系数比5种先进算法均有显著提升。其中,网络在OA上表现最好,CEM在两幅SAR图像上OA分别为91.082%和90.903%,较对比算法中性能最优者分别提高了0.948%和0.941%,证实了CEM的有效性。而CEM-FFM在CEM基础上又将结果分别提高了2.149%和2.390%,验证了FFM的有效性。结论本文提出的分割网络较其他方法对图像具有更强大的特征提取能力,且能更好地将低层特征中的空间信息与高层特征中的语义信息融合为一体,使得网络对特征的表征能力更强、图像分割结果更准确。相似文献

13.

基于特征选择与残差融合的肝肿瘤分割模型

下载免费PDF全文

乔伟晨黄冕刘利军黄青松《中国图象图形学报》2022,27(3):838-849

目的高效的肝肿瘤计算机断层扫描（computed tomography,CT）图像自动分割方法是临床实践的迫切需求,但由于肝肿瘤边界不清晰、体积相对较小且位置无规律,要求分割模型能够细致准确地发掘类间差异。对此,本文提出一种基于特征选择与残差融合的2D肝肿瘤分割模型,提高了2D模型在肝肿瘤分割任务中的表现。方法该模型通过注意力机制对U-Net瓶颈特征及跳跃链接进行优化,为符合肝肿瘤分割任务特点优化传统注意力模块进,提出以全局特征压缩操作（global feature squeeze,GFS）为基础的瓶颈特征选择模块,即全局特征选择模块（feature selection module,FS）和邻近特征选择模块（neighbor feature selection module,NFS）。跳跃链接先通过空间注意力模块（spatial attention module,SAM）进行特征重标定,再通过空间特征残差融合（spatial feature residual fusion module,SFRF）模块解决前后空间特征的语义不匹配问题,在保持低复杂度的同时使特征高效表达。结果在LiTS （liver tumor segmentation）公开数据集上进行组件消融测试并与当前方法进行对比测试,在肝脏及肝肿瘤分割任务中的平均Dice得分分别为96.2%和68.4%,与部分2.5D和3D模型的效果相当,比当前最佳的2D肝肿瘤分割模型平均Dice得分高0.8%。结论提出的FSF-U-Net （feature selection and residual fusion U-Net）模型通过改进的注意力机制与优化U-Net模型结构的方法,使2D肝肿瘤分割的结果更加准确。相似文献

14.

基于残差双注意力与跨级特征融合模块的静态手势识别

吴佳璐田秋红岳金鸿《计算机系统应用》2022,31(11):111-119

为解决卷积神经网络提取特征遗漏、手势多特征提取不充分问题, 本文提出基于残差双注意力与跨级特征融合模块的静态手势识别方法. 设计了一种残差双注意力模块, 该模块对ResNet50网络提取的低层特征进行增强, 能够有效学习关键信息并更新权重, 提高对高层特征的注意力, 然后由跨级特征融合模块对不同阶段的高低层特征进行融合, 丰富高级特征图中不同层级之间的语义和位置信息, 最后使用全连接层的Softmax分类器对手势图像进行分类识别. 本文在ASL美国手语数据集上进行实验, 平均准确率为99.68%, 相比基础ResNet50网络准确率提升2.52%. 结果验证本文方法能充分提取与复用手势特征, 有效提高手势图像的识别精度. 相似文献

15.

结合特征图切分的图像语义分割

下载免费PDF全文

曹峰梅田海杰付君刘静《中国图象图形学报》2019,24(3):464-473

目的基于全卷积神经网络的图像语义分割研究已成为该领域的主流研究方向。然而,在该网络框架中由于特征图的多次下采样使得图像分辨率逐渐下降,致使小目标丢失,边缘粗糙,语义分割结果较差。为解决或缓解该问题,提出一种基于特征图切分的图像语义分割方法。方法本文方法主要包含中间层特征图切分与相对应的特征提取两部分操作。特征图切分模块主要针对中间层特征图,将其切分成若干等份,同时将每一份上采样至原特征图大小,使每个切分区域的分辨率增大;然后,各个切分特征图通过参数共享的特征提取模块,该模块中的多尺度卷积与注意力机制,有效利用各切块的上下文信息与判别信息,使其更关注局部区域的小目标物体,提高小目标物体的判别力。进一步,再将提取的特征与网络原输出相融合,从而能够更高效地进行中间层特征复用,对小目标识别定位、分割边缘精细化以及网络语义判别力有明显改善。结果在两个城市道路数据集CamVid以及GATECH上进行验证实验,论证本文方法的有效性。在CamVid数据集上平均交并比达到66.3%,在GATECH上平均交并比达到52.6%。结论基于特征图切分的图像分割方法,更好地利用了图像的空间区域分布信息,增强了网络对于不同空间位置的语义类别判定能力以及小目标物体的关注度,提供更有效的上下文信息和全局信息,提高了网络对于小目标物体的判别能力,改善了网络整体分割性能。相似文献

16.

RAFNet: RGB-D attention feature fusion network for indoor semantic segmentation

《Displays》2021

Semantic segmentation based on the complementary information from RGB and depth images has recently gained great popularity, but due to the difference between RGB and depth maps, how to effectively use RGB-D information is still a problem. In this paper, we propose a novel RGB-D semantic segmentation network named RAFNet, which can selectively gather features from the RGB and depth information. Specifically, we construct an architecture with three parallel branches and propose several complementary attention modules. This structure enables a fusion branch and we add the Bi-directional Multi-step Propagation (BMP) strategy to it, which can not only retain the feature streams of the original RGB and depth branches but also fully utilize the feature flow of the fusion branch. There are three kinds of complementary attention modules that we have constructed. The RGB-D fusion module can effectively extract important features from the RGB and depth branch streams. The refinement module can reduce the loss of semantic information and the context aggregation module can help propagate and integrate information better. We train and evaluate our model on NYUDv2 and SUN-RGBD datasets, and prove that our model achieves state-of-the-art performances. 相似文献