首页 | 本学科首页   官方微博 | 高级检索  
     

编码—解码结构的语义分割
作者姓名:韩慧慧  李帷韬  王建平  焦点  孙百顺
作者单位:合肥工业大学电气与自动化工程学院, 合肥 230009,合肥工业大学电气与自动化工程学院, 合肥 230009;东北大学流程工业综合自动化国家重点实验室, 沈阳 110004,合肥工业大学电气与自动化工程学院, 合肥 230009,合肥工业大学电气与自动化工程学院, 合肥 230009,合肥工业大学电气与自动化工程学院, 合肥 230009
基金项目:国家电网总部科技项目(SGAHDK00DJJS1900076)
摘    要:目的 语义分割是计算机视觉中一项具有挑战性的任务,其核心是为图像中的每个像素分配相应的语义类别标签。然而,在语义分割任务中,缺乏丰富的多尺度信息和足够的空间信息会严重影响图像分割结果。为进一步提升图像分割效果,从提取丰富的多尺度信息和充分的空间信息出发,本文提出了一种基于编码-解码结构的语义分割模型。方法 运用ResNet-101网络作为模型的骨架提取特征图,在骨架末端附加一个多尺度信息融合模块,用于在网络深层提取区分力强且多尺度信息丰富的特征图。并且,在网络浅层引入空间信息捕获模块来提取丰富的空间信息。由空间信息捕获模块捕获的带有丰富空间信息的特征图和由多尺度信息融合模块提取的区分力强且多尺度信息丰富的特征图将融合为一个新的信息丰富的特征图集合,经过多核卷积块细化之后,最终运用数据依赖的上采样(DUpsampling)操作得到图像分割结果。结果 此模型在2个公开数据集(Cityscapes数据集和PASCAL VOC 2012数据集)上进行了大量实验,验证了所设计的每个模块及整个模型的有效性。新模型与最新的10种方法进行了比较,在Cityscapes数据集中,相比于RefineNet模型、DeepLabv2-CRF模型和LRR(Laplacian reconstruction and refinement)模型,平均交并比(mIoU)值分别提高了0.52%、3.72%和4.42%;在PASCAL VOC 2012数据集中,相比于Piecewise模型、DPN(deep parsing network)模型和GCRF(Gaussion conditional random field network)模型,mIoU值分别提高了6.23%、7.43%和8.33%。结论 本文语义分割模型,提取了更加丰富的多尺度信息和空间信息,使得分割结果更加准确。此模型可应用于医学图像分析、自动驾驶、无人机等领域。

关 键 词:语义分割  克罗内克卷积  多尺度信息  空间信息  注意力机制  编码—解码结构  Cityscapes数据集  PASCAL VOC 2012数据集
收稿时间:2019-05-17
修稿时间:2019-07-22
点击此处可从《中国图象图形学报》浏览原始摘要信息
点击此处可从《中国图象图形学报》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号