基于跨层次聚合网络的实时城市街景语义分割 |
| |
引用本文: | 侯志强,程敏婕,马素刚,屈敏杰,杨小宝.基于跨层次聚合网络的实时城市街景语义分割[J].光学精密工程,2024(8):1212-1226. |
| |
作者姓名: | 侯志强 程敏婕 马素刚 屈敏杰 杨小宝 |
| |
作者单位: | 1. 西安邮电大学计算机学院;2. 西安邮电大学陕西省网络数据分析与智能处理重点实验室 |
| |
基金项目: | 国家自然科学基金资助项目(No.62072370);;陕西省自然科学基金项目(No.2023-JC-YB-598); |
| |
摘 要: | 随着自动驾驶技术的迅速发展,精确高效的场景理解显得尤为重要。城市街景语义分割旨在准确识别并分割出行人、障碍物、道路和标志物等要素,为自动驾驶技术提供必要的道路信息。然而,当前的语义分割算法在城市街景分割中仍然面临一些挑战,主要表现为不同类别的像素区分不够清晰、对于复杂场景结构的理解不够精准以及对小尺度对象或大尺度结构的分割不准确等问题。为此,本文提出一种基于跨层次聚合网络的实时城市街景语义分割算法。首先,在编码器末端设计了结合跨层次聚合的金字塔池化模块,用于高效提取多尺度上下文信息;其次,在编码器和解码器之间设计了跨层次聚合模块,通过引入通道注意力机制增强信息的表征能力,逐级聚合编码器阶段的特征以充分实现特征复用;最后,在解码器阶段设计了多尺度融合模块,在通道维度聚合全局信息与局部信息,促进深层特征与浅层特征的融合。将所提算法在两个通用的城市街景数据集上进行了验证。在一张RTX3090显卡上(TensorRT测速环境),本文算法在Cityscapes测试集以294 FPS的实时性达到73.0%mIoU的准确性,在更高分辨率的图像上以164 FPS的实时性达到75.8%mIoU的准确性;...
|
关 键 词: | 语义分割 卷积神经网络 城市街景 编码器-解码器结构 金字塔池化模块 |
|