结合混合域注意力与空洞卷积的3维目标检测 3D object detection based on domain attention and dilated convolution期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

结合混合域注意力与空洞卷积的3维目标检测

引用本文：	严娟,方志军,高永彬.结合混合域注意力与空洞卷积的3维目标检测[J].中国图象图形学报,2020,25(6):1221-1234.

作者姓名：	严娟方志军高永彬

作者单位：	上海工程技术大学电子电气工程学院, 上海 201620

基金项目：	国家自然科学基金项目（61802253，61772328）

摘要：	目的通过深度学习卷积神经网络进行3维目标检测的方法已取得巨大进展，但卷积神经网络提取的特征既缺乏不同区域特征的依赖关系，也缺乏不同通道特征的依赖关系，同时难以保证在无损空间分辨率的情况下扩大感受野。针对以上不足，提出了一种结合混合域注意力与空洞卷积的3维目标检测方法。方法在输入层融入空间域注意力机制，变换输入信息的空间位置，保留需重点关注的区域特征；在网络中融入通道域注意力机制，提取特征的通道权重，获取关键通道特征；通过融合空间域与通道域注意力机制，对特征进行混合空间与通道的混合注意。在特征提取器的输出层融入结合空洞卷积与通道注意力机制的网络层，在不损失空间分辨率的情况下扩大感受野，根据不同感受野提取特征的通道权重后进行融合，得到全局感受野的关键通道特征；引入特征金字塔结构构建特征提取器，提取高分辨率的特征图，大幅提升网络的检测性能。运用基于二阶段的区域生成网络，回归定位更准确的3维目标框。结果 KITTI（A project of Karlsruhe Institute of Technology and Toyota Technological Institute at Chicago）数据集中的实验结果表明，在物体被遮挡的程度由轻到高时，对测试集中的car类别，3维目标检测框的平均精度AP_3D值分别为83.45%、74.29%、67.92%，鸟瞰视角2维目标检测框的平均精度AP_BEV值分别为89.61%、87.05%、79.69%；对pedestrian和cyclist 类别，AP_3D和AP_BEV值同样比其他方法的检测结果有一定优势。结论本文提出的3维目标检测网络，一定程度上解决了3维检测任务中卷积神经网络提取的特征缺乏视觉注意力的问题，从而使3维目标检测更有效地运用于室外自动驾驶。
关键词：	3维目标检测注意力机制空洞卷积感受野金字塔网络卷积神经网络(CNN)
收稿时间：	2019/8/16 0:00:00
修稿时间：	2019/11/8 0:00:00
3D object detection based on domain attention and dilated convolution

Yan Juan,Fang Zhijun,Gao Yongbin.3D object detection based on domain attention and dilated convolution[J].Journal of Image and Graphics,2020,25(6):1221-1234.

Authors:	Yan Juan Fang Zhijun Gao Yongbin

Affiliation:	Department of Electrical and Electronic Engineering, Shanghai University of Engineering Science, Shanghai 201620, China

Abstract:

Keywords:	3D object detection attention mechanism dilated convolution receptive field feature pyramid network convolutional neural network(CNN)

	点击此处可从《中国图象图形学报》浏览原始摘要信息
	点击此处可从《中国图象图形学报》下载免费的PDF全文

设为首页 | 免责声明 | 关于勤云 | 加入收藏