ConvFormer:基于Transformer的视觉主干网络 |
| |
引用本文: | 胡杰,昌敏杰,徐博远,徐文才.ConvFormer:基于Transformer的视觉主干网络[J].电子学报,2024(1):46-57. |
| |
作者姓名: | 胡杰 昌敏杰 徐博远 徐文才 |
| |
作者单位: | 1. 武汉理工大学汽车工程学院;2. 武汉理工大学现代汽车零部件技术湖北省重点实验室;3. 武汉理工大学汽车零部件技术湖北省协同创新中心;4. 武汉理工大学湖北省新能源与智能网联车工程技术研究中心 |
| |
基金项目: | 湖北省重大科技专项(No.2020AAA001,No.2022AAA001)~~; |
| |
摘 要: | 针对主流Transformer网络仅对输入像素块做自注意力计算而忽略了不同像素块间的信息交互,以及输入尺度单一导致局部特征细节模糊的问题,本文提出一种基于Transformer并用于处理视觉任务的主干网络ConvFormer. ConvFormer通过所设计的多尺度混洗自注意力模块(Channel-Shuffle and Multi-Scale attention,CSMS)和动态相对位置编码模块(Dynamic Relative Position Coding,DRPC)来聚合多尺度像素块间的语义信息,并在前馈网络中引入深度卷积提高网络的局部建模能力.在公开数据集ImageNet-1K,COCO 2017和ADE20K上分别进行图像分类、目标检测和语义分割实验,ConvFormer-Tiny与不同视觉任务中同量级最优网络RetNetY-4G,Swin-Tiny和ResNet50对比,精度分别提高0.3%,1.4%和0.5%.
|
关 键 词: | 机器视觉 自注意力 主干网络 Transformer |
|
|