基于深度学习的街景下的文本检测 |
| |
引用本文: | 朱志颖,程艳云.基于深度学习的街景下的文本检测[J].微电子学与计算机,2023(2):79-86. |
| |
作者姓名: | 朱志颖 程艳云 |
| |
基金项目: | 国家自然科学基金青年科学基金(61802204); |
| |
摘 要: | 针对自然街景文本角度倾斜、形状弯曲、长度不定等特点,提出一种基于注意力机制的自然街景文本检测方法,通过利用注意力机制的优势,对主干网络提取的特征进行加权融合,从而提升整体网络的检测性能.首先,针对特征金字塔(FPN)横向连接中特征信息丢失的问题,引入注意力融合模块AFFM(Attention Feature Fusion Module),通过计算高维和低维特征的融合权重,来改进原FPN中简单直接相加的特征融合方式,从而减少FPN特征融合过程中文本信息丢失,增强网络的特征提取能力.其次,针对不同尺度特征图中的文本特征,引入一个子空间注意力模块SAM(Subspace Attention Module),通过将多尺度融合特征图按通道划分为数个子空间特征图,分别学习每个子空间中的文本特征权重,使得融合后的特征图包含更多不同尺度的文本特征,从而增强融合特征图对文本实例的表征能力,进而提升网络的检测效果.在公开数据集Total-Text上对模型进行评估,实验结果表明,该算法与目前快速高效的DBNet相比,准确率、召回率和F值分别提高了0.5%、0.4%和0.4%.
|
关 键 词: | 文本检测 注意力机制 特征增强 特征融合注意力 子空间注意力 |
|
|