视觉注意与语义感知联合推理实现场景文本识别 Joint Inference of Visual Attention and Semantic Perception for Scene Text Recognition期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

视觉注意与语义感知联合推理实现场景文本识别

引用本文：	佟国香,董田荣,胡珩彰.视觉注意与语义感知联合推理实现场景文本识别[J].数据采集与处理,2023,38(3):665-675.

作者姓名：	佟国香董田荣胡珩彰

作者单位：	上海理工大学光电信息与计算机工程学院，上海200093

基金项目：	国家重点研发计划（2018YFB1700902）。

摘要：	场景中的不规则文本识别仍然是一个具有挑战性的问题。针对场景中的任意形状以及低质量文本，本文提出了融合视觉注意模块与语义感知模块的多模态网络模型。视觉注意模块采用基于并行注意的方式，与位置感知编码结合提取图像的视觉特征。基于弱监督学习的语义感知模块用于学习语言信息以弥补视觉特征的缺陷，采用基于Transformer的变体，通过随机遮罩单词中的一个字符进行训练提高模型的上下文语义推理能力。视觉语义融合模块通过选通机制将不同模态的信息进行交互以产生用于字符预测的鲁棒特征。通过大量的实验证明，所提出的方法可以有效地对任意形状和低质量的场景文本进行识别，并且在多个基准数据集上获得了具有竞争力的结果。特别地，对于包含低质量文本的数据集SVT和SVTP，识别准确率分别达到了93.6%和86.2%。与只使用视觉模块的模型相比，准确率分别提升了3.5%和3.9%，充分表明了语义信息对于文本识别的重要性。
关键词：	场景文本识别不规则文本视觉注意模块语义感知模块多模态
收稿时间：	2022/11/23 0:00:00
修稿时间：	2023/3/21 0:00:00
Joint Inference of Visual Attention and Semantic Perception for Scene Text Recognition

Tong Guoxiang,Dong Tianrong,HU Hengzhang.Joint Inference of Visual Attention and Semantic Perception for Scene Text Recognition[J].Journal of Data Acquisition & Processing,2023,38(3):665-675.

Authors:	Tong Guoxiang Dong Tianrong HU Hengzhang

Affiliation:	College of Optical-Electrical and Computer Engineering, University of Shanghai for Science and Technology, Shanghai 200093, China

Abstract:

Keywords:	scene text recognition irregular text visual attention module semantic perception module multimodal

	点击此处可从《数据采集与处理》浏览原始摘要信息
	点击此处可从《数据采集与处理》下载全文

设为首页 | 免责声明 | 关于勤云 | 加入收藏