首页 | 本学科首页   官方微博 | 高级检索  
     

视觉注意与语义感知联合推理实现场景文本识别
引用本文:佟国香,董田荣,胡珩彰.视觉注意与语义感知联合推理实现场景文本识别[J].数据采集与处理,2023,38(3):665-675.
作者姓名:佟国香  董田荣  胡珩彰
作者单位:上海理工大学光电信息与计算机工程学院,上海200093
基金项目:国家重点研发计划(2018YFB1700902)。
摘    要:场景中的不规则文本识别仍然是一个具有挑战性的问题。针对场景中的任意形状以及低质量文本,本文提出了融合视觉注意模块与语义感知模块的多模态网络模型。视觉注意模块采用基于并行注意的方式,与位置感知编码结合提取图像的视觉特征。基于弱监督学习的语义感知模块用于学习语言信息以弥补视觉特征的缺陷,采用基于Transformer的变体,通过随机遮罩单词中的一个字符进行训练提高模型的上下文语义推理能力。视觉语义融合模块通过选通机制将不同模态的信息进行交互以产生用于字符预测的鲁棒特征。通过大量的实验证明,所提出的方法可以有效地对任意形状和低质量的场景文本进行识别,并且在多个基准数据集上获得了具有竞争力的结果。特别地,对于包含低质量文本的数据集SVT和SVTP,识别准确率分别达到了93.6%和86.2%。与只使用视觉模块的模型相比,准确率分别提升了3.5%和3.9%,充分表明了语义信息对于文本识别的重要性。

关 键 词:场景文本识别  不规则文本  视觉注意模块  语义感知模块  多模态
收稿时间:2022/11/23 0:00:00
修稿时间:2023/3/21 0:00:00

Joint Inference of Visual Attention and Semantic Perception for Scene Text Recognition
Tong Guoxiang,Dong Tianrong,HU Hengzhang.Joint Inference of Visual Attention and Semantic Perception for Scene Text Recognition[J].Journal of Data Acquisition & Processing,2023,38(3):665-675.
Authors:Tong Guoxiang  Dong Tianrong  HU Hengzhang
Affiliation:College of Optical-Electrical and Computer Engineering, University of Shanghai for Science and Technology, Shanghai 200093, China
Abstract:
Keywords:scene text recognition  irregular text  visual attention module  semantic perception module  multimodal
点击此处可从《数据采集与处理》浏览原始摘要信息
点击此处可从《数据采集与处理》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号