首页 | 本学科首页   官方微博 | 高级检索  
     

融合字形特征的多任务老挝语文字识别后纠错
引用本文:杨志婥琪,周兰江,周蕾越.融合字形特征的多任务老挝语文字识别后纠错[J].小型微型计算机系统,2023(3):506-513.
作者姓名:杨志婥琪  周兰江  周蕾越
作者单位:1. 昆明理工大学信息工程与自动化学院;2. 昆明理工大学津桥学院电子与信息工程学院
基金项目:国家自然科学基金项目(61662040)资助;
摘    要:后处理是检测和纠正文字识别后文本中错误的重要步骤,老挝语文字识别结果中存在大量相似字符替换错误及字符断裂、粘连导致的字符插入、删除错误,针对该问题进行分析,该文提出了一种融合字符形状特征的多任务老挝语文字识别后纠错方法.该方法引入基于长短期记忆网络的seq2seq模型架构,将老挝字形特征融入模型以辅助模型对相似字符替换错误的纠正,针对文本中插入、删除错误在编码端联合多尺度卷积网络以不同的卷积核大小提取文本的局部特征;再使用语言模型对解码端预测的文本序列与原始文本进行重排名,得到最佳候选;同时,采用多任务学习的方式,以错误检测辅任务优化模型纠错效果,此外,该文以数据增强的方式扩充数据集.实验结果表明,该方法使老挝文字识别的字符错率低至7.94%.

关 键 词:老挝文字识别后处理  Seq2seq  多任务学习  字形特征
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号