少数民族文字文本分析与识别的研究进展 |
| |
引用本文: | 王维兰,胡金水,魏宏喜,库尔班吾布力,邵文苑,毕晓君,贺建军,李振江,丁凯,金连文,高良才.少数民族文字文本分析与识别的研究进展[J].中国图象图形学报,2024,29(6):1685-1713. |
| |
作者姓名: | 王维兰 胡金水 魏宏喜 库尔班吾布力 邵文苑 毕晓君 贺建军 李振江 丁凯 金连文 高良才 |
| |
作者单位: | 西北民族大学数学与计算机科学学院, 兰州 730030;科大讯飞研究院, 合肥 230001;内蒙古大学计算机学院, 呼和浩特 010021;新疆大学计算机科学与技术学院, 乌鲁木齐 830046;上海大学社会学院, 上海 200000;中央民族大学信息工程学院, 北京 100081;大连民族大学信息与通信工程学院, 大连 116605;甘肃政法大学网络空间安全学院, 兰州 730000;上海合合信息科技股份有限公司, 上海 200000;华南理工大学电子与信息学院, 广州 510641;北京大学王选计算机研究所, 北京 100871 |
| |
基金项目: | 国家自然科学基金项目(62166036,61772430,62266044,62236011);内蒙古自治区科技计划项目(2019GG281) |
| |
摘 要: | 对于少数民族古籍的保护与传承,国家予以高度重视,并强调了对这些不可再生文化资源透彻数字化的重要性。随着文档图像分析与识别技术的不断进步,对少数民族文字的文本分析与识别研究受到广泛关注,并取得显著成就,成为人工智能应用研究的一个热点领域。然而,由于少数民族文字种类繁多、应用场景多样及数据集的稀缺性等问题,这一研究领域仍面临诸多挑战。本文旨在总结先前的工作,并为未来的研究提供支持,重点讨论了印刷体文本、联机手写、古籍文档及场景文字识别等任务,概述了国内外在少数民族文种识别领域的发展和最新成果。首先阐明了少数民族文字文本分析与识别的重要性及其价值,介绍了特定少数民族文字及其古籍文档的特征。然后,回顾了这一领域的发展历史和现状,分析并总结了传统方法的代表性成果及其应用;详细讨论了研究重点向深度神经网络模型和深度学习方法的全面转移,这一转变使得各文种的识别性能得到了显著提升。最后,基于相关分析,本文指出了在不同文种文档分析与识别中存在的精度和泛化能力等方面的不足,以及与汉文文本分析与识别的差异;面对少数民族文字文本识别领域的主要困难与挑战,展望了未来的研究趋势和技术发展目标。
|
关 键 词: | 少数民族文字 文档分析与识别 印刷体文本识别 手写识别 古籍文档识别 场景文字识别 |
收稿时间: | 2024/1/6 0:00:00 |
修稿时间: | 2024/1/26 0:00:00 |
|
| 点击此处可从《中国图象图形学报》浏览原始摘要信息 |
|
点击此处可从《中国图象图形学报》下载免费的PDF全文 |
|