首页 | 本学科首页   官方微博 | 高级检索  
     

藏文音节拼写检查的CNN模型
引用本文:色差甲,贡保才让,才让加.藏文音节拼写检查的CNN模型[J].中文信息学报,2019,33(1):111-117.
作者姓名:色差甲  贡保才让  才让加
作者单位:1.青海师范大学 藏文信息处理教育部重点实验室,青海 西宁 810008;
2.青海师范大学 藏文信息处理与机器翻译省级重点实验室,青海 西宁 810008
基金项目:国家自然科学基金(61063033,61662061);教育部重点实验室项目(教技函[2010]52号);青海省科技计划项目(2017-GX-146);教育部“创新团队发展计划”滚动支持计划(IRT_15R40);青海省重点实验室项目(2013-Z-Y17、2014-Z-Y32、2015-Z-Y03);青海省科技厅项目(2015-SF-520);国家社会科学基金(14BYY132)
摘    要:藏文音节拼写检查是藏语自然语言处理的基本任务,在藏文文字处理、文字识别、文本生成等领域具有广泛的应用。该文首先针对藏文音节的结构提出了音节向量化的方法,即音节矩阵。然后构建了适合于藏文音节拼写检查的CNN模型,使用1 364 880个藏文音节进行训练。最后对68 244个藏文音节进行测试。实验结果显示,藏文音节拼写检查CNN模型的结果优于规则、RNN和LSTM等模型,不仅对符合藏文文法的音节能正确识别外,而且对梵音藏文音节也能有效识别,正确率、召回率以及F值分别为99.52%、99.30%和99.41%。

关 键 词:藏文音节  音节矩阵  CNN模型  拼写检查  

A CNN Model for Tibetan Syllable Spell Checking
SE Chajia,GONG Baocairang,CAI Rangjia.A CNN Model for Tibetan Syllable Spell Checking[J].Journal of Chinese Information Processing,2019,33(1):111-117.
Authors:SE Chajia  GONG Baocairang  CAI Rangjia
Affiliation:1.MOE Key Laboratory of Tibetan Information Processing, Qinghai Normal University, Xining, Qinghai 810008, China;
2.Provincial Key Laboratory of Tibetan Information Processing and Machine Translation, Qinghai Normal University, Xining, Qinghai 810008, China
Abstract:The spelling check of Tibetan syllables is the basic task of Tibetan Natural Language Processing. This paper proposes a method of syllable vectorization, which is called syllable matrix, for the structure of Tibetan syllables. Then, a CNN model for spelling checking is trained using 1 364 880 Tibetan syllables. The final test on the 68 244 Tibetan syllables shows that the CNN model of Tibetan syllable spelling is better than the TSRM, RNN and LSTM models, achieving 99.52%, 99.30% and 99.41% in terms of accuracy, recall and F value, respectively.
Keywords:Tibetan syllable  syllable matrix  CNN model  spell checking  
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号