首页 | 本学科首页   官方微博 | 高级检索  
     

一种基于向量模型的藏文字拼写检查方法
引用本文:才智杰,孙茂松,才让卓玛.一种基于向量模型的藏文字拼写检查方法[J].中文信息学报,2018,32(9):47-55.
作者姓名:才智杰  孙茂松  才让卓玛
作者单位:1.青海师范大学 计算机学院 藏文信息处理教育部重点实验室,青海 西宁 810008
2.清华大学 计算机科学与技术系 清华信息科学与技术国家实验室,北京 100084
基金项目:国家自然科学基金(61163018,61262051,61363055,61866032);国家社会科学基金(13BYY141,16BYY167,15BYY167);教育部“春晖计划”合作科研项目(Z2012093,Z2016077);青海省基础研究项目(2017-ZJ-767,2014-SF-129,2015-SF-520);“长江学者和创新团队发展计划”创新团队资助项目(IRT1068);青海省重点实验室项目(2013-Z-Y32,2014-Z-Y32,2015-Z-Y03);藏文信息处理与机器翻译重点实验室项目(2013-Y-17)
摘    要:自动拼写检查是自然语言处理领域一项极具挑战性的研究课题,在语料库建设、文本编辑、语音和文字识别等诸多方面具有广阔的应用前景。藏文字是一种表音拼音文字,由1~7个基本构件横向和纵向拼接而成。藏文文本中非真字出现的频率很高,是藏文字拼写检查的基础和重点。该文通过分析藏文文法中的构字规则,利用藏文字向量模型将藏文字用计算机易于操作的数字(向量)表示,建立基于规则约束的藏文字向量模型,进而设计该模型下的藏文字拼写检查模型及算法。算法简单易实现,经测试算法拼写检查的平均准确率达99.995%,平均每秒检查1 060个字。

关 键 词:自然语言处理  向量模型  藏文字  拼写检查  非真字  

Vector Based Spelling Check for Tibetan Characters
CAI Zhijie,SUN Maosong,CAI Rangzhuoma.Vector Based Spelling Check for Tibetan Characters[J].Journal of Chinese Information Processing,2018,32(9):47-55.
Authors:CAI Zhijie  SUN Maosong  CAI Rangzhuoma
Affiliation:1.Key Laboratory of Tibetan Informaton Processing, Ministry of Education, School of Computer Science, Qinghai Normal University, Xining, Qinghai 810008, China;
2.Tsinghua National Laboratory for Information Science and Technology, Department of Computer Science and Technology, Tsinghua University, Beijing 100084, China
Abstract:
Keywords:NLP  vector model  Tibetan characters  spelling checking  non-real characters  
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号