首页 | 本学科首页   官方微博 | 高级检索  
     

基于N-Gram模型的蒙古语文本语种识别算法的研究
引用本文:马志强,张泽广,闫 瑞,刘利民,冯永祥,苏依拉.基于N-Gram模型的蒙古语文本语种识别算法的研究[J].中文信息学报,2016,30(1):133-140.
作者姓名:马志强  张泽广  闫 瑞  刘利民  冯永祥  苏依拉
作者单位:内蒙古工业大学 信息工程学院,内蒙古 呼和浩特 010080)
基金项目:国家自然科学基金(61363052);内蒙古自治区自然科学基金(2014MS0608);内蒙古自治区高等学校科学研究项目(NJZY12052);内蒙古工业大学重点基金(ZD201118)
摘    要:互联网上蒙古语文本正在不断地增加,如何让网络中的蒙古语内容为搜索引擎和舆情分析等应用提供服务引起了社会的高度关注。首先要解决如何采集网络中蒙古语文本数据,核心是准确识别网络中蒙古语文本的问题。该文提出了基于N-Gram模型的平均距离识别算法,建立了一个能够对目标语种识别的实验平台。实验结果表明,识别算法能够很好地从中文、英文、蒙古文以及混合语言文本中识别出蒙古语文本,准确率达到99.5%以上。

关 键 词:语种识别  N-Gram模型  平均距离识别算法  蒙古语文本  />  

N-Gram Based Language Identification for Mongolian Text
MA Zhiqiang,ZHANG Zeguang,YAN Rui,LIU Limin,FENG Yongxiang,SU Yila.N-Gram Based Language Identification for Mongolian Text[J].Journal of Chinese Information Processing,2016,30(1):133-140.
Authors:MA Zhiqiang  ZHANG Zeguang  YAN Rui  LIU Limin  FENG Yongxiang  SU Yila
Affiliation:School of Information Engineering, Inner Mongolia University of Technology, Hohhot, Inner Mongolia 010080, China
Abstract:With the rapid increasing of Mongolian texts on the Internet, it is of practical significance to identify them before further processing. This paper proposes an average distance recognition algorithm based on N-Gram model, and an experimental platform is established. Experimental results show that the presented algorithm can identify Mongolian text from Chinese, English, or even mixed-language texts, with an accuracy of above 99.5%.
Keywords:language identification  N-Gram model  average distance recognition algorithm  Mongolian text  
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号