基于N-Gram模型的蒙古语文本语种识别算法的研究 N-Gram Based Language Identification for Mongolian Text期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于N-Gram模型的蒙古语文本语种识别算法的研究

引用本文：	马志强,张泽广,闫瑞,刘利民,冯永祥,苏依拉.基于N-Gram模型的蒙古语文本语种识别算法的研究[J].中文信息学报,2016,30(1):133-140.

作者姓名：	马志强张泽广闫瑞刘利民冯永祥苏依拉

作者单位：	内蒙古工业大学信息工程学院,内蒙古呼和浩特 010080)

基金项目：	国家自然科学基金(61363052);内蒙古自治区自然科学基金(2014MS0608);内蒙古自治区高等学校科学研究项目(NJZY12052);内蒙古工业大学重点基金(ZD201118)

摘要：	互联网上蒙古语文本正在不断地增加,如何让网络中的蒙古语内容为搜索引擎和舆情分析等应用提供服务引起了社会的高度关注。首先要解决如何采集网络中蒙古语文本数据,核心是准确识别网络中蒙古语文本的问题。该文提出了基于N-Gram模型的平均距离识别算法,建立了一个能够对目标语种识别的实验平台。实验结果表明,识别算法能够很好地从中文、英文、蒙古文以及混合语言文本中识别出蒙古语文本,准确率达到99.5%以上。
关键词：	语种识别 N-Gram模型平均距离识别算法蒙古语文本 />
N-Gram Based Language Identification for Mongolian Text

MA Zhiqiang,ZHANG Zeguang,YAN Rui,LIU Limin,FENG Yongxiang,SU Yila.N-Gram Based Language Identification for Mongolian Text[J].Journal of Chinese Information Processing,2016,30(1):133-140.

Authors:	MA Zhiqiang ZHANG Zeguang YAN Rui LIU Limin FENG Yongxiang SU Yila

Affiliation:	School of Information Engineering, Inner Mongolia University of Technology, Hohhot, Inner Mongolia 010080, China

Abstract:	With the rapid increasing of Mongolian texts on the Internet, it is of practical significance to identify them before further processing. This paper proposes an average distance recognition algorithm based on N-Gram model, and an experimental platform is established. Experimental results show that the presented algorithm can identify Mongolian text from Chinese, English, or even mixed-language texts, with an accuracy of above 99.5%.

Keywords:	language identification N-Gram model average distance recognition algorithm Mongolian text

	点击此处可从《中文信息学报》浏览原始摘要信息
	点击此处可从《中文信息学报》下载全文

设为首页 | 免责声明 | 关于勤云 | 加入收藏