首页 | 本学科首页   官方微博 | 高级检索  
     

基于词典、规则的斯拉夫蒙古文词切分系统的研究
引用本文:史建国,侯宏旭,飞 龙.基于词典、规则的斯拉夫蒙古文词切分系统的研究[J].中文信息学报,2015,29(1):197-202.
作者姓名:史建国  侯宏旭  飞 龙
作者单位:内蒙古大学 计算机学院,内蒙古 呼和浩特 010021
基金项目:工业与信息化部电子信息产业发展基金“蒙古文软件开发和产业化”项目子课题“蒙古文辅助翻译与电子辞典软件”,内蒙古自然科学基金项目(2010ZD18)
摘    要:斯拉夫蒙古文是蒙古国现行的文字,又称为西里尔蒙古文或新蒙古文。蒙古文词干和词缀包含着大量信息,斯拉夫蒙古文词切分是斯拉夫蒙古文信息处理众多后续工作的基础。该文尝试了将词典和规则结合的方法对斯拉夫蒙古文进行词切分。首先预处理部分蒙古文词,然后基于词典切分高频和部分不符合规则的词。最后对剩余的词,用切分规则生成多个候选的词切分方案,然后在这些方案中选出最优方案。通过两种方法的有机结合,发挥各自的优点,得到了性能较好的斯拉夫蒙古文词切分系统。

关 键 词:斯拉夫蒙古文  词切分  词典  规则  

Research on Slavic Mongolian Word Segmentation Based on Dictionary and Rule
SHI Jianguo,HOU Hongxu,BAO Feilong.Research on Slavic Mongolian Word Segmentation Based on Dictionary and Rule[J].Journal of Chinese Information Processing,2015,29(1):197-202.
Authors:SHI Jianguo  HOU Hongxu  BAO Feilong
Affiliation:College of Computer Science, Inner Mongolia University, Hohhot, Inner Mongolia 010021,China
Abstract:Slavic Mongolian is the daily language in Mongolia, which is also known as Cyrillic Mongolian or new Mongolian. This paper explores the Slavic Mongolian word segmentation by combining the dictionary with rules. We first preprocess with the dictionary for the words of high-frequency or not consistent with rulesm then deal with the rest words with rules to generate n-best candidates for final decision We combine the two different methods, taking bothadvantages and achieving excellent performance in the Slavic Mongolian word segmentation.
Keywords:Slavic Mongolian  word segmentation  dictionary  rule  
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号