首页 | 本学科首页   官方微博 | 高级检索  
     

基于藏语字性标注的词性预测研究
引用本文:龙从军,刘汇丹,诺明花,吴 健.基于藏语字性标注的词性预测研究[J].中文信息学报,2015,29(5):211-216.
作者姓名:龙从军  刘汇丹  诺明花  吴 健
作者单位:1. 中国科学院软件研究所,北京 100190;
2. 中国社会科学院民族学与人类学研究所,北京 100081
基金项目:国家自然科学基金(61202219,61303165,61132009);中国科学院信息化专项经费资助(XXH12504-1-10);中国社科院创新工程项目
摘    要:该文选取了藏语文中小学教材的部分语料,构建了带有藏语字性标记、词边界标记和词性标记的语料库,通过比较不同的分词、标注方法,证明分词、词性标注一体化效果比分步进行的效果好,准确率、召回率和F值分别提高了0.067、0.073和0.07。但词级标注模型难以解决词边界划分的一致性和未登录词的问题。基于此,作者提出可以利用字性和字构词的规律预测合成词的词性,既可以融入语言学知识又可以减少由未登录词导致的标注错误,实验结果证明,作为词性标注的后处理模块,基于字性标注的词性预测准确率提高到了0.916,这个结果已经比分词标注一体化结果好,说明字性标注对纠正词性错误标注有明显的效果。


关 键 词:藏语    语字标注    分词    词性标注  

Tibetan POS Tagging Based on Syllable Tagging
LONG Congjun,LIU Huidan,NUO Minghua,WU Jian.Tibetan POS Tagging Based on Syllable Tagging[J].Journal of Chinese Information Processing,2015,29(5):211-216.
Authors:LONG Congjun  LIU Huidan  NUO Minghua  WU Jian
Affiliation:1. Institute of software Chinese Academy of Sciences, Beijing 100190, China;
2. Institute of Ethnology and Anthropology Chinese Academy of Social Sciences, Beijing 100081, China
Abstract:A Tibetan corpus is constructed and annotated for the syllable markers, the word boundary markers and the part-of-speech(POS) tags, with texts selected from Tibetan textbooks of Primary and middle school. Then an empirical study reveals that the training data with the multi-level annotation can enhance the effects of POS tagging. Due to the strong relation between the POS tags of words and the tags Tibetan syllables, a method of Tibetan POS tagging by the Tibetan syllables is presented. The results of experiments show that syllable tags can correct certain errors caused in POS tagging.
Keywords:Tibetan language  tagging of Tibetan syllables  word segmentation  POS  
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号