首页 | 本学科首页   官方微博 | 高级检索  
     

错误驱动学习在未登录词词性标注中的应用
引用本文:梁妍,朱耀庭.错误驱动学习在未登录词词性标注中的应用[J].计算机工程与设计,2008,29(6):1532-1534.
作者姓名:梁妍  朱耀庭
作者单位:1. 南开大学,信息技术科学学院,天津,300071;天津师范大学,计算机与信息工程学院,天津,300387
2. 南开大学,信息技术科学学院,天津,300071
基金项目:天津市科技攻关重点基金 , 天津师范大学青年基金
摘    要:词性兼类是自动词性标注过程的关键所在,特别是确定未登录词词性的正确率对整个标注效果有很大的影响.对兼类词排歧方法进行了研究,针对统计和规则两种方法各自的优点和局限,提出运用隐马尔科夫模型和错误驱动学习方法相结合自动标注方法,最后介绍了如何通过这种方法在只有一个词库的有限条件下进行词性标注和未登录词的词性猜测.实验结果表明,该方法能有效提高未登录词词性标注的正确率.

关 键 词:词性标注  未登录词  基于转换的学习  隐马尔科夫模型  词性兼类
文章编号:1000-7024(2008)06-1532-03
修稿时间:2007年8月20日

Application of error-driven learning approach for unknown word in POS tagging
LIANG Yan,ZHU Yao-ting.Application of error-driven learning approach for unknown word in POS tagging[J].Computer Engineering and Design,2008,29(6):1532-1534.
Authors:LIANG Yan  ZHU Yao-ting
Affiliation:LIANG Yan1,2,ZHU Yao-ting1(1.College of Information Technical Science,Nankai University,Tianjin 300071,China,2.College of Computer , Information Engineering,Tianjin Normal University,Tianjin 300387,China)
Abstract:Ambiguity of POS is the key of automatic part-of-speech tagging procedure.Especially,the correction of tagging unknown word greatly affects automatic POS results.Firstly the ambiguity of POS is studied.After comparing the advantage and weakness of the statistical methods and the rule-governed methods,an automatic POS tagging method based on both HMM and TBL is presented.Finally,how to complete part-of-speech tagging and guess the part-of-speech of the unknown words with a limited lexicon is shown.And the te...
Keywords:part-of-speech tagging  unknown words  transformation based learning  HMM  ambiguity of POS  
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号