首页 | 本学科首页   官方微博 | 高级检索  
     

词性标注中生词处理算法研究
引用本文:张孝飞,陈肇雄,黄河燕,蔡智.词性标注中生词处理算法研究[J].中文信息学报,2003,17(5):2-6.
作者姓名:张孝飞  陈肇雄  黄河燕  蔡智
作者单位:1.中国科技大学计算机系2.中国科学院计算机语言信息工程研究中心
基金项目:国家自然科学基金资助项目(60272088)
摘    要:词性兼类是自然语言理解必须解决的一类非常重要的歧义现象,尤其是对生词的词性歧义处理有很大的难度。文章基于隐马尔科夫模型(HMM),通过将生词的词性标注问题转化为求词汇发射概率,在词性标注中提出了一种生词处理的新方法。该方法除了用到一个标注好的单语语料库外,没使用任何其他资源(比如语法词典、语法规则等),封闭测试正确率达97%左右,开放测试正确率也达95%左右,基本上达到了实用的程度。同时还给出了与其他同样基于HMM的词性标注方法的测试比较结果,结果表明本文方法的标注正确率有较大的提高。

关 键 词:计算机应用  中文信息处理  自然语言理解  词性兼类  隐马尔科夫模型  语料库  
文章编号:1003-0077(2003)05-0001-05
修稿时间:2003年3月11日

An Approach of Processing New Words Based on HMM in Tagging of Speech of Part
ZHANG Xiao-fei,CHEN Zhao-xiong,HUANG He-yan,CAI Zhi.An Approach of Processing New Words Based on HMM in Tagging of Speech of Part[J].Journal of Chinese Information Processing,2003,17(5):2-6.
Authors:ZHANG Xiao-fei  CHEN Zhao-xiong  HUANG He-yan  CAI Zhi
Affiliation:1.Dept. of Computer Science , USTC2.Research Center of Computer & Language Information Engineering , CAS
Abstract:Ambiguity of part of speech (POS) which urgent needs to be resolved is a very important ambiguous phenomenon in natural language processing. Furthermore , it is very difficult to disambiguate the ambiguity of part of speech of the new words. In this paper , through converting the problem of tagging of POS to the problem of calculation of word’s emission probability ; a new approach based on HMM is proposed to solve this problem. This approach uses nothing more than a tagged corpus (e.g. no grammar dictionaries , no grammar rules), and the result shows that the correct rata arrive at 97% in close test and 92% in open test .
Keywords:computer application  Chinese information processing  natural language processing (NLP)  ambiguity of POS  HMM  corpus
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号