首页 | 本学科首页   官方微博 | 高级检索  
     

基于条件随机场的无监督中文词性标注
引用本文:孙静,李军辉,周国栋.基于条件随机场的无监督中文词性标注[J].计算机应用与软件,2011,28(4).
作者姓名:孙静  李军辉  周国栋
作者单位:苏州大学计算机科学与技术学院,江苏,苏州,215006
基金项目:国家自然科学基金(60873150,60970056)
摘    要:中文词性标注是中文信息处理领域的一项基础工作。提出了一种基于条件随机场CRFs(Conditional Random Fields)模型的无监督的中文词性标注方法。首先利用词典对获得的已分好词的生文本进行词性标注,得到初始标注语料,然后利用CRFs对语料进行迭代标注,逐步优化标注结果。并以宾州树库为实验语料,考察了不同规模的标注数据对模型性能的影响,在四份不同规模语料上的实验表明,词性标注正确率提高了1.88%~2.26%。

关 键 词:条件随机场  无监督学习  词性标注  

AN UNSUPERVISED CHINESE PART-OF-SPEECH TAGGING APPROACH USING CONDITIONAL RANDOM FIELDS
Sun Jing,Li Junhui,Zhou Guodong.AN UNSUPERVISED CHINESE PART-OF-SPEECH TAGGING APPROACH USING CONDITIONAL RANDOM FIELDS[J].Computer Applications and Software,2011,28(4).
Authors:Sun Jing  Li Junhui  Zhou Guodong
Affiliation:Sun Jing Li Junhui Zhou Guodong(School of Computer Science and Technology,Soochow University,Suzhou 215006,Jiangsu,China)
Abstract:Chinese part-of-speech(POS) tagging is an infrastructure of Chinese information processing.This paper proposes a new unsupervised tagging approach for Chinese POS using condition random fields(CRFs).First,by using dictionary we tag the POS of pre-segmented texts obtained and get elementary tagging corpus.Then we use CRFs to tag recursively on the corpus and gradually optimise the tagging result.In the paper we take the Pennsylvania TreeBank as the experimental corpus to survey the effect of tagging data wit...
Keywords:Conditional random fields Unsupervised learning Part-of-speech tagging  
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号