首页 | 本学科首页   官方微博 | 高级检索  
     

向上学习方法改进移进归约中文句法分析
引用本文:朱慕华,王会珍,朱靖波. 向上学习方法改进移进归约中文句法分析[J]. 中文信息学报, 2015, 29(2): 33-39
作者姓名:朱慕华  王会珍  朱靖波
作者单位:东北大学 自然语言处理实验室,辽宁 沈阳 110819)
基金项目:国家自然科学基金(61073140,61100089),中央高校基本科研业务费专项资金(N110404012),高等学校博士学科点专项科研基金(20100042110031)
摘    要:基于移进归约的句法分析系统具有线性的时间复杂度,因此在大规模句法分析任务中具有特别实际的意义。然而目前移进归约句法分析系统的性能远低于领域内最好的句法分析器,例如,伯克利句法分析器。该文研究如何利用向上学习和无标注数据改进移进归约句法分析系统,使之尽可能接近伯克利句法分析器的性能。我们首先应用伯克利句法分析器对大规模的无标注数据进行自动分析,然后利用得到的自动标注数据作为额外的训练数据改进词性标注系统和移进归约句法分析器。实验结果表明,向上学习方法和无标注数据使移进归约句法分析的性能提高了2.3%,达到82.4%。这个性能与伯克利句法分析器的性能可比。与此同时,该文最终得到的句法分析系统拥有明显的速度优势(7倍速度于伯克利句法分析器)。

关 键 词:中文句法分析  移进归约分析  伯克利句法分析器  向上学习  无标注数据  

Improving Shift-Reduce Chinese Parsing with an Uptraining Approach
ZHU Muhua,WANG Huizhen,ZHU Jingbo. Improving Shift-Reduce Chinese Parsing with an Uptraining Approach[J]. Journal of Chinese Information Processing, 2015, 29(2): 33-39
Authors:ZHU Muhua  WANG Huizhen  ZHU Jingbo
Affiliation:Northeastern University NLP Lab, Shenyang, Liaoning 110819, China
Abstract:In practical applications such as parsing the Web, the shift-reduce parser is often preferred due to its linear time complexity. To be further comparable to the state-of-the-art parsers publicly available, this paper adopts the uptraining approach to improve the performance of the shift-reduce parser. The basic idea of uptraining is to apply a high-accuracy parser (such as the Berkeley parser used in this paper) to automatically analyze unlabeled data and then the new labeled data is applied as additional training data to build a POS tagger and the shift-reduce parser. Experimental results on Penn Chinese Treebank show that the approach can improve the shift-reduce parsing to 82.4% (with an absolute improvement of 2.3%), which is comparable to the Berkley parser on the same data and outperforms other state-of-the-art parsers.
Keywords:Chinese syntactic parsing   shift-reduce parsing   Berkeley parser   uptraining   unlabeled data  
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号