首页 | 本学科首页   官方微博 | 高级检索  
     

中文CCG树库的构建
引用本文:宋彦,黄昌宁,揭春雨. 中文CCG树库的构建[J]. 中文信息学报, 2012, 26(3): 3-9
作者姓名:宋彦  黄昌宁  揭春雨
作者单位:1. 香港城市大学 中文、翻译及语言学系,香港九龙达之路83号;
2. 微软亚洲研究院,北京 100080
基金项目:本文所述工作主要在微软亚洲研究院完成,其中一、三作者受香港特别行政区大学教育资助委员会(UGC)研究资助局(RGC)GRF项目9041597(CityU144410)部分资助
摘    要:组合范畴语法(CCG)是一种类型驱动的语法,可以高度词例化(lexicalized)并兼顾句法和一定程度上语义的表达,可为深层次的文本分析提供有效支持。将CCG应用于真实文本分析需要编制大规模的词库,为了避免为此付出的昂贵人力和资源,一个经济有效的解决方案是利用现有短语句法树库来自动生成CCG树库。该文提出在清华中文树库的基础上自动生成CCG树库的方法,在预定义的中文句型和基于清华树库的动词子范畴框架的支持下,通过标准转换算法,得到一个包含32 737句、超过35万词次的中文CCG树库。该树库通过手工和自动评价验证,又与已有文献所报告的多语种CCG树库构建工作比较,均证明该文所述方法的有效性。

关 键 词:组合范畴语法  树库  中文句型  动词子范畴框架  

Construction of Chinese CCGbank
SONG Yan , HUANG Changning , KIT Chunyu. Construction of Chinese CCGbank[J]. Journal of Chinese Information Processing, 2012, 26(3): 3-9
Authors:SONG Yan    HUANG Changning    KIT Chunyu
Affiliation:1. Department of Chinese, Translation & Linguistics, City University of Hong Kong,
83 Tat Chee Ave., Kowloon, Hong Kong SAR, China;2. Microsoft Research Asia, Beijing 100080, China
Abstract:Combinatory Categorial Grammar(CCG) is a type-driven lexicalized grammar formalism with a transparent interface between syntax and semantics,which is essential to in-depth text processing.To apply CCG to real texts,however,a large scale lexicon needs to be constructed as indispensable support,demanding a great deal of manpower and resources.An effective way to alleviate this problem is to transform an existing treebank into a CCGbank.This paper presents an approach to deriving a Chinese CCGbank from Tsinghua Chinese Treebank,with the aid of a number of predefined verb sub-categorization and Chinese sentence patterns.The resulted CCGbank includes 32 737 sentences,of over 350k word tokens.The effectiveness of this approach is confirmed by an evaluation with manually annotated references and a comparison with reported works on the construction of several CCGbanks.
Keywords:combinatory categorical grammar  treebank  Chinese sentence pattern  verb sub-categorization frame
本文献已被 CNKI 万方数据 等数据库收录!
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号