首页 | 本学科首页   官方微博 | 高级检索  
     

句法分析中基于词汇化树邻接语法的数据增强方法
引用本文:陈鸿彬,张玉洁,徐金安,陈钰枫.句法分析中基于词汇化树邻接语法的数据增强方法[J].中文信息学报,2022,36(10):27.
作者姓名:陈鸿彬  张玉洁  徐金安  陈钰枫
作者单位:北京交通大学 计算机与信息技术学院, 北京 100044
基金项目:国家自然科学基金(61876198,61976015,61976016)
摘    要:句法分析是自然语言处理的基础技术,主流的由数据驱动的神经网络句法分析模型需要大规模的标注数据,但是通过人工标注扩展树库成本很高,因此如何利用现有标注树库进行数据增强成为研究焦点。在汉语句法分析的数据增强任务中,对于给定的标注树库,要求数据增强所生成的句子满足如下条件: 第一,要求生成句具有多样化且完整的句法树结构;第二,要求生成句具有合理的语义。对此,我们首次提出基于词汇化树邻接语法的数据增强方法。针对第一个需求,该文设计实现基于词汇化树邻接语法的词汇化树抽取算法与句法树合成算法,基于该语法可以在句法树之间进行“接插”和“替换”的操作,从而推导生成新的句法树,并且用语言学的知识保证生成句符合语法规则且具有完整的句法树结构。针对第二个需求,该文利用语言模型对生成句进行语义合理性评估,选取语义合理的句子作为最终的增强数据,从而获取高质量的标注树库。我们以汉语为例开展研究,在汉语树库CTB5上进行句法分析的数据增强评测实验。实验结果显示,在小样本(CTB5的20%)实验中,通过该方法得到的增强数据使依存句法分析和成分句法分析的精度分别提高1.39%和2.14%。在鲁棒性实验中,该文通过构建扩展测试集进行评测实验,在扩展测试集上,通过该方法得到的增强数据使依存句法分析和成分句法分析的精度分别提高1.43%和0.44%,表现出更好的鲁棒性。

关 键 词:依存句法分析  成分句法分析  词汇化树邻接语法  语言模型  数据增强  
收稿时间:2021-11-10

Lexicalized Tree Adjoining Grammar Based Data Augmentation for Parsing
CHEN Hongbin,ZHANG Yujie,XU Jin'an,CHEN Yufeng.Lexicalized Tree Adjoining Grammar Based Data Augmentation for Parsing[J].Journal of Chinese Information Processing,2022,36(10):27.
Authors:CHEN Hongbin  ZHANG Yujie  XU Jin'an  CHEN Yufeng
Affiliation:School of Computer and Information Technology, Beijing Jiaotong University, Beijing 100044, China
Abstract:Parsing is a key technology in natural language processing. The neural network based parsing models require large-scale annotated data, and data augmentation technology is demanded to extend the exiting treebank. This paper proposes a data augmentation approach based on a lexicalized tree adjoining grammar for parsing. To generate sentences with various expressions of correct syntax structure, we design and implement a lexicalized tree extraction algorithm and a parse tree synthesis algorithm, in which "adjoining" and "substitution" operations are utilized to derive new syntactic trees. To generate the semantically correct sentences, we use language model to evaluate the derived sentences. Experiments on Chinese treebank CTB5 shows that dependency and constituency parsing accuracy could be improved by 1.39% and 2.14% on the 20% of CTB5 data show that the accuracy of strained on the derived data are increased, respectively.
Keywords:dependency parsing  constituency parsing  lexicalized tree adjoining grammar  language model  data augmentation  
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号