首页 | 本学科首页   官方微博 | 高级检索  
     

汉英篇章衔接对齐语料库构建研究
引用本文:李艳翠,冯继克,来纯晓,冯洪玉,冯文贺.汉英篇章衔接对齐语料库构建研究[J].中文信息学报,2022,36(4):39.
作者姓名:李艳翠  冯继克  来纯晓  冯洪玉  冯文贺
作者单位:1.河南师范大学 计算机与信息工程学院,河南 新乡 453007;
2. 河南科技学院 信息工程学院,河南 新乡 453003;
3.广东外语外贸大学 语言工程与计算实验室,广东 广州 510006
基金项目:国家自然科学基金(61502149);河南省科技计划项目(182102210048);广东省基础与应用基础研究基金项目(2020A1515011056)
摘    要:篇章衔接性分析是理解篇章的基础,汉语和英语在指代、连接和省略等主要衔接方式上存在差异。该文分别给出子句、连接词、指代和省略的汉英篇章衔接对齐标注策略,创建了规模为200个对齐文档的语料库资源,对标注语料进行质量评估并讨论了标注中的难点问题及解决方法。语料库中的子句、连接词和指代标注一致率分别为0.909、0.876和0.920。在该文构建的语料库上分别进行子句切分和连接词识别实验,结果表明,该文语料标注策略切实可行,标注质量满足实际需要。

关 键 词:篇章衔接  对齐语料标注  指代  省略  连接  

Research on the Construction of Chinese-English Discourse Cohesion Alignment Corpus
LI Yancui,FENG Jike,LAI Chunxiao,FENG Hongyu,FENG Wenhe.Research on the Construction of Chinese-English Discourse Cohesion Alignment Corpus[J].Journal of Chinese Information Processing,2022,36(4):39.
Authors:LI Yancui  FENG Jike  LAI Chunxiao  FENG Hongyu  FENG Wenhe
Affiliation:1.College of Computer and Information Engineering, Henan Normal University, Xinxiang, Henan 453007, China;
2.College of Information Engineering, Henan Institute of Science and Technology, Xinxiang, Henan 453003, China;
3.Laboratory of Language Engineering and Computing, Guangdong University of Foreign Studies, Guangzhou, Guangdong 510006, China
Abstract:Discourse cohesion analysis plays a critical role in discourse understanding, and there exist differences in cohesion between English and Chinese. First, we explore proper strategies in annotating discourse cohesion, including clause, conjunction, reference and ellipsis. Then, we create 200 documents corpus which contains the information of cohesion alignment. Finally, this paper evaluates the corpus, discusses the problems and solutions in the annotation. The annotation consistency for clauses, connectives and reference in the corpus reaches 0.909, 0.876 and 0.920, respectively. The clause segmentation and connective recognition results show that the quality of tagged corpus meets the actual needs.
Keywords:discourse cohesions  alignment corpus annotation  reference  ellipsis  conjunction  
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号