首页 | 本学科首页   官方微博 | 高级检索  
     

基于训练样本集扩展的隐式篇章关系分类
引用本文:朱珊珊,洪 宇,丁思远,严为绒,姚建民,朱巧明.基于训练样本集扩展的隐式篇章关系分类[J].中文信息学报,2016,30(5):111-120.
作者姓名:朱珊珊  洪 宇  丁思远  严为绒  姚建民  朱巧明
作者单位:苏州大学 江苏省计算机信息处理技术重点实验室,江苏 苏州 215006
基金项目:国家自然科学基金(61373097, 61272259, 61272260, 90920004);教育部博士学科点专项基金(2009321110006, 20103201110021);江苏省自然科学基金(BK2011282);江苏省高校自然科学基金(11KJA520003);苏州市自然科学基金(SH201212)
摘    要:隐式篇章关系分类主要任务是在显式关联线索缺失的情况下,自动检测特定论元之间的语义关系类别。前人研究显示,语言学特征能够有效辅助隐式篇章关系的分类。目前,主流检测方法由于缺少足够的已标注隐式训练样本,导致分类器无法准确学习各种分类特征,分类精确率仅约为40%。针对这一问题,该文提出一种基于训练样本集扩展的隐式篇章关系分类方法。该方法首先借助论元向量,以原始训练样本集为种子实例,从外部数据资源中挖掘与其在语义以及关系上一致的“平行训练样本集”;然后将“平行训练样本集”加入原始训练样本集中,形成扩展的训练样本集;最后基于扩展的训练样本集,实现隐式篇章关系的分类。该文在宾州篇章树库(Penn Discourse Treebank, PDTB)上对扩展的训练样本集进行评测,结果显示,相较于原始训练样本集,使用扩展的训练样本集的实验系统整体性能提升8.41%,在四种篇章关系类别上的平均性能提升5.42%。与现有主流分类方法性能对比,识别精确率提升6.36%。


关 键 词:隐式篇章关系  语义向量  训练样本集扩展  篇章分析
  

Implicit Discourse Relation Classification Method Based on the Training Data Expansion
ZHU Shanshan,HONG Yu,DING Siyuan,YAN Weirong,YAO Jianmin,ZHU Qiaoming.Implicit Discourse Relation Classification Method Based on the Training Data Expansion[J].Journal of Chinese Information Processing,2016,30(5):111-120.
Authors:ZHU Shanshan  HONG Yu  DING Siyuan  YAN Weirong  YAO Jianmin  ZHU Qiaoming
Affiliation:Key Lab of Computer Information Processing Technology of Jiangsu Province,
Soochow University, Suzhou, Jiangsu 215006, China
Abstract:
Keywords:
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号