一种细粒度的汉语语义角色标注数据集的构建方法 |
| |
引用本文: | 宋衡,曹存根,王亚,王石.一种细粒度的汉语语义角色标注数据集的构建方法[J].中文信息学报,2022(12):52-66+73. |
| |
作者姓名: | 宋衡 曹存根 王亚 王石 |
| |
作者单位: | 1. 中国科学院计算技术研究所智能信息处理重点实验室;2. 中国科学院大学 |
| |
基金项目: | 国家重点研发计划(2017YFC1700302,2017YFB1002300);;国家自然科学基金(61702234);;北京市科技新星计划交叉学科合作课题(Z191100001119014); |
| |
摘 要: | 语义角色对自然语言的语义理解和分析有着重要的作用,其自动标注技术依赖良好的语义角色标注训练数据集。目前已有的大部分语义角色数据集在语义角色的标注上都不够精确甚至粗糙,不利于语义解析和知识抽取等任务。为了满足细粒度的语义分析,该文通过对实际语料的考察,提出了一种改进的汉语语义角色分类体系。在此基础上,以只有一个中枢语义角色的语料作为研究对象,提出了一种基于半自动方法的细粒度的汉语语义角色数据集构建方法,并构建了一个实用的语义角色数据集。截至目前,该工程一共完成了9 550条汉语语句的语义角色标注,其中含有9 423个中枢语义角色,29 142个主要周边语义角色,3 745个辅助周边语义角色,172条语句被进行了双重语义角色标注,以及104条语句被进行了不确定语义事件的语义角色标注。我们采用Bi-LSTM+CRF的基线模型在构建好的汉语语义角色数据集和公开的Chinese Proposition Bank数据集进行了关于主要周边语义角色的基准实验。实验表明,这两个语义角色数据集在主要周边语义角色自动识别方面存在差异,并且为提高主要周边语义角色的识别准确率提供了依据。
|
关 键 词: | 语义角色 细粒度语义标注 汉语语义角色标注 汉语语义分析 |
|