面向机器阅读理解的高质量藏语数据集构建期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

面向机器阅读理解的高质量藏语数据集构建

作者姓名：	孙媛刘思思陈超凡旦正错赵小兵

作者单位：	1. 中央民族大学信息工程学院;2. 国家语言资源监测与研究少数民族语言中心;3. 民族语言智能分析与安全冶理教育部重点实验室

基金项目：	国家自然科学基金(61972436)；

摘要：	机器阅读理解是通过算法让机器根据给定的上下文回答问题，从而测试机器理解自然语言的程度。其中，数据集的构建是机器阅读理解的主要任务之一。目前，相关算法模型在大多数流行的英语数据集上都取得了显著的成绩，甚至超过了人类表现。但对于低资源语言，由于缺乏相应的数据集，机器阅读理解研究尚处于起步阶段。该文以藏语为例，人工构建了藏语机器阅读理解数据集(TibetanQA),其中包含20 000个问题答案对和1 513篇文章。该数据集的文章均来自云藏网，涵盖了自然、文化和教育等12个领域，问题形式多样且具有一定的难度。另外，该数据集在文章收集、问题构建、答案验证、回答多样性和推理能力等方面，均采用严格的流程以确保数据的质量，同时采用基于语言特征消融输入的验证方法说明了数据集的质量。最后，该文初步探索了三种经典的英语阅读理解模型在TibetanQA数据集上的表现，其结果难以媲美人类，这表明藏语机器阅读理解任务还需要更进一步的探索。
关键词：	机器阅读理解低资源语言藏语数据集

设为首页 | 免责声明 | 关于勤云 | 加入收藏