长短答案分类指导的机器阅读理解方法 |
| |
引用本文: | 杨建喜,向芳悦,李韧,李东,蒋仕新,张露伊,肖桥.长短答案分类指导的机器阅读理解方法[J].中文信息学报,2023(5):112-121. |
| |
作者姓名: | 杨建喜 向芳悦 李韧 李东 蒋仕新 张露伊 肖桥 |
| |
作者单位: | 重庆交通大学信息科学与工程学院 |
| |
基金项目: | 国家自然科学基金(62003063);;重庆市自然科学基金(cstc2020jcyj-msxmX0047);;重庆市教委科学技术研究项目(KJZD-M202000702,KJQN202000726); |
| |
摘 要: | 针对现有机器阅读理解模型存在长答案不完整、短答案冗余,即模型对答案的边界信息捕捉能力有待提升问题,该文基于“问题分类+答案预测联合学习”的流水线式策略,提出了一种通过答案长短特征分类指导机器阅读理解的神经网络模型。该方法采用预训练语言模型对问题和文章进行语义表示,并以待预测答案的长短类型对相应问题进行分类,然后将问题分类的结果用于指导阅读理解中的答案预测模块,最终以多任务学习的方式得到全部答案的开始位置和结束位置。实验结果表明,该模型在CMRC2018数据集上的EM平均值为67.4%,F1平均值为87.6%,相比基线模型,分别提升了0.9%和1.1%。在自建的中文桥梁检测问答数据集上的EM平均值为89.4%、F1平均值为94.7%,相比基线模型,分别提升了1.2%和0.5%。在更少训练集规模的CMRC2018和中文繁体数据集DRCD上,该文方法也优于基线模型。
|
关 键 词: | 机器阅读理解 RoBERTa_wwm_ext 文本分类 多任务学习 |
|
|