基于MRC动态数据生成的命名实体识别方法 |
| |
引用本文: | 范西朋,刘云飞,李盛阳,郭威虎,胡淼泊.基于MRC动态数据生成的命名实体识别方法[J].中文信息学报,2023(6):104-114. |
| |
作者姓名: | 范西朋 刘云飞 李盛阳 郭威虎 胡淼泊 |
| |
作者单位: | 1. 中国科学院大学;2. 中国科学院太空应用重点实验室;3. 中国科学院空间应用工程与技术中心 |
| |
摘 要: | 命名实体识别任务常常因训练数据类别不平衡,导致模型泛化能力较差。该文提出了一种新的机器阅读理解(Machine Reading Comprehension, MRC)模型框架,使其可以同时识别多个首尾索引以提取多个实体文段,并在此MRC模型基础上,针对数据不平衡问题,提出动态数据生成方法(Dynamic Data Generation method, DDG),使用MRC模型动态地生成用于训练和预测的数据,以辅助序列标注(Sequence Labeling)模型进行命名实体识别。该文分别在中英文数据集上进行了实验,并且在Weibo数据集上取得优于当前SOTA模型+1.93%F1值的结果。
|
关 键 词: | 命名实体识别 机器阅读理解 序列标注 |
|
|