基于MRC动态数据生成的命名实体识别方法期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于MRC动态数据生成的命名实体识别方法

作者姓名：	范西朋刘云飞李盛阳郭威虎胡淼泊

作者单位：	1. 中国科学院大学;2. 中国科学院太空应用重点实验室;3. 中国科学院空间应用工程与技术中心

摘要：	命名实体识别任务常常因训练数据类别不平衡,导致模型泛化能力较差。该文提出了一种新的机器阅读理解(Machine Reading Comprehension, MRC)模型框架,使其可以同时识别多个首尾索引以提取多个实体文段,并在此MRC模型基础上,针对数据不平衡问题,提出动态数据生成方法(Dynamic Data Generation method, DDG),使用MRC模型动态地生成用于训练和预测的数据,以辅助序列标注(Sequence Labeling)模型进行命名实体识别。该文分别在中英文数据集上进行了实验,并且在Weibo数据集上取得优于当前SOTA模型+1.93%F₁值的结果。
关键词：	命名实体识别机器阅读理解序列标注