首页 | 本学科首页   官方微博 | 高级检索  
     

基于MRC动态数据生成的命名实体识别方法
引用本文:范西朋,刘云飞,李盛阳,郭威虎,胡淼泊.基于MRC动态数据生成的命名实体识别方法[J].中文信息学报,2023(6):104-114.
作者姓名:范西朋  刘云飞  李盛阳  郭威虎  胡淼泊
作者单位:1. 中国科学院大学;2. 中国科学院太空应用重点实验室;3. 中国科学院空间应用工程与技术中心
摘    要:命名实体识别任务常常因训练数据类别不平衡,导致模型泛化能力较差。该文提出了一种新的机器阅读理解(Machine Reading Comprehension, MRC)模型框架,使其可以同时识别多个首尾索引以提取多个实体文段,并在此MRC模型基础上,针对数据不平衡问题,提出动态数据生成方法(Dynamic Data Generation method, DDG),使用MRC模型动态地生成用于训练和预测的数据,以辅助序列标注(Sequence Labeling)模型进行命名实体识别。该文分别在中英文数据集上进行了实验,并且在Weibo数据集上取得优于当前SOTA模型+1.93%F1值的结果。

关 键 词:命名实体识别  机器阅读理解  序列标注
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号