首页 | 本学科首页   官方微博 | 高级检索  
     

基于字词融合与对抗训练的行业人物实体识别
引用本文:朱红,牛浩然,朱彤.基于字词融合与对抗训练的行业人物实体识别[J].计算机工程,2023(5):56-62.
作者姓名:朱红  牛浩然  朱彤
作者单位:1. 中国矿业大学(北京)机电与信息工程学院;2. 中国矿业大学(北京)档案馆
摘    要:行业人物命名实体识别旨在从行业人物语料中抽取出有效的实体信息,是深度挖掘行业人物信息资源的基础性和关键性任务。由于主流的命名实体识别模型未充分利用词信息特征,导致在对具有特色的行业人物实体进行识别时语义、实体边界识别不准确。提出一种基于字词融合与对抗训练的行业人物实体识别模型。利用RoBERTa-wwm-ext预训练模型提取句子的字特征,并融合词典构造出句子的词特征。在字词融合的向量表示上添加扰动生成对抗样本,将融合向量表示与对抗样本作为训练数据输入双向长短期记忆神经网络(BiLSTM)学习上下文信息,并通过条件随机场(CRF)推理最优的序列标注结果。根据行业人物文本特点设计命名实体标注方案,构建数据集进行实验验证。实验结果表明,该模型在测试集上的精确率、召回率、F1值分别达到92.94%、94.35%、93.64%,相较于BERT-BiLSTM-CRF模型分别提升3.68、1.24、2.39个百分点。

关 键 词:命名实体识别  行业人物  字词融合  对抗训练  预训练模型
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号