基于预训练模型的文博数据命名实体识别方法 |
| |
作者姓名: | 赵卓 田侃 张殊 张晨 吴涛 姜丰 游小琳 |
| |
作者单位: | 1. 重庆中国三峡博物馆文物信息部;2. 重庆邮电大学网络空间安全与信息学院 |
| |
基金项目: | 国家自然科学基金资助项目(61802039);;重庆市自然科学基金资助项目(cstc2020jcyj-msxmX0804); |
| |
摘 要: | 在对文博数据进行知识图谱的构建时,从文本中抽取出有效的三元组尤为重要,因而命名实体识别成为挖掘文博数据的首要任务。传统的中文实体命名识别方法多采用深度神经网络模型,此类方法在对词进行向量化处理时只是将词映射成单一的词向量,并不能很好地表示词的多义性。预训练语言模型能够有效地对字进行向量化表示,将语义信息充分地结合。因此,针对文博数据提出一种基于BERT的预训练实体识别模型,采用BERT预训练模型进行词嵌入,通过利用双向长短期记忆网络(BiLSTM)模型结合上下文信息来增强词向量的语义信息,然后利用条件随机场(CRF)模型进行解码。与传统长短期记忆(LSTM)网络和BiLSTM-CRF模型相比,该模型在微软公开数据集(MSRA)以及自行标注文博知识数据集上表现突出,在文博知识数据集中,模型的准确率达到93.57%,召回率达到75.00%,F1值达到73.58%。
|
关 键 词: | 命名实体识别 预训练 知识图谱 自然语言处理 深度学习 |
|