基于预训练模型的文博数据命名实体识别方法期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于预训练模型的文博数据命名实体识别方法

作者姓名：	赵卓田侃张殊张晨吴涛姜丰游小琳

作者单位：	1. 重庆中国三峡博物馆文物信息部;2. 重庆邮电大学网络空间安全与信息学院

基金项目：	国家自然科学基金资助项目（61802039）；;重庆市自然科学基金资助项目（cstc2020jcyj-msxmX0804）；

摘要：	在对文博数据进行知识图谱的构建时，从文本中抽取出有效的三元组尤为重要，因而命名实体识别成为挖掘文博数据的首要任务。传统的中文实体命名识别方法多采用深度神经网络模型，此类方法在对词进行向量化处理时只是将词映射成单一的词向量，并不能很好地表示词的多义性。预训练语言模型能够有效地对字进行向量化表示，将语义信息充分地结合。因此，针对文博数据提出一种基于BERT的预训练实体识别模型，采用BERT预训练模型进行词嵌入，通过利用双向长短期记忆网络（BiLSTM）模型结合上下文信息来增强词向量的语义信息，然后利用条件随机场（CRF）模型进行解码。与传统长短期记忆（LSTM）网络和BiLSTM-CRF模型相比，该模型在微软公开数据集（MSRA）以及自行标注文博知识数据集上表现突出，在文博知识数据集中，模型的准确率达到93.57%，召回率达到75.00%,F1值达到73.58%。
关键词：	命名实体识别预训练知识图谱自然语言处理深度学习

设为首页 | 免责声明 | 关于勤云 | 加入收藏