首页 | 本学科首页   官方微博 | 高级检索  
     

基于预训练模型的文博数据命名实体识别方法
作者姓名:赵卓  田侃  张殊  张晨  吴涛  姜丰  游小琳
作者单位:1. 重庆中国三峡博物馆文物信息部;2. 重庆邮电大学网络空间安全与信息学院
基金项目:国家自然科学基金资助项目(61802039);;重庆市自然科学基金资助项目(cstc2020jcyj-msxmX0804);
摘    要:在对文博数据进行知识图谱的构建时,从文本中抽取出有效的三元组尤为重要,因而命名实体识别成为挖掘文博数据的首要任务。传统的中文实体命名识别方法多采用深度神经网络模型,此类方法在对词进行向量化处理时只是将词映射成单一的词向量,并不能很好地表示词的多义性。预训练语言模型能够有效地对字进行向量化表示,将语义信息充分地结合。因此,针对文博数据提出一种基于BERT的预训练实体识别模型,采用BERT预训练模型进行词嵌入,通过利用双向长短期记忆网络(BiLSTM)模型结合上下文信息来增强词向量的语义信息,然后利用条件随机场(CRF)模型进行解码。与传统长短期记忆(LSTM)网络和BiLSTM-CRF模型相比,该模型在微软公开数据集(MSRA)以及自行标注文博知识数据集上表现突出,在文博知识数据集中,模型的准确率达到93.57%,召回率达到75.00%,F1值达到73.58%。

关 键 词:命名实体识别  预训练  知识图谱  自然语言处理  深度学习
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号