面向地质领域的实体关系联合抽取研究 |
| |
引用本文: | 吴雪莹,段友祥,昌伦杰,李世银,孙歧峰.面向地质领域的实体关系联合抽取研究[J].计算机工程,2023(3):121-127. |
| |
作者姓名: | 吴雪莹 段友祥 昌伦杰 李世银 孙歧峰 |
| |
作者单位: | 1. 中国石油大学(华东)计算机科学与技术学院;2. 中国石油塔里木油田分公司勘探开发研究院 |
| |
基金项目: | 中央高校基本科研业务费专项资金(20CX05017A); |
| |
摘 要: | 构建地质领域的知识图谱有助于便捷高效地共享和应用多源地质知识,而地质关系三元组抽取对地质领域知识图谱构建具有重要意义。针对现有实体关系联合抽取模型无法有效识别重叠三元组的问题,考虑地质领域专业知识的特殊性,基于预训练语言模型BERT建立一种用于地质领域关系三元组抽取的层级标注模型HtERT。采用中文预训练语言模型BERT-wwm替代原始的BERT模型作为底层编码器,以提高模型对中文的编码能力。在实体识别阶段,引入关于实体起始位置的嵌入表示来限制实体的抽取长度,从而提升实体识别的准确度。引入全局上下文信息和BiLSTM网络使得模型抽取到的特征能更精确地表示地质样本信息,增强模型对地质关系三元组以及重叠三元组的抽取能力。在地质领域数据集上的实验结果表明,HtERT模型相比于PCNN、BiLSTM、PCNN+ATT、CASREL等基线模型具有明显优势,精确率、召回率以及F1值分别平均提升15.24、10.96和13.20个百分点,验证了该模型在地质领域实体关系联合抽取任务中的有效性。
|
关 键 词: | 实体关系抽取 联合抽取 重叠三元组 地质领域 预训练模型BERT |
|
|