基于实体注意力和负训练的远程监督噪声过滤方法 |
| |
引用本文: | 陈克正,钟勇.基于实体注意力和负训练的远程监督噪声过滤方法[J].计算机应用,2022(S2):42-46. |
| |
作者姓名: | 陈克正 钟勇 |
| |
作者单位: | 1. 中国科学院成都计算机应用研究所;2. 中国科学院大学计算机科学与技术学院 |
| |
摘 要: | 远程监督关系抽取可以在非人工标注条件下自动构建数据集,但同时会产生错误标注。针对错误标注问题,提出一种基于实体注意力和负训练的远程监督噪声过滤方法。首先使用BERT预训练语言模型或双向长短期记忆(BiLSTM)神经网络提取句子和实体的特征,然后通过计算实体和句子中每个词之间的相关性,作为头实体和尾实体的注意力权重,接着使用负训练的方式准确捕获噪声数据的关键特征,最后通过基于预测值的动态阈值函数过滤噪声数据,并根据样本的最大预测值对过滤出的噪声数据重新进行正确标注。在人工智能领域数据集上进行实验:所提方法在使用BERT预训练语言模型提取句子和实体特征时,相比SENTBERT,F1值获得了2.23个百分点的提升;当使用BiLSTM提取句子和实体特征时,相比SENTBiLSTM,F1值获得了2.53个百分点的提升。实验结果验证了所提方法能更有效地过滤远程监督产生的噪声数据。
|
关 键 词: | 远程监督 负训练 注意力机制 关系抽取 动态阈值 知识图谱 |
|
|