首页 | 本学科首页   官方微博 | 高级检索  
     

基于实体注意力和负训练的远程监督噪声过滤方法
引用本文:陈克正,钟勇.基于实体注意力和负训练的远程监督噪声过滤方法[J].计算机应用,2022(S2):42-46.
作者姓名:陈克正  钟勇
作者单位:1. 中国科学院成都计算机应用研究所;2. 中国科学院大学计算机科学与技术学院
摘    要:远程监督关系抽取可以在非人工标注条件下自动构建数据集,但同时会产生错误标注。针对错误标注问题,提出一种基于实体注意力和负训练的远程监督噪声过滤方法。首先使用BERT预训练语言模型或双向长短期记忆(BiLSTM)神经网络提取句子和实体的特征,然后通过计算实体和句子中每个词之间的相关性,作为头实体和尾实体的注意力权重,接着使用负训练的方式准确捕获噪声数据的关键特征,最后通过基于预测值的动态阈值函数过滤噪声数据,并根据样本的最大预测值对过滤出的噪声数据重新进行正确标注。在人工智能领域数据集上进行实验:所提方法在使用BERT预训练语言模型提取句子和实体特征时,相比SENTBERT,F1值获得了2.23个百分点的提升;当使用BiLSTM提取句子和实体特征时,相比SENTBiLSTM,F1值获得了2.53个百分点的提升。实验结果验证了所提方法能更有效地过滤远程监督产生的噪声数据。

关 键 词:远程监督  负训练  注意力机制  关系抽取  动态阈值  知识图谱
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号