首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 343 毫秒
1.
相比于传统有监督的中文关系抽取方法,基于远程监督的方法可极大地避免训练语料匮乏的问题,因此得到了广泛关注。然而,远程监督方法的性能却严重受困于构建语料过程中引入的错误标签,因此为缓解噪声数据所带来的影响,提出一种基于双重注意力机制的关系抽取模型。该模型可通过双向门限循环单元(Bidirectional Gated Recurrent Unit,BI-GRU)网络获取训练实例的双向上下文语义信息,并利用字符级注意力机制关注实例中重要的语义特征,同时在多个实例间引入实例级注意力机制计算实例与对应关系的相关性,以降低噪声数据的权重。在基于互动百科构建的中文人物关系抽取语料上的实验结果表明,该模型相比于单注意力机制模型可有效利用实例中所包含的语义信息并降低错误标签实例的影响,获取更高的准确率。  相似文献   

2.
关系抽取任务是对句子中的实体对进行关系分类。基于远程监督的关系抽取是用预先构建的知识库来对齐朴素文本,自动标注数据,在一定程度上减少了人工标注的成本,缓解了藏文材料语料不足的问题。但是基于远程监督的实体关系抽取还存在错误标记、提取特征时出现噪声等问题。该文用远程监督方法进行藏文实体关系抽取,基于已经构建的藏文知识库,利用分段卷积神经网络结构,加入语言模型和注意力机制来改善语义歧义问题以及学习句子的信息;在训练过程中加入联合得分函数来动态修正错误标签问题。实验结果表明改进的模型有效提高了藏文实体关系抽取的准确率,且优于基线模型效果。  相似文献   

3.
实体关系抽取是构建知识图谱的主要任务之一,旨在确定句子中实体之间的关系类别.远程监督关系抽取方法通过将远程知识库与文本数据对齐来自动标记数据,已成为处理关系抽取任务的主要方式.为解决远程关系抽取不能充分利用单词之间的位置关系信息,并且没有考虑重叠关系之间语义相关性的问题,本文提出一种融合位置特征注意力和关系增强机制的远程监督关系抽取模型.该模型使用基于高斯算法的位置特征注意力机制重新分配句子中单词的权重,并且采用分段卷积神经网络和词级注意力来捕获句子特征.然后,利用基于自注意力的关系增强机制来捕获重叠关系之间的语义关联.在NYT10公共数据集上的实验结果表明,本文模型的性能优于所比较的基线关系抽取模型.  相似文献   

4.
基于远程监督的关系抽取方法可以明显地减少人工标注数据集的成本,已经被广泛应用于领域知识图谱的构建任务中.然而,现有的远程监督关系抽取方法领域针对性不强,同时也忽略了对领域实体特征信息的利用.为了解决上述问题,提出了一种融合实体特征和多种类注意力机制的关系抽取模型PCNN-EFMA.模型采用远程监督和多实例技术,不再受限于人工标注.同时,为了减少远程监督中噪声的影响,模型使用了句子注意力和包间注意力这两类注意力,并在词嵌入层和句子注意力中融合实体特征信息,增强了模型的特征选择能力.实验表明,该模型在领域数据集上的PR曲线更好,并在P@N上的平均准确率优于PCNN-ATT模型.  相似文献   

5.
针对关系抽取任务中句子依存树的信息利用率低和特征提取效果不佳的问题,提出了一种基于注意力引导的门控感知图卷积网络(Att-Gate-GCN)模型。首先,利用一种基于注意力机制的软剪枝策略,通过注意力机制为依存树中的边分配权重,以挖掘依存树中的有效信息,同时过滤无用信息;其次,构建一种门控感知图卷积网络(GCN)结构,通过门控机制增加特征感知能力,以获取更鲁棒的关系特征,同时结合依存树中的局部与非局部依赖特征,进一步抽取关键信息;最后,将关键信息输入分类器得到关系类别标签。实验结果表明,相较于原始的图卷积网络关系抽取模型,所提模型在SemEval2010-Task8数据集和KBP37数据集上F1值分别有2.2个百分点和3.8个百分点的提升,能够更充分地利用有效信息,提升了模型的关系抽取能力。  相似文献   

6.
针对目前远程监督关系抽取任务中存在的错误标注问题,提出使用强化学习策略设计噪声指示器,通过与由关系分类器和噪声数据组成的环境相交互,动态识别每个关系类别的假正例与假负例,并为其重新分配正确的关系标签,从而将噪声数据转换成有用的训练样本,有利于提高远程监督关系抽取模型的性能;另外,在训练过程中,通过在策略网络权重上添加噪声,平衡策略网络的探索和利用问题,从而增强噪声指示器的探索能力,使噪声指示器更准确地选择出能够正确表达实体-关系的句子。在Freebase对齐NYT公共数据集上的实验结果表明,提出的方法可以显著提高远程监督关系抽取模型的性能,表明模型拥有识别并纠正噪声数据标签的能力,可以更好地学习关系特征。  相似文献   

7.
实体关系抽取是从非结构化和程序化的海量文本中识别出实体之间的语义关系,为本体构建、智能检索等任务提供数据支持,然而现有远程监督关系抽取方法普遍存在需要大量人工标注语料库、提取特征含有噪声且忽略了实体与句子之间关联关系等问题。提出一种基于残差双向长短时记忆网络(BiLSTM)与句袋内和句袋间注意力机制的关系抽取模型,在将词向量和位置向量作为模型输入的基础上,通过残差BiLSTM网络提取语句与实体词中的长距离文本信息,利用句袋内和句袋间注意力机制对提取到的特征信息进行处理,使模型在远程监督过程中减少实体之间的特征提取噪声,并提高模型识别准确性。在NYT数据集上的实验结果表明,该模型能够充分利用实体与关系特征,平均精确率达到86.2%,相比于将卷积神经网络和分段卷积神经网络作为句子编码器的同类模型具有更好的远程监督关系抽取性能。  相似文献   

8.
刘雅璇  钟勇 《计算机应用》2021,41(9):2517-2522
实体关系抽取是构建大规模知识图谱及各种信息抽取任务的关键步骤。基于预训练语言模型,提出基于头实体注意力的实体关系联合抽取方法。该方法采用卷积神经网络(CNN)提取头实体关键信息,并采用注意力机制捕获头实体与尾实体之间的依赖关系,构建了基于头实体注意力的联合抽取模型(JSA)。在公共数据集纽约时报语料库(NYT)和采用远程监督方法构建的人工智能领域数据集上进行实验,所提模型的F1值相较于级联二元标记框架(CasRel)分别获得了1.8和8.9个百分点的提升。  相似文献   

9.
叶育鑫  薛环  王璐  欧阳丹彤 《软件学报》2020,31(4):1025-1038
远监督关系抽取的最大优势是通过知识库和自然语言文本的自动对齐生成标记数据.这种简单的自动对齐机制在将人从繁重的样本标注工作中解放出来的同时,不可避免地会产生各种错误数据标记,进而影响构建高质量的关系抽取模型.针对远监督关系抽取任务中的标记噪声问题,提出“最终句子对齐的标签是基于某些未知因素所生成的带噪观测结果”这一假设.并在此假设的基础上,构建由编码层、基于噪声分布的注意力层、真实标签输出层和带噪观测层的新型关系抽取模型.模型利用自动标记的数据学习真实标签到噪声标签的转移概率,并在测试阶段,通过真实标签输出层得到最终的关系分类.随后,研究带噪观测模型与深度神经网络的结合,重点讨论基于深度神经网络编码的噪声分布注意力机制以及深度神经网络框架下不均衡样本的降噪处理.通过以上研究,进一步提升基于带噪观测远监督关系抽取模型的抽取精度和鲁棒性.最后,在公测数据集和同等参数设置下进行带噪观测远监督关系抽取模型的验证实验,通过分析样本噪声的分布情况,对在各种样本噪声分布下的带噪观测模型进行性能评价,并与现有的主流基线方法进行比较.结果显示,所提出的带噪观测模型具有更高的准确率和召回率.  相似文献   

10.
在远程监督(Distant Supervision,DS)实体关系抽取任务中,采用远程监督的方式虽然可以产生大量的标注数据,但是这种方法产生的数据集充满大量的噪声数据,从而会降低关系抽取的性能.为此,我们针对现有深度学习使用浅层和单一深层神经网络模型提取特征的局限,设计了一个融合注意力机制的密集连接卷积神经网络模型——DenseCNN-ATT,该模型采用五层卷积深度的CNN,构成密集连接卷积模块作为句子编码器,通过增加特征通道数量来提高特征传递,减少了特征梯度的消失现象;此外,为进一步减少噪声影响,论文将网络的最大池化结果融合注意力机制,通过强调句子权重,来提升关系抽取性能.该模型在NYT数据集上的平均准确率达到了83.2%,相比于目前效果较好的浅层网络PCNN+ATT和深层网络ResCNN-9提升了9%~11%.实验证明,该模型能够充分利用有效的实例关系,在综合性能上明显优于目前效果较好的主流模型.  相似文献   

11.
袁泉  薛书鑫 《计算机应用》2022,42(10):3040-3045
An improved algorithm based on residual shrinkage network with soft threshold module was proposed to solve the problem of noise caused by interference between words within a sentence in relation extraction. Firstly, the threshold was trained in each feature channel of the residual network. The threshold had two characteristics: first, its absolute value would not be too large, if it was too large, effective information would be eliminated; second, the threshold had different results for different input training. Secondly, according to the characteristics of soft threshold, the channel features lower than the threshold were deleted, and those higher than the threshold were reduced. Compared with direct deletion of negative features, soft threshold was able to save useful information of negative features. Finally, an optimization model of attention module was added to reduce the influence of mislabeling problem in distant supervision. Piecewise Convolutional Neural Network (PCNN), Bi-directional Long Short-Term Memory (BiLSTM) network and ordinary Residual Network (ResNet) were selected as baseline models for comparison experiments. Experimental results show that the precision-recall curves of the proposed model include the curves of other models and the F1 scores of the proposed model are increased by 6.0 percentage points, 3.9 percentage points and 1.4 percentage points respectively compared to the baseline models, which verifies that addition of soft thresholding network model can improve accuracy of relation extraction by reducing in-sentence noise.  相似文献   

12.
远程监督关系抽取方法能够大幅减少标注成本,但现有方法忽略了关系间的关联信息和实体背景知识。结合实体描述信息提出一种新的跨句包关系抽取方法。引入分段卷积神经网络进行句编码,解决特征提取的误差传播问题。同时设计跨关系跨句包注意力机制获取关系特征,更好地从远程监督的噪声数据中鉴别有效实例,从而充分利用关系之间丰富的相关信息并降低噪音句子的影响。在此基础上,利用卷积神经网络提取实体描述信息,补充关系抽取任务所需的背景知识,为跨关系跨句包注意力模块提供更好的实体表示。在NYT公共数据集上的实验结果表明,该方法在句子层面抽取任务上的F1值较结合句注意力与实体描述信息的分段卷积方法提高了4%左右,能够有效改善远程监督关系抽取效果。  相似文献   

13.
招投标网站资源中蕴含着丰富的情报信息。“远程监督”方法借助知识库自动标注数据,弥补了传统信息抽取方法在语料准备阶段对人工强依赖的缺陷,可有效提高信息抽取效率。该方法会引入噪声数据,导致信息抽取效果不够理想。因此,提出一种基于因子图模型的远程监督实体关系抽取方法,并结合领域特征,采用知识融合技术提高实体抽取质量,进而针对远程监督的缺陷提出基于负例数据学习的降噪方法。实验结果表明,该方法能够有效减少“噪声”干扰,提高关系抽取性能。  相似文献   

14.
针对从未标记的文本中抽取中文领域实体关系的问题,文中提出基于远程监督的领域实体属性关系抽取的混合方法,利用知识库中已有结构化的关系三元组,从自然语言文本中自动获取训练语料.针对远程监督方法标注数据存在大量噪声的问题,采用隐含狄利克雷分布主题模型抽取主题关键词,再与关系类型进行相似度计算和对关键词模式匹配进行去噪.最后提取词性特征、依存关系特征和短语句法树特征,并进行融合,训练关系抽取模型.实验表明,3种特征融合的F值较高,抽取性能较好.  相似文献   

15.
文本相似度分析是自然语言处理领域的核心任务,基于深度文本匹配模型进行文本相似度分析是当前研究该任务的主流思路。针对传统的MatchPyramid模型对文本特征提取的不足之处进行改进,提出了基于增强MatchPyramid模型进行文本相似度分析的方法。该方法在输入编码层加入多头自注意力机制和互注意力机制,同时对双注意力机制的输入词向量使用自编码器做降维处理,以降低模型的计算量。接着将双注意力机制的输出与原始词向量相连接,提升了词向量对文本关键信息的表征能力。最后将两个文本的词向量矩阵点积形成的单通道图映射到多个特征子空间形成了多通道图,使用密集连接的卷积神经网络对多通道图进行特征提取。实验结果表明,相比于传统的MatchPyramid模型,所提出的模型准确率提升了1.59个百分点,F1值提升了2.49个百分点。  相似文献   

16.
采用多尺度注意力机制的远程监督关系抽取   总被引:1,自引:0,他引:1  
针对目前大多数关系抽取模型中局部特征及全局特征利用不充分的缺点,该文提出一种采用多尺度注意力机制的远程监督关系抽取模型。在词语层面,通过在池化层构建权重矩阵来衡量词语与关系的相关程度,从而捕捉句子中重要的语义特征;在句子层面,采用注意力机制将预测关系与句子进行相关性比较,获得句子级别的重要信息。模型在NYT数据集上平均准确率达到78%,表明该模型能够有效地利用多尺度特征,并且提高远程关系抽取任务的准确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号