首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 203 毫秒
1.
刘雅璇  钟勇 《计算机应用》2021,41(9):2517-2522
实体关系抽取是构建大规模知识图谱及各种信息抽取任务的关键步骤。基于预训练语言模型,提出基于头实体注意力的实体关系联合抽取方法。该方法采用卷积神经网络(CNN)提取头实体关键信息,并采用注意力机制捕获头实体与尾实体之间的依赖关系,构建了基于头实体注意力的联合抽取模型(JSA)。在公共数据集纽约时报语料库(NYT)和采用远程监督方法构建的人工智能领域数据集上进行实验,所提模型的F1值相较于级联二元标记框架(CasRel)分别获得了1.8和8.9个百分点的提升。  相似文献   

2.
命名实体识别和关系抽取是自然语言处理和知识图谱构建中两个十分重要的子任务。针对关系抽取过程中容易出现的错误传递和实体共享的缺陷,提出了一种融合自注意力机制的实体关系抽取级联标记框架Att-CasRel,不仅解决了级联错误,还能够解决同一个句子中多个关系三元组共享相同实体的问题。在Bert模型的基础上,使用CMeIE数据集的文本进行再训练得到适用于中文医疗领域的CB-Bert,并在尾实体识别阶段融入自注意力机制来增强头实体编码向量的特征表达,提高了模型的特征提取能力。在CMeIE数据集上的实验结果表明,该标记框架相较于独立抽取的模型以及其他联合抽取模型取得了更好的效果。  相似文献   

3.
远程监督关系抽取可以在非人工标注条件下自动构建数据集,但同时会产生错误标注。针对错误标注问题,提出一种基于实体注意力和负训练的远程监督噪声过滤方法。首先使用BERT预训练语言模型或双向长短期记忆(BiLSTM)神经网络提取句子和实体的特征,然后通过计算实体和句子中每个词之间的相关性,作为头实体和尾实体的注意力权重,接着使用负训练的方式准确捕获噪声数据的关键特征,最后通过基于预测值的动态阈值函数过滤噪声数据,并根据样本的最大预测值对过滤出的噪声数据重新进行正确标注。在人工智能领域数据集上进行实验:所提方法在使用BERT预训练语言模型提取句子和实体特征时,相比SENTBERT,F1值获得了2.23个百分点的提升;当使用BiLSTM提取句子和实体特征时,相比SENTBiLSTM,F1值获得了2.53个百分点的提升。实验结果验证了所提方法能更有效地过滤远程监督产生的噪声数据。  相似文献   

4.
针对旅游信息呈现出散乱、无序和关联性不强的问题,提出一种融合BERT-WWM(BERT with whole word masking)和指针网络的实体关系联合抽取模型构建旅游知识图谱。借助BERT-WWM预训练语言模型从爬取的旅游评论中获得含有先验语义知识的句子编码。针对传统的实体关系抽取方法存在错误传播、实体冗余、交互缺失等问题,以及旅游评论中的实体关系存在一词多义、关系重叠等特征,提出直接对三元组建模,利用句子编码抽取头实体,根据关系类别抽取尾实体,并建立级联结构和指针网络解码输出三元组。基于Neo4j图数据库存储三元组构建旅游知识图谱。实验在建立的旅游数据集上进行,融合BERT-WWM与指针网络的实体关系联合抽取模型的准确率、召回率和F1值分别为93.42%、86.59%和89.88%,与现有模型相比三项指标均显示出优越性,验证了该方法进行实体关系联合抽取的有效性。构建的旅游知识图谱实现了旅游景区信息的整合与存储,对进一步促进旅游业发展具有一定的实际参考意义。  相似文献   

5.
实体关系联合抽取是信息抽取的一项重要任务。由于传统的实体关系联合抽取方法把实体之间的关系建模为离散类型,因此不能很好地解决重叠三元组的问题。为了解决难以抽取重叠三元组的问题,本文提出一种融合FGM和指针标注的实体关系联合抽取BERT-FGM模型。该模型将实体之间的关系建模为函数,通过在BERT训练词向量的过程中融入FGM提高模型的鲁棒性。模型首先通过指针标注策略抽取头实体,然后将头实体与句子向量进行融合作为一个新向量,最终将其在预定义的关系条件下抽取头实体对应的尾实体。实验使用的是公开数据集WebNLG,实验结果表明该模型F1值达到90.7%,有效地解决了三元组重叠问题。  相似文献   

6.
命名实体识别和关系抽取是自然语言处理领域的两个重要基本问题.联合抽取方法被提出用于解决传统解决管道抽取方法中存在的一些问题.为了充分融合头实体和句子的语义信息,同时解决可能存在的重叠三元组问题,论文提出了一种新的实体关系联合抽取方法,主要通过序列标注的方式抽取实体关系.该方法主要使用条件层归一化(Condi-tional Layer Normalization)进行信息融合.同时,该方法还赋予了待抽取的头实体和尾实体不同的语义编码.实验结果表明,该方法在使用预训练的BERT预处理编码器的情况下,在NYT和WebNLG数据集上有很好的表现.  相似文献   

7.
实体关系抽取是构建知识图谱的主要任务之一,旨在确定句子中实体之间的关系类别.远程监督关系抽取方法通过将远程知识库与文本数据对齐来自动标记数据,已成为处理关系抽取任务的主要方式.为解决远程关系抽取不能充分利用单词之间的位置关系信息,并且没有考虑重叠关系之间语义相关性的问题,本文提出一种融合位置特征注意力和关系增强机制的远程监督关系抽取模型.该模型使用基于高斯算法的位置特征注意力机制重新分配句子中单词的权重,并且采用分段卷积神经网络和词级注意力来捕获句子特征.然后,利用基于自注意力的关系增强机制来捕获重叠关系之间的语义关联.在NYT10公共数据集上的实验结果表明,本文模型的性能优于所比较的基线关系抽取模型.  相似文献   

8.
实体关系抽取是实现海量文本数据知识化、自动构建大规模知识图谱的关键技术。考虑到头尾实体信息对关系抽取有重要影响,该文采用注意力机制将实体对信息融合到关系抽取过程中,提出了基于实体对注意力机制的实体关系联合抽取模型(EPSA)。首先,使用双向长短时记忆网络(Bi-LSTM)结合条件随机场(CRF)完成实体的识别;其次,将抽取的实体配对,信息融合成统一的嵌入式表示形式,用于计算句子中各词的注意力值;然后,使用基于实体对注意力机制的句子编码模块得到句子表示,再利用显式融合实体对的信息得到增强型句子表示;最后,通过分类方式完成实体关系的抽取。在公开数据集NYT和WebNLG上对提出的EPSA模型进行评估,实现结果表明,与目前主流联合抽取模型相比,EPSA模型在F1值上均得到提升,分别达到84.5%和88.5%,并解决了单一实体重叠问题。  相似文献   

9.
基于远程监督的关系抽取方法可以明显地减少人工标注数据集的成本,已经被广泛应用于领域知识图谱的构建任务中.然而,现有的远程监督关系抽取方法领域针对性不强,同时也忽略了对领域实体特征信息的利用.为了解决上述问题,提出了一种融合实体特征和多种类注意力机制的关系抽取模型PCNN-EFMA.模型采用远程监督和多实例技术,不再受限于人工标注.同时,为了减少远程监督中噪声的影响,模型使用了句子注意力和包间注意力这两类注意力,并在词嵌入层和句子注意力中融合实体特征信息,增强了模型的特征选择能力.实验表明,该模型在领域数据集上的PR曲线更好,并在P@N上的平均准确率优于PCNN-ATT模型.  相似文献   

10.
关系抽取任务是对句子中的实体对进行关系分类。基于远程监督的关系抽取是用预先构建的知识库来对齐朴素文本,自动标注数据,在一定程度上减少了人工标注的成本,缓解了藏文材料语料不足的问题。但是基于远程监督的实体关系抽取还存在错误标记、提取特征时出现噪声等问题。该文用远程监督方法进行藏文实体关系抽取,基于已经构建的藏文知识库,利用分段卷积神经网络结构,加入语言模型和注意力机制来改善语义歧义问题以及学习句子的信息;在训练过程中加入联合得分函数来动态修正错误标签问题。实验结果表明改进的模型有效提高了藏文实体关系抽取的准确率,且优于基线模型效果。  相似文献   

11.
陈佳沣  滕冲 《计算机应用》2019,39(7):1918-1924
针对现有的基于远程监督的实体和关系抽取方法存在着标签噪声问题,提出了一种基于强化学习的实体关系联合抽取方法。该模型有两个模块:句子选择器模块和实体关系联合抽取模块。首先,句子选择器模块选择没有标签噪声的高质量句子,将所选句子输入到实体关系联合抽取模型;然后,实体关系联合抽取模块采用序列标注方法对输入的句子进行预测,并向句子选择器模块提供反馈,指导句子选择器模块挑选高质量的句子;最后,句子选择器模块和实体关系联合抽取模块同时训练,将句子选择与序列标注一起优化。实验结果表明,该模型在实体关系联合抽取中的F1值为47.3%,与CoType为代表的联合抽取模型相比,所提模型的F1值提升了1%;与LINE为代表的串行模型相比,所提模型的F1值提升了14%。结果表明强化学习结合实体关系联合抽取模型能够有效地提高序列标注模型的F1值,其中句子选择器能有效地处理数据的噪声。  相似文献   

12.
姚博文  曾碧卿  蔡剑  丁美荣 《计算机应用》2021,41(12):3637-3644
关系抽取任务旨在从文本中抽取实体对之间的关系,是当前自然语言处理(NLP)领域的热门方向之一。针对中文人物关系抽取语料中语法结构复杂,无法有效学习文本语义特征的问题,提出一个基于预训练和多层次信息的中文人物关系抽取模型(CCREPMI)。该模型首先利用预训练模型较强的语义表征能力生成词向量,并将原始句子分成句子层次、实体层次和实体邻近层次分别进行特征提取,最终融合句子结构特征、实体含义以及实体与邻近词的依赖关系等信息进行关系分类预测。在中文人物关系数据集上的实验结果表明,该模型的精度达到81.5%,召回率达到82.3%,F1值达到81.9%,相比BERT和BERT-LSTM等基线模型有所提升。此外,该模型在SemEval2010-task8英文数据集上的F1值也达到了81.2%,表明它对英文语料具有一定的泛化能力。  相似文献   

13.
从文本信息中抽取关系三元组是构建知识图谱的关键任务,近年来受到工业界和学术界的广泛关注。针对旅游领域信息抽取过程中出现的实体嵌套和关系重叠问题,提出了一种基于双仿射注意力机制的实体关系联合抽取模型BAMRel,该模型通过共享编码层参数利用双仿射注意力机制在实体识别部分和关系抽取部分构建分类矩阵,并在关系抽取部分融合实体类型信息,提升关系抽取效果的同时增加了两个任务之间的交互。此外,通过远程监督和人工校验构建了旅游领域关系抽取数据集TFRED,BAMRel模型在此数据集上F1值达到了91.8%,有效地解决了实体嵌套和关系重叠问题。为了验证模型的鲁棒性,在百度DuIE数据集上与主流联合抽取模型进行了对比实验,BAMRel模型取得了最高的F1值80.2%。  相似文献   

14.
在信息抽取领域,从非结构化文本中抽取实体关系是一项基础且重要的任务,且面临实体重叠和模型误差累积等挑战.本文以关系为导向,提出一种改进的实体关系联合抽取方法.该方法将实体关系抽取任务分为关系抽取与实体抽取两个子任务.在关系抽取任务上采用自注意力机制关注词与词之间的重要程度从而模拟实体信息,并使用平均池化来表征整个句子信息;在实体抽取任务上结合关系信息使用条件随机场识别该关系下的实体对.本模型不仅能够利用存在关系必定存在实体对的思想解决实体对重叠问题,还能够在训练过程中利用数据集中已知的关系使实体抽取模块不依赖于关系抽取模块的结果来训练,从而在训练阶段避免误差累积.最后,在WebNLG和NYT公开数据集上验证了该模型的有效性.  相似文献   

15.
拓雨欣  薛涛 《计算机应用》2023,(7):2116-2124
针对自然语言文本中实体重叠情况复杂、多个关系三元组提取困难的问题,提出一种融合指针网络与关系嵌入的三元组联合抽取模型。首先利用BERT(Bidirectional Encoder Representations from Transformers)预训练模型对输入句子进行编码表示;然后利用首尾指针标注抽取句子中的所有主体,并采用主体和关系引导的注意力机制来区分不同关系标签对每个单词的重要程度,从而将关系标签信息加入句子嵌入中;最后针对主体及每一种关系利用指针标注和级联结构抽取出相应的客体,并生成关系三元组。在纽约时报(NYT)和网络自然文本生成(WebNLG)两个数据集上进行了大量实验,结果表明,所提模型相较于目前最优的级联二元标记框架(CasRel)模型,整体性能分别提升了1.9和0.7个百分点;与基于跨度的提取标记方法(ETL-Span)模型相比,在含有1~5个三元组的对比实验中分别取得了大于6.0%和大于3.7%的性能提升,特别是在含有5个以上三元组的复杂句子中,所提模型的F1值分别提升了8.5和1.3个百分点,且在捕获更多实体对的同时能够保持稳定的提取能力,进一步验证了该模型在...  相似文献   

16.
关系抽取任务是要在实体识别的基础上确定无结构文本中实体对间的关系类别,即判断实体间的关系.针对目前中文关系抽取精度不足以及静态词向量无法很好地解读文本的问题,本文提出一种融合ERNIE预训练模型和注意力机制的TEXTCNN中文关系抽取模型.ERNIE词向量针对中文的特点以词组为单位做掩盖进行模型训练,实现了对中文文本更好的语义表达,再通过TEXTCNN模型对输入数据进行特征提取,融合注意力机制聚焦于影响最终结果的关键特征,从而实现特征优化提取.本文在百度发布的SKE数据集上进行实验,重点探索ERNIE模型结合注意力机制对中文文本的特征表达效果,结果表明本文模型可以更好地学习中文文本中的特征并用于关系抽取,有效提高关系抽取任务的准确率.  相似文献   

17.
关系抽取作为信息抽取领域的重要研究课题, 其主要目的是抽取句子中已标记实体对之间的语义关系, 对句子语义理解及知识库构建有着重要作用. 针对现有抽取方法中未能充分利用单词位置信息和实体间的交互信息导致重要特征丢失的问题, 本工作提出一种基于位置编码与实体交互信息的关系抽取方法(BPI-BERT). 首先将新型位置编码融入BERT预训练语言模型生成的词向量中后使用平均池化技术得到实体和句子向量, 再利用哈达玛乘积构造实体交互信息, 最后将实体向量、句子向量及交互信息向量拼接得到关系向量并输入到Softmax分类器进行关系分类. 实验结果表明BPI-BERT在精准率和 F1上较现有方法有提高, 证明了BPI-BERT的有效性.  相似文献   

18.
关系抽取是构建知识图谱的基础,而中文关系抽取也是关系抽取中的难点问题,现有的中文关系抽取大多采用基于字符特征或者词特征的方法,但是前者无法捕获字符上下文的信息而后者受制于分词质量,导致中文关系抽取的性能较低。针对该问题,提出了基于多层次语义感知的中文关系抽取模型,该模型利用实体间丰富的语义信息来提高实体对关系预测的性能。多层次语义感知体现在以下三个方面:首先,利用ERNIE预训练语言模型将文本信息转化为动态词向量;然后,利用注意力机制增强实体所在句子的语义表示,同时通过外部知识尽可能地消除实体词的中文歧义;最后,将包含多层语义感知的句子表示放入到分类中进行预测。实验结果表明,所提模型在中文关系抽取的性能上优于已有模型,且更具解释性。  相似文献   

19.
实体关系三元组的抽取效果直接影响后期知识图谱构建的质量,而传统流水线式和联合式抽取的模型,并没有对句子级别和关系级别的语义特征进行有效建模,从而导致模型性能的缺失。为此,提出一种融合句子级别和关系级别的交互注意力网络的实体和关系联合抽取模型RSIAN,该模型通过交互注意力网络来学习句子级别和关系级别的高阶语义关联,增强句子和关系之间的交互,辅助模型进行抽取决策。在构建的中文旅游数据集(TDDS)的Precision、Recall和F1值分别为0.872、0.760和0.812,其性能均优于其他对比模型;为了进一步验证该模型在英文联合抽取上的性能,在公开英文数据集NYT和Webnlg上进行实验,该模型的F1值相比基线模型RSAN模型分别提高了0.014和0.013,并且该模型在重叠三元组的分析实验也均取得了优于基线模型的性能且更稳定。  相似文献   

20.
三元组抽取是知识学习、图谱构建的基础性工作。针对当前任务模型多存在实体识别与关系抽取语义关联不强、实体嵌套、关系重叠,以及既有概念知识关注不多等问题,融合形式化概念与神经网络模型,提出一种基于关系形式化概念的端到端三元组抽取方法。提出关系形式化概念标签,以统一实体与关系的语义表达,把实体识别问题转换为概念标签学习问题;将实体输入到关系形式化概念注意力模型,该注意力机制力图捕获关系主客体概念的连通内涵特征,即训练获得每个关系标签对应的主客体及它们上下文依存谓词的综合特征;通过多个关系分类器输出每对主客体的多关系标签,实现基于概念连通的多关系抽取;另外模型还可引入既有形式化概念的外延、内涵,以改善模型对语料标签的依赖,以及实体嵌套导致的标记难题。实验基于两份数据集,采用三种评价指标对模型性能进行评价分析。实验结果证明提出的模型在知识抽取上具有切实可行的效果,可改善实体嵌入、关系重叠问题。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号