首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
随着互联网技术不断地发展,数据信息呈爆炸性增长,迫切需要从海量数据中高效地提取关键信息,而实体关系抽取作为信息抽取的核心任务,发挥着不可替代的重要作用。现有基于深度学习的实体关系抽取方法存在误差累积、实体冗余、交互缺失、实体关系重叠等问题。为充分利用语句的语义信息和句法信息,提出一种加强语义信息与句法信息的二元标记实体关系联合抽取模型SSERel。通过对输入文本进行BERT编码,并对三元组主体的开始位置和结束位置进行预测标记,提取文本的全局语义特征、主体与每个词语的局部语义特征以及句法特征,并将其融合进编码向量。对语句每种关系的客体位置进行预测标记,最终完成三元组的提取。在NYT和WebNLG数据集上的实验结果表明,相比CasRel模型,该模型的F1值分别提升2.7和1.4个百分点,能够有效解决复杂数据中存在的重叠三元组和多三元组等问题。  相似文献   

2.
从非结构化文本中联合提取实体和关系是信息抽取中的一项重要任务。现有方法取得了可观的性能,但仍受到一些固有的限制,如错误传播、预测存在冗余性、无法解决关系重叠问题等。为此,提出一种基于图神经网络的联合实体关系抽取模型BSGB(BiLSTM+SDA-GAT+BiGCN)。BSGB分为两个阶段:第一阶段将语义依存分析扩展到语义依存图,提出融合语义依存图的图注意力网络(SDA-GAT),通过堆叠BiLSTM和SDA-GAT提取句子序列和局部依赖特征,并进行实体跨度检测和初步的关系预测;第二阶段构建关系加权GCN,进一步建模实体和关系的交互,完成最终的实体关系三元组抽取。在NYT数据集上的实验结果表明,该模型F1值达到了67.1%,对比在该数据集的基线模型提高了5.2%,对重叠关系的预测也有大幅改善。  相似文献   

3.
实体关系抽取旨在从无结构的文档中检测出实体和实体对的关系,是构建领域知识图谱的重要步骤。针对现有抽取模型语义表达能力差、重叠三元组抽取准确率低的情况,研究了融合预训练模型和注意力的实体关系联合抽取问题,将实体关系抽取任务分解为两个标记模块。头实体标记模块采用预训练模型对句子进行编码,为了进一步学习句子的内在特征,利用双向长短时记忆网络(BiLSTM)和自注意力机制组成特征加强层。采用二进制分类器作为模型的解码器,标记出头实体在句子中的起止位置。为了加深两个标记模块之间的联系,在尾实体标记任务前设置特征融合层,将头实体特征与句子向量通过卷积神经网络(CNN)和注意力机制进行特征融合,通过多个相同且独立的二进制分类器判定实体间关系并标记尾实体,构建出融合预训练模型和注意力的联合抽取模型(JPEA)。实验结果表明,该方法能显著提升抽取的效果,对比不同预训练模型下抽取任务的性能,进一步说明了模型的优越性。  相似文献   

4.
现有实体关系联合抽取方法中,主体抽取与客体和关系抽取任务的交互不足或方法单一,对关系三元组内部潜在的位置及上下文语义关系利用不足.为此,提出了一种融合实体位置及上下文注意力的信息聚合器(Position and Attention based Booster, PATB)用于级联式实体关系联合抽取.首先抽取主体,再融合主体位置更新主体的表示,融合主体与上下文的注意力更新文本的表示,将更新的主体及文本表示进一步用于客体及关系抽取.模型在公共数据集NYT和WebNLG上的F1值分别为90.9%、92.5%,较基线模型分别提升1.3%和0.7%;在3种不同关系模式的测试数据Normal、EPO及SEO中,NYT上的F1值分别为88.9%、93.2%和92.6%,均优于基线模型;在含1~5个三元组的对比实验中的F1值也均优于基线模型,表明融合位置及上下文语义的PATB不仅可提升三元组抽取性能,且能在有复杂重叠关系、多个三元组情况下保持稳定的提取性能.  相似文献   

5.
关系抽取是自然语言处理和知识图谱构建的一项关键任务,现有小样本关系抽取方法无法有效获取和充分利用更多的文本语义信息,为此给出一个基于语义增强的多特征融合关系抽取方法(SMPC)并应用于小样本任务中。该方法构建了一个融合位置、词性和句法依存等信息的分段卷积神经网络最大化表示语义特征,并从维基百科中抽取细粒度语义信息,将其融入词嵌入,提高模型上下文共性学习。在两种场景下对不同基线方法进行实验,分别取得最高4%和10%的准确率提升,证明了该方法的有效性。  相似文献   

6.
知识图谱表示学习旨在将实体和关系映射到一个低维稠密的向量空间中。现有的大多数相关模型更注重于学习三元组的结构特征,忽略了三元组内的实体关系的语义信息特征和三元组外的实体描述信息特征,因此知识表达能力较差。针对以上问题,提出了一种融合多源信息的知识表示学习模型BAGAT。首先,结合知识图谱特征来构造三元组实体目标节点和邻居节点,并使用图注意力网络(GAT)聚合三元组结构的语义信息表示;然后,使用BERT词向量模型对实体描述信息进行嵌入表示;最后,将两种表示方法映射到同一个向量空间中进行联合知识表示学习。实验结果表明,BAGAT性能较其他模型有较大提升,在公共数据集FB15K-237链接预测任务的Hits@1与Hits@10指标上,与翻译模型TransE相比分别提升了25.9个百分点和22.0个百分点,与图神经网络模型KBGAT相比分别提升了1.8个百分点和3.5个百分点。可见,融合实体描述信息和三元组结构语义信息的多源信息表示方法可以获得更强的表示学习能力。  相似文献   

7.
基于双向语义的中文实体关系联合抽取方法   总被引:1,自引:0,他引:1  
禹克强  黄芳  吴琪  欧阳洋 《计算机工程》2023,49(1):92-99+112
现有中文实体关系抽取方法通常利用实体间的单向关系语义特征进行关系抽取,然而仅靠单向语义特征并不能完全利用实体间的语义关系,从而使得实体关系抽取的有效性受到影响。提出一种基于双向语义的中文实体关系联合抽取方法。利用RoBERTa预训练模型获取具有上下文信息的文本字向量表征,通过首尾指针标注识别句子中可能存在关系的实体。为了同时利用文本中的双向关系语义信息,将实体分别作为关系中的主体与客体来建立正负关系,并利用两组全连接神经网络构建正负关系映射器,从而对每一个输入实体同时从正关系与负关系的角度构建候选关系三元组。将候选关系三元组分别在正负关系下的概率分布序列与实体位置嵌入特征相结合,以对候选三元组进行判别,从而确定最终的关系三元组。在DuIE数据集上进行对比实验,结果表明,该方法的精确率与召回率优于MultiR、CoType等基线模型,其F1值达到0.805,相较基线模型平均提高了12.8%。  相似文献   

8.
关系抽取是自然语言中的一项重要任务,其结果对后续的信息抽取和自动问答系统有重要的影响。随着深度学习的日益火热,基于卷积神经网络的实体关系抽取已取得了不错的结果。不过词向量表示比较单一,提取的特征也有限。针对这个问题,将Word2vec训练的词向量和由自然语言处理工具得出的依存关系对分别作为模型两通道的输入向量,使用双通道卷积神经网络提取特征来实现实体关系抽取。该模型可以提取更深层的语义信息,并取得了比传统词向量更好的效果。  相似文献   

9.
隐喻是人类语言中经常出现的一种特殊现象,隐喻识别对于自然语言处理各项任务来说具有十分基础和重要的意义。针对中文领域的隐喻识别任务,该文提出了一种基于句法感知图卷积神经网络和ELECTRA的隐喻识别模型(Syntax-aware GCN with ELECTRA, SaGE)。该模型从语言学出发,使用ELECTRA和Transformer编码器抽取句子的语义特征,将句子按照依存关系组织成一张图并使用图卷积神经网络抽取其句法特征,在此基础上对两类特征进行融合以进行隐喻识别。该模型在CCL 2018中文隐喻识别评测数据集上以85.22%的宏平均F1值超越了此前的最佳成绩,验证了融合语义信息和句法信息对于隐喻识别任务具有重要作用。  相似文献   

10.
关系抽取是构建知识图谱的一项核心技术.由于中文具有复杂的语法和句式,同时现有的神经网络模型提取特征有限以及语义表征能力较差,从而影响中文实体关系抽取的性能.文章提出了一种融合多特征的BERT预训练模型的实体关系抽取算法.首先对语料进行预处理,提取关键词、实体对信息和实体类型特征并进行融合,以此来强化BERT模型的语义学习能力,极大限度地减少了语义信息特征的丢失,最后通过Softmax分类器进行关系分类.实验结果表明,文章模型优于现有的神经网络模型.在人工标注的中文数据集上本文模型取得了97.50%的F1值.  相似文献   

11.
命名实体识别和关系抽取是自然语言处理和知识图谱构建中两个十分重要的子任务。针对关系抽取过程中容易出现的错误传递和实体共享的缺陷,提出了一种融合自注意力机制的实体关系抽取级联标记框架Att-CasRel,不仅解决了级联错误,还能够解决同一个句子中多个关系三元组共享相同实体的问题。在Bert模型的基础上,使用CMeIE数据集的文本进行再训练得到适用于中文医疗领域的CB-Bert,并在尾实体识别阶段融入自注意力机制来增强头实体编码向量的特征表达,提高了模型的特征提取能力。在CMeIE数据集上的实验结果表明,该标记框架相较于独立抽取的模型以及其他联合抽取模型取得了更好的效果。  相似文献   

12.
实体关系抽取是构建知识图谱的主要任务之一,旨在确定句子中实体之间的关系类别.远程监督关系抽取方法通过将远程知识库与文本数据对齐来自动标记数据,已成为处理关系抽取任务的主要方式.为解决远程关系抽取不能充分利用单词之间的位置关系信息,并且没有考虑重叠关系之间语义相关性的问题,本文提出一种融合位置特征注意力和关系增强机制的远程监督关系抽取模型.该模型使用基于高斯算法的位置特征注意力机制重新分配句子中单词的权重,并且采用分段卷积神经网络和词级注意力来捕获句子特征.然后,利用基于自注意力的关系增强机制来捕获重叠关系之间的语义关联.在NYT10公共数据集上的实验结果表明,本文模型的性能优于所比较的基线关系抽取模型.  相似文献   

13.
命名实体识别作为自然语言处理中一项十分基础的任务,其目的是从一段用自然语言描述的文本中识别出相应的实体及类型。知识图谱作为以三元组形式存在的外部知识,已经在很多自然语言处理任务中得以应用并取得了良好效果。文中提出了一种基于知识图谱信息增强的注意力对齐命名实体识别方法,首先通过嵌入层和注意力机制嵌入知识图谱信息,获取知识图谱三元组信息的表示;其次通过BERT-BiLSTM获取句子的上下文表示;然后通过一种注意力对齐模块分配三元组权重融合知识图谱信息与句子信息的表示;最后通过softmax控制融合后的表示向量的预测输出,进而获取实体的标签。该方法有效避免了因知识图谱的融合而改变原句子的语义信息,同时也使得句子中的词向量具有丰富的外部知识。所提方法在中文通用数据集MSRA和医疗领域专用数据集Medicine上的F1值分别达到了95.73%和93.80%,相比基线模型提升了1.21%和1.3%。  相似文献   

14.
实体关系抽取作为自然语言处理领域的一项关键技术,在构建知识图谱、信息检索等领域有着极为重要的意义。然实体关系抽取模型普遍存在词与词之间依赖性运用不足、实体识别效果低下以及单解码带来的三元组强行执行某种不必要顺序的问题。为了解决这三个方面的问题,提升模型的性能,提出了一种新的实体关系抽取模型。该模型首先运用提取特征能力更强的BERT预训练模型获取句子表征,然后采用图卷积神经网络来增强实体与关系之间的依赖关系,再使用对实体提取能力更强的Span方法(识别实体的神经网络方法)进行实体抽取,最后采用深度多叉解码树实施并行解码得到相应的关系三元组。在CoNLL04、ADE数据集上的实验结果表明,与其他的关系抽取基线模型相比,该模型的F1值具有较好的提升,同时也验证了该文模型的有效性与泛化能力。  相似文献   

15.
远程监督关系抽取是自然语言处理领域的重要任务之一.由于识别实体关系的任务是在句子级别进行的,注意力机制分配权重可能存在误差,且现有深度学习模型常采用卷积神经网络进行最终关系分类,并不能充分利用标记实体的位置信息.本文提出了一种结合注意力及胶囊网络的多通道关系抽取模型(BG-AMC),该模型首先通过双向GRU神经网络对句子词向量进行编码以获取句子的高维语义,接着利用注意力机制辅助生成句子的多通道表示,最后采用胶囊网络进行关系分类.多通道中的每个通道在递归传播时互不影响,可以使神经网络学习到同一句子的多种表示形式,以减轻句子歧义,胶囊网络可获取到句子实体的位置信息.实验表明,BG-AMC与其他基线模型对比能够提高远程监督关系抽取的效果.  相似文献   

16.
实体-关系联合抽取指从非结构化文本中联合抽取出实体-关系三元组,是信息抽取和知识图谱构建的一项关键任务。文中提出了一种新的基于全局指针网络实体关系联合抽取方法BGPNRE(BERT-based Global Pointer Network for Named Entity-Relation Joint Extraction),首先通过潜在关系预测模块预测文本中蕴含的关系,过滤掉不可能存在的关系,将实体抽取限制在预测的关系子集中;其次通过使用基于关系的全局指针网络,获取所有主客体实体的位置;最后通过全局指针网络通信模块,将主客体位置高效率地解码对齐成一个实体关系三元组。该方法避免了传统管道式方法存在的错误传播问题,同时也解决了关系冗余、实体重叠、Span提取泛化不足等问题。实验结果表明,所提方法在多关系和重叠实体抽取上表现卓越,并且在NYT和WebNLG公共数据集上达到了最先进的水平。  相似文献   

17.
方面情感三元组提取是方面级情感分析的子任务之一,旨在提取句子中的方面词、其对应的意见词和情感极性。先前研究集中于设计一种新范式以端到端的方式完成三元组提取任务。然而,这些方法忽略外部知识在模型中的作用,没有充分挖掘和利用语义信息、词性信息以及局部上下文信息。针对上述问题,提出了多特征交互的方面情感三元组提取(MFI-ASTE)模型。首先,该模型通过BERT预训练模型学习句子中的上下文语义特征信息,并使用自注意力机制加强语义特征;其次,使语义特征与所提取到的词性特征交互,二者相互学习,加强词性的组合能力与语义信息;再次,使用多个不同窗口的卷积神经网络提取每个单词的多重局部上下文特征并使用多分门控机制筛选这些多重局部特征;然后,采用双线性层融合提取到的三类外部知识特征;最后,利用双仿射注意力机制预测网格标记并通过特定的解码方案解码三元组。实验结果表明,该模型在四个数据集上的F1值比现有的主流模型分别提升了6.83%、5.60%、0.54%和1.22%。  相似文献   

18.
知识表示学习在自然语言处理领域获得了广泛关注,尤其在实体链指、关系抽取及自动问答等任务上表现优异。然而,大部分已有的表示学习模型仅利用知识库中的结构信息,无法很好地处理新的实体或关联事实极少的实体。为解决该问题,该文提出了引入实体描述信息的联合知识表示模型。该模型先利用卷积神经网络编码实体描述,然后利用注意力机制来选择文本中的有效信息,接着又引入位置向量作为补充信息,最后利用门机制联合结构和文本的向量,形成最终的联合表示。实验表明,该文的模型在链路预测和三元组分类任务上与目前最好的模型性能相近。  相似文献   

19.
构建地质领域的知识图谱有助于便捷高效地共享和应用多源地质知识,而地质关系三元组抽取对地质领域知识图谱构建具有重要意义。针对现有实体关系联合抽取模型无法有效识别重叠三元组的问题,考虑地质领域专业知识的特殊性,基于预训练语言模型BERT建立一种用于地质领域关系三元组抽取的层级标注模型HtERT。采用中文预训练语言模型BERT-wwm替代原始的BERT模型作为底层编码器,以提高模型对中文的编码能力。在实体识别阶段,引入关于实体起始位置的嵌入表示来限制实体的抽取长度,从而提升实体识别的准确度。引入全局上下文信息和BiLSTM网络使得模型抽取到的特征能更精确地表示地质样本信息,增强模型对地质关系三元组以及重叠三元组的抽取能力。在地质领域数据集上的实验结果表明,HtERT模型相比于PCNN、BiLSTM、PCNN+ATT、CASREL等基线模型具有明显优势,精确率、召回率以及F1值分别平均提升15.24、10.96和13.20个百分点,验证了该模型在地质领域实体关系联合抽取任务中的有效性。  相似文献   

20.
三元组抽取是知识学习、图谱构建的基础性工作。针对当前任务模型多存在实体识别与关系抽取语义关联不强、实体嵌套、关系重叠,以及既有概念知识关注不多等问题,融合形式化概念与神经网络模型,提出一种基于关系形式化概念的端到端三元组抽取方法。提出关系形式化概念标签,以统一实体与关系的语义表达,把实体识别问题转换为概念标签学习问题;将实体输入到关系形式化概念注意力模型,该注意力机制力图捕获关系主客体概念的连通内涵特征,即训练获得每个关系标签对应的主客体及它们上下文依存谓词的综合特征;通过多个关系分类器输出每对主客体的多关系标签,实现基于概念连通的多关系抽取;另外模型还可引入既有形式化概念的外延、内涵,以改善模型对语料标签的依赖,以及实体嵌套导致的标记难题。实验基于两份数据集,采用三种评价指标对模型性能进行评价分析。实验结果证明提出的模型在知识抽取上具有切实可行的效果,可改善实体嵌入、关系重叠问题。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号