首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 187 毫秒
1.
实体关系抽取是构建知识图谱的关键步骤,其目的是抽取文本中的关系三元组。针对现有中文实体关系联合抽取模型无法有效抽取重叠关系三元组及提取性能不足的问题,该文提出了RoBERTa-Effg-Adv的实体关系联合抽取模型,其编码端采用RoBERTa-wwm-ext预训练模型对输入数据进行编码,并采用Efficient GlobalPointer模型来处理嵌套和非嵌套命名实体识别,将实体关系三元组拆分成五元组进行实体关系联合抽取。再结合对抗训练,提升模型的鲁棒性。为了获得机器可读的语料库,对相关文本书籍进行扫描,并进行光学字符识别,再通过人工标注数据的方式,形成该研究所需要的关系抽取数据集REDQTTM,该数据集包含18种实体类型和11种关系类型。实验结果验证了该方法在瞿昙寺壁画领域的中文实体关系联合抽取任务的有效性,在REDQTTM测试集上的精确率达到了94.0%,召回率达到了90.7%,F1值达到了92.3%,相比GPLinker模型,在精确率、召回率和F1值上分别提高了2.4百分点、0.9百分点、1.6百分点。  相似文献   

2.
构建地质领域的知识图谱有助于便捷高效地共享和应用多源地质知识,而地质关系三元组抽取对地质领域知识图谱构建具有重要意义。针对现有实体关系联合抽取模型无法有效识别重叠三元组的问题,考虑地质领域专业知识的特殊性,基于预训练语言模型BERT建立一种用于地质领域关系三元组抽取的层级标注模型HtERT。采用中文预训练语言模型BERT-wwm替代原始的BERT模型作为底层编码器,以提高模型对中文的编码能力。在实体识别阶段,引入关于实体起始位置的嵌入表示来限制实体的抽取长度,从而提升实体识别的准确度。引入全局上下文信息和BiLSTM网络使得模型抽取到的特征能更精确地表示地质样本信息,增强模型对地质关系三元组以及重叠三元组的抽取能力。在地质领域数据集上的实验结果表明,HtERT模型相比于PCNN、BiLSTM、PCNN+ATT、CASREL等基线模型具有明显优势,精确率、召回率以及F1值分别平均提升15.24、10.96和13.20个百分点,验证了该模型在地质领域实体关系联合抽取任务中的有效性。  相似文献   

3.
基于CWHC-AM的实体及关系联合抽取方法   总被引:1,自引:0,他引:1  
实体及关系抽取是从非结构化自然语言文本中抽取三元组。传统流水线的方法先抽取实体再抽取关系,容易造成误差传播,也忽略了两个子任务的内在联系和依赖关系,抽取多元关系及重叠关系效果较差。针对上述问题,该文首先将多元关系问题转换成多个二元关系问题进行抽取,充分考虑两个子任务之间的联系,提出一种基于CWHC-AM(character word hybrid coding and attention mechanism)的实体及关系联合抽取模型,采用多层指针网络标注方案,将实体及关系联合抽取任务转化为序列标注问题,实现重叠关系抽取。最后,引入对抗训练提高模型的鲁棒性。在百度DuIE 2.0中文数据集上进行实验,结果表明该文方法可有效地同时抽取多元关系及二元关系,取得比基线模型都要好的效果。  相似文献   

4.
从非结构化文本中联合提取实体和关系是信息抽取中的一项重要任务。现有方法取得了可观的性能,但仍受到一些固有的限制,如错误传播、预测存在冗余性、无法解决关系重叠问题等。为此,提出一种基于图神经网络的联合实体关系抽取模型BSGB(BiLSTM+SDA-GAT+BiGCN)。BSGB分为两个阶段:第一阶段将语义依存分析扩展到语义依存图,提出融合语义依存图的图注意力网络(SDA-GAT),通过堆叠BiLSTM和SDA-GAT提取句子序列和局部依赖特征,并进行实体跨度检测和初步的关系预测;第二阶段构建关系加权GCN,进一步建模实体和关系的交互,完成最终的实体关系三元组抽取。在NYT数据集上的实验结果表明,该模型F1值达到了67.1%,对比在该数据集的基线模型提高了5.2%,对重叠关系的预测也有大幅改善。  相似文献   

5.
为进一步提高实体关系抽取的效果,对传统标注方案进行改进,构建一个融合预训练模型和神经网络的联合抽取模型。利用RoBERTa(robustly optimized BERT approach)和Bi-LSTM(bi-directional long short-term memory)对文本进行编码,对上下文信息进行建模后,通过CRF(conditional random fields)识别实体,利用LSTM(long short term memory)进行关系分类。在中文数据集DuIE上进行消融实验和对比实验,此模型的F1指标达到77.1%,精确率高达78.3%,两项指标比当前主流模型FETI分别提高了1.3%和2.6%,实验结果验证了该模型的优势。  相似文献   

6.
针对基于特征向量的实体关系抽取方法中特征向量一般构造方法存在的不足,提出了基于互信息的实体对特征向量构造方法.该方法引入词和实体关系类别之间的互信息作为一个句子中实体对左右两边上下文特征提取的判断标准,并对实体关系类别特征词条进行编码,在此基础上再对实体对左右两边的上下文信息进行编码.这样做压缩了实体对上下文信息编码的维数,突出了实体关系各类别特性.实验结果表明本文的实体关系特征向量构造方法提高了中文实体关系抽取的准确率和召回率.  相似文献   

7.
针对旅游信息呈现出散乱、无序和关联性不强的问题,提出一种融合BERT-WWM(BERT with whole word masking)和指针网络的实体关系联合抽取模型构建旅游知识图谱。借助BERT-WWM预训练语言模型从爬取的旅游评论中获得含有先验语义知识的句子编码。针对传统的实体关系抽取方法存在错误传播、实体冗余、交互缺失等问题,以及旅游评论中的实体关系存在一词多义、关系重叠等特征,提出直接对三元组建模,利用句子编码抽取头实体,根据关系类别抽取尾实体,并建立级联结构和指针网络解码输出三元组。基于Neo4j图数据库存储三元组构建旅游知识图谱。实验在建立的旅游数据集上进行,融合BERT-WWM与指针网络的实体关系联合抽取模型的准确率、召回率和F1值分别为93.42%、86.59%和89.88%,与现有模型相比三项指标均显示出优越性,验证了该方法进行实体关系联合抽取的有效性。构建的旅游知识图谱实现了旅游景区信息的整合与存储,对进一步促进旅游业发展具有一定的实际参考意义。  相似文献   

8.
从文本信息中抽取关系三元组是构建知识图谱的关键任务,近年来受到工业界和学术界的广泛关注。针对旅游领域信息抽取过程中出现的实体嵌套和关系重叠问题,提出了一种基于双仿射注意力机制的实体关系联合抽取模型BAMRel,该模型通过共享编码层参数利用双仿射注意力机制在实体识别部分和关系抽取部分构建分类矩阵,并在关系抽取部分融合实体类型信息,提升关系抽取效果的同时增加了两个任务之间的交互。此外,通过远程监督和人工校验构建了旅游领域关系抽取数据集TFRED,BAMRel模型在此数据集上F1值达到了91.8%,有效地解决了实体嵌套和关系重叠问题。为了验证模型的鲁棒性,在百度DuIE数据集上与主流联合抽取模型进行了对比实验,BAMRel模型取得了最高的F1值80.2%。  相似文献   

9.
命名实体识别和关系抽取是自然语言处理和知识图谱构建中两个十分重要的子任务。针对关系抽取过程中容易出现的错误传递和实体共享的缺陷,提出了一种融合自注意力机制的实体关系抽取级联标记框架Att-CasRel,不仅解决了级联错误,还能够解决同一个句子中多个关系三元组共享相同实体的问题。在Bert模型的基础上,使用CMeIE数据集的文本进行再训练得到适用于中文医疗领域的CB-Bert,并在尾实体识别阶段融入自注意力机制来增强头实体编码向量的特征表达,提高了模型的特征提取能力。在CMeIE数据集上的实验结果表明,该标记框架相较于独立抽取的模型以及其他联合抽取模型取得了更好的效果。  相似文献   

10.
陈佳沣  滕冲 《计算机应用》2019,39(7):1918-1924
针对现有的基于远程监督的实体和关系抽取方法存在着标签噪声问题,提出了一种基于强化学习的实体关系联合抽取方法。该模型有两个模块:句子选择器模块和实体关系联合抽取模块。首先,句子选择器模块选择没有标签噪声的高质量句子,将所选句子输入到实体关系联合抽取模型;然后,实体关系联合抽取模块采用序列标注方法对输入的句子进行预测,并向句子选择器模块提供反馈,指导句子选择器模块挑选高质量的句子;最后,句子选择器模块和实体关系联合抽取模块同时训练,将句子选择与序列标注一起优化。实验结果表明,该模型在实体关系联合抽取中的F1值为47.3%,与CoType为代表的联合抽取模型相比,所提模型的F1值提升了1%;与LINE为代表的串行模型相比,所提模型的F1值提升了14%。结果表明强化学习结合实体关系联合抽取模型能够有效地提高序列标注模型的F1值,其中句子选择器能有效地处理数据的噪声。  相似文献   

11.
针对实体关系抽取任务中的三元组重叠问题,基于编码器-解码器结构的联合抽取方法能够通过序列生成的方式加以解决。但现有方法没有充分利用实体类别信息,而实体类别信息对于构建更丰富的语义特征并进一步优化关系模型的效果具有重要意义。在使用编码器-解码器结构的基础上,融合实体类别信息构建实体关系联合抽取模型FETI。编码器采用经典Bi-LSTM结构,解码器采用树状解码替代传统的一维线性解码。同时,在解码阶段增加头尾实体类别的预测,并通过辅助损失函数进行约束,使模型能够更有效地利用实体类别信息。在百度公开的中文数据集DuIE上进行实验,结果表明,FETI的F1值达到0.758,相对于CopyMTL、WDec、MHS、Seq2UMTree模型提升了2.02%~9.86%,验证了融合实体类别信息对于提升实体关系抽取模型性能的有效性。此外,基于不同解码顺序和不同权重损失函数的实验结果表明,解码顺序对模型性能影响较大,而对主要任务的损失函数赋予较高权重,能够保证辅助任务为主要任务提供有效的背景知识,同时限制噪声的影响。  相似文献   

12.
远程监督关系抽取方法能够大幅减少标注成本,但现有方法忽略了关系间的关联信息和实体背景知识。结合实体描述信息提出一种新的跨句包关系抽取方法。引入分段卷积神经网络进行句编码,解决特征提取的误差传播问题。同时设计跨关系跨句包注意力机制获取关系特征,更好地从远程监督的噪声数据中鉴别有效实例,从而充分利用关系之间丰富的相关信息并降低噪音句子的影响。在此基础上,利用卷积神经网络提取实体描述信息,补充关系抽取任务所需的背景知识,为跨关系跨句包注意力模块提供更好的实体表示。在NYT公共数据集上的实验结果表明,该方法在句子层面抽取任务上的F1值较结合句注意力与实体描述信息的分段卷积方法提高了4%左右,能够有效改善远程监督关系抽取效果。  相似文献   

13.
针对中文关系抽取中分词时引起的边界切分出错而造成的歧义问题,以及出现实体对重叠不能提取出所涉及的多个关系问题,提出一种基于字词混合的联合抽取方法.首先,对于分词边界问题,嵌入层在词向量的基础上结合字向量,并且增加位置信息来保证字与字之间的正确顺序.其次,模型引入混合扩张卷积网络进行不同粒度、更远距离的特征提取.最后,采用分层标注方法,通过得到的主实体信息标记对应的关系和客实体,每个主实体可对应多个关系和客实体.与其他关系抽取方法在相同中文数据集上进行实验对比,实验结果表明,该方法的抽取效果最佳,并且也表现出更好的稳定性.  相似文献   

14.
视频人物关系抽取是信息抽取问题中的重要任务,在视频描述、视频检索,以及人物搜索、公安监察等方面具有重要价值。由于视频数据的底层像素与高层关系语义之间存在巨大的鸿沟,现有方法很难准确地抽取人物关系。现有研究大多通过粗粒度地分析人物共现等因素来抽取人物关系,忽略了具有丰富语义的视频中的细粒度信息。为解决现有算法难以准确、完整地抽取视频人物关系的问题,文中提出了一种基于多特征融合的细粒度视频人物关系抽取方法。首先,为了准确识别视频人物实体,提出了一种基于多特征融合的人物实体识别模型;然后,提出了一种基于细粒度特征的人物关系识别模型,该模型不仅融合了视频中人物的时空特征,而且考虑了与人物相关的细粒度物体信息特征,从而建立更好的映射关系来准确识别人物关系。以电影视频数据和SRIV人物关系识别数据集为实验数据,实验结果验证了该模型的有效性和准确性,与现有同类模型相比,所提模型的人物实体识别F 1值提高了约14.4%,人物关系识别的准确率提高了约10.1%。  相似文献   

15.
实体对齐旨在发现并链接不同知识图谱中指向现实世界的相同实体对象.针对基于图卷积网络的实体对齐通常作用于单一关系类型的无向图,容易导致对应实体学习的嵌入结果不一致问题,构建了一种基于双向图卷积网络和变异系数法的实体对齐模型.该模型通过拆分非对称邻接权重矩阵构建双向图卷积网络方法,学习实体前后向隐藏特征,实现实体的完整表示;同时通过变异系数法为属性加权,选择最有代表性的实体局部语义信息,有效提高实体对齐精确度.通过在两组大型真实异构数据集上对模型进行验证,实验结果表明,该方法与现有基于嵌入的实体对齐方法相比Hit@1值平均提高了4%,同时保持较高的平均倒数秩,在一定程度上可以提高实体对齐效果.  相似文献   

16.
基于编码器-解码器的实体关系联合抽取模型解决了流水线模型存在的误差传递问题,但是以往基于编码器-解码器的模型还是存在两点问题:一是在解码阶段同时生成实体和关系,而两者是不同的对象,使得同一语义空间的映射降低了抽取效果;二是没有考虑不同关系之间的交互信息.针对这两点问题,提出了关系自适应解码模型.所提模型将实体关系联合抽...  相似文献   

17.
在信息抽取领域,从非结构化文本中抽取实体关系是一项基础且重要的任务,且面临实体重叠和模型误差累积等挑战.本文以关系为导向,提出一种改进的实体关系联合抽取方法.该方法将实体关系抽取任务分为关系抽取与实体抽取两个子任务.在关系抽取任务上采用自注意力机制关注词与词之间的重要程度从而模拟实体信息,并使用平均池化来表征整个句子信息;在实体抽取任务上结合关系信息使用条件随机场识别该关系下的实体对.本模型不仅能够利用存在关系必定存在实体对的思想解决实体对重叠问题,还能够在训练过程中利用数据集中已知的关系使实体抽取模块不依赖于关系抽取模块的结果来训练,从而在训练阶段避免误差累积.最后,在WebNLG和NYT公开数据集上验证了该模型的有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号