首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 109 毫秒
1.
实体关系联合抽取模型在实体关系抽取中具有重要作用,针对现有的实体关系联合抽取模型无法有效识别重叠关系中的实体关系三元组问题,提出一种新型的基于跨度和特征融合的实体关系联合抽取模型SFFM。将文本输入BERT预训练模型转变为词向量,根据跨度进行词向量划分形成跨度序列,并基于卷积神经网络过滤跨度序列中不包含实体的跨度序列,使用双向长短时记忆提取剩余跨度序列融合文本信息后的特征并通过Softmax回归实现实体识别,将文本中的实体和关系映射到不同的跨度序列中,当重叠关系中的实体和距离较远的实体之间存在关系时,按照跨度进行划分使可能存在关系的实体对划分到同一个跨度序列中,以更好地利用文本中的重叠关系。在此基础上,通过注意力机制获取跨度序列中的依赖关系,运用Softmax回归对跨度序列中的关系进行分类。实验结果表明,与基线模型相比,该模型在CoNLL04数据集上的微平均和宏平均分别提升了1.87和1.73个百分点,在SciERC数据集上的微平均提升了5.95个百分点。  相似文献   

2.
远程监督关系抽取作为关系抽取中常用的方法之一,其目的是通过远程监督自动构建大量数据进行文本的关系抽取,因此该项技术对降低人工标注数据成本从而提取更多文本信息有重要研究意义.针对传统的手工特征方法难以解决关系抽取的复杂语义问题,提出了大量基于深度学习的关系抽取方法,极大地推动了远程监督关系抽取的发展.为了进一步了解利用深...  相似文献   

3.

从无结构化自然语言文本中抽取实体关系三元组是构建大型知识图谱中最为关键的一步,但现有研究仍存在3方面问题:1)忽略文本中因多个三元组共享同一实体而产生的实体关系重叠问题;2)当前以编码器−解码器为基础的联合抽取模型未充分考虑文本语句词之间的依赖关系;3)部分三元组序列过长导致误差累积与传播,影响实体关系抽取的精度和效率.基于此,提出基于图卷积增强多路解码的实体关系联合抽取模型 (graph convolution-enhanced multi-channel decoding joint entity and relation extraction model, GMCD-JERE).首先,基于BiLSTM作为模型编码器,强化文本中词的双向特征融合;其次,通过图卷积多跳特征融合句中词之间的依赖关系,提高关系抽取准确性;此外,改进传统模型按三元组先后顺序的解码机制,通过多路解码三元组机制,解决实体关系重叠问题,同时缓解三元组序列过长造成误差累积、传播的影响;最后,实验选用当前3个主流模型进行性能验证,在NYT (New York times)数据集上结果表明在精确率、召回率和F1这3个指标上分别提升了4.3%,5.1%,4.8%,同时在WebNLG (Web natural language generation)数据集上验证以关系为开始的抽取顺序.

  相似文献   

4.
实体关系抽取作为文本挖掘和信息抽取的核心任务,意图从自然语言文本中识别并判定实体对之间存在的特定关系,为智能检索、语义分析等提供了基础支持,有助于提高搜索效率,是自然语言处理领域中的研究热点。相比从单句中进行抽取,文档中包含了更加丰富的实体关系语义,因此近年来很多新的抽取方法纷纷将研究重点从句子层次转移到文档层次,并取得了丰富的研究成果。文中系统地总结了近年来文档级实体关系抽取的主流方法和研究进展。首先概述了文档级关系抽取问题及面临的挑战,然后从基于序列、基于图和基于预训练语言模型3个方面介绍多种文档级关系抽取方法,最后对各种方法使用的数据集及实验进行对比分析,并对未来可能的研究方向进行了探讨和展望。  相似文献   

5.
现有实体关系联合抽取方法未充分考虑中文句子中实体关系的复杂结构特征,为此,提出一种基于图卷积神经网络(GCN)的中文实体关系联合抽取方法。在双向长短时记忆网络抽取序列特征的基础上,利用GCN编码依存分析结果中的语法结构信息,借鉴改进的实体标注策略构建端到端的中文实体关系联合抽取模型。实验结果表明,该方法的F值可达61.4%,相比LSTM-LSTM模型提高了4.1%,GCN能有效编码文本的先验词间关系并提升实体关系抽取性能。  相似文献   

6.
基于CWHC-AM的实体及关系联合抽取方法   总被引:1,自引:0,他引:1  
实体及关系抽取是从非结构化自然语言文本中抽取三元组。传统流水线的方法先抽取实体再抽取关系,容易造成误差传播,也忽略了两个子任务的内在联系和依赖关系,抽取多元关系及重叠关系效果较差。针对上述问题,该文首先将多元关系问题转换成多个二元关系问题进行抽取,充分考虑两个子任务之间的联系,提出一种基于CWHC-AM(character word hybrid coding and attention mechanism)的实体及关系联合抽取模型,采用多层指针网络标注方案,将实体及关系联合抽取任务转化为序列标注问题,实现重叠关系抽取。最后,引入对抗训练提高模型的鲁棒性。在百度DuIE 2.0中文数据集上进行实验,结果表明该文方法可有效地同时抽取多元关系及二元关系,取得比基线模型都要好的效果。  相似文献   

7.
实体关系抽取作为信息抽取任务的重要组成之一,能够对更小粒度的信息进行语义分析,为更多任务提供数据支持。关系抽取发展至今,总体可分为基于传统机器学习和基于深度学习两种方式。基于传统机器学习的关系抽取研究主要以统计和基于规则相结合的方法为主。基于深度学习的框架通过引入远程监督、小样本学习、注意力机制、强化学习、多示例多标记学习等方法取得了丰富的研究成果。回顾实体关系抽取的发展历程,对每种模型进行分析和讨论;结合深度学习方法的最新动态,对实体关系抽取未来的研究方向和趋势进行展望。  相似文献   

8.
刘雅璇  钟勇 《计算机应用》2021,41(9):2517-2522
实体关系抽取是构建大规模知识图谱及各种信息抽取任务的关键步骤.基于预训练语言模型,提出基于头实体注意力的实体关系联合抽取方法.该方法采用卷积神经网络(CNN)提取头实体关键信息,并采用注意力机制捕获头实体与尾实体之间的依赖关系,构建了基于头实体注意力的联合抽取模型(JSA).在公共数据集纽约时报语料库(NYT)和采用远...  相似文献   

9.
在自然语言处理领域,信息抽取一直以来受到人们的关注.信息抽取主要包括3项子任务:实体抽取、关系抽取和事件抽取,而关系抽取是信息抽取领域的核心任务和重要环节.实体关系抽取的主要目标是从自然语言文本中识别并判定实体对之间存在的特定关系,这为智能检索、语义分析等提供了基础支持,有助于提高搜索效率,促进知识库的自动构建.综合阐述了实体关系抽取的发展历史,介绍了常用的中文和英文关系抽取工具和评价体系.主要从4个方面展开介绍了实体关系抽取方法,包括:早期的传统关系抽取方法、基于传统机器学习、基于深度学习和基于开放领域的关系抽取方法,总结了在不同历史阶段的主流研究方法以及相应的代表性成果,并对各种实体关系抽取技术进行对比分析.最后,对实体关系抽取的未来重点研究内容和发展趋势进行了总结和展望.  相似文献   

10.
基于span的联合抽取模型在命名实体识别和关系抽取上取得了优异的效果。这些模型将文本span作为候选实体,并将span元组视为候选关系元组。span的语义表示在实体识别和关系分类中共享。然而现有基于span的模型无法很好地捕获这些候选实体和关系的语义,为了解决这些问题,提出了一种融合attention机制的span的联合抽取模型。特别地,attention用于计算相关语义表示,包括span特定特征语义表示和句子上下文的语义表示。实验结果表明,所提出的模型优于以前的模型,并在ACE2005、CoNLL2004和ADE 3个基准数据集上达到了当前最优的结果。  相似文献   

11.
远程监督关系抽取旨在从无结构化的文本当中发现关系事实,它对许多下游任务有着非常重要的意义.虽然远程监督可以自动地生成大量带标签的训练样本,但是自动标注的过程不可避免地会遇到噪声数据的问题.当前的许多研究工作主要把关注点放在降噪的过程当中,尝试通过选择出正确的句子来生成更有效的包级别特征表示.但是在文本语料之外,还存在着大量与实体相关的外部知识没有被充分利用,而这些知识能够帮助模型更好地理解实体之间的关系.基于这一观察,提出了一种新颖的远程监督关系抽取方法,该方法通过利用外部知识图谱当中的结构化知识和文本语料中的语义知识,设计了一种实体知识感知的词嵌入表示方法,来丰富句子级别的特征表达能力.实验结果表明,在2个版本的大规模“纽约时报”基准数据集上,该方法都明显优于其他方法.此外,还通过对比实验进一步探索了2个版本的数据集所存在的差异,其中无实体交集的数据集能够更有效地反映模型性能.  相似文献   

12.
针对实体关系抽取任务中的三元组重叠问题,基于编码器-解码器结构的联合抽取方法能够通过序列生成的方式加以解决。但现有方法没有充分利用实体类别信息,而实体类别信息对于构建更丰富的语义特征并进一步优化关系模型的效果具有重要意义。在使用编码器-解码器结构的基础上,融合实体类别信息构建实体关系联合抽取模型FETI。编码器采用经典Bi-LSTM结构,解码器采用树状解码替代传统的一维线性解码。同时,在解码阶段增加头尾实体类别的预测,并通过辅助损失函数进行约束,使模型能够更有效地利用实体类别信息。在百度公开的中文数据集DuIE上进行实验,结果表明,FETI的F1值达到0.758,相对于CopyMTL、WDec、MHS、Seq2UMTree模型提升了2.02%~9.86%,验证了融合实体类别信息对于提升实体关系抽取模型性能的有效性。此外,基于不同解码顺序和不同权重损失函数的实验结果表明,解码顺序对模型性能影响较大,而对主要任务的损失函数赋予较高权重,能够保证辅助任务为主要任务提供有效的背景知识,同时限制噪声的影响。  相似文献   

13.
从无结构文本中抽取实体与实体之间的关系是自然语言处理领域的重要研究内容,同时也为构建知识图谱、问答系统等应用提供重要支撑。基于联合模型的实体关系抽取任务将实体识别和关系抽取同时进行,克服了传统实体关系抽取任务中先识别句子中的实体,然后再进行实体关系判断这两次任务中的错误累加。该文针对藏文语料匮乏、实体识别准确率不高等问题,提出了基于联合模型抽取藏文实体关系的方法。基于藏文实体关系抽取任务,提出以下方案: ①针对藏文分词准确率不高的问题,对藏文进行字级和词级两种方式进行预处理,并给出对比实验,结果表明采用字级处理方式较词级处理方式效果有所提高。②藏文是一种语法规则比较强的语言,名词、格助词等能明确指示句子各组块之间的语法和语义结构关系,因此该文将藏文的词性标注特征加入到藏文的字词向量中,实验结果证明了方法的有效性。③该文借鉴了联合模型处理的优势,提出基于联合模型处理方式,采用端到端的BiLSTM框架将藏文实体关系抽取任务转变为藏文序列标注的问题,实验结果表明,该文的方法较传统的基于藏文处理方式,如SVM算法和LR算法,准确率提高了30%~40%。  相似文献   

14.
古汉语文本承载着丰富的历史和文化信息, 对这类文本进行实体关系抽取研究并构建相关知识图谱对于文化传承具有重要作用. 针对古汉语文本中存在大量生僻汉字、语义模糊和复义等问题, 提出了一种基于BERT古文预训练模型的实体关系联合抽取模型 (entity relation joint extraction model based on BERT-ancient-Chinese pre-trained model, JEBAC). 首先, 通过融合BiLSTM神经网络和注意力机制的BERT古文预训练模型 (BERT-ancient-Chinese pre-trained model integrated BiLSTM neural network and attention mechanism, BACBA), 识别出句中所有的subject实体和object实体, 为关系和object实体联合抽取提供依据. 接下来, 将subject实体的归一化编码向量与整个句子的嵌入向量相加, 以更好地理解句中subject实体的语义特征; 最后, 结合带有subject实体特征的句子向量和object实体的提示信息, 通过BACBA实现句中关系和object实体的联合抽取, 从而得到句中所有的三元组信息(subject实体, 关系, object实体). 在中文实体关系抽取DuIE2.0数据集和CCKS 2021的文言文实体关系抽取C-CLUE小样本数据集上, 与现有的方法进行了性能比较. 实验结果表明, 该方法在抽取性能上更加有效, F1值分别可达79.2%和55.5%.  相似文献   

15.
实体关系自动抽取   总被引:36,自引:7,他引:36  
实体关系抽取是信息抽取领域中的重要研究课题。本文使用两种基于特征向量的机器学习算法,Winnow 和支持向量机(SVM) ,在2004 年ACE(Automatic Content Extraction) 评测的训练数据上进行实体关系抽取实验。两种算法都进行适当的特征选择,当选择每个实体的左右两个词为特征时,达到最好的抽取效果,Winnow和SVM算法的加权平均F-Score 分别为73108 %和73127 %。可见在使用相同的特征集,不同的学习算法进行实体关系的识别时,最终性能差别不大。因此使用自动的方法进行实体关系抽取时,应当集中精力寻找好的特征。  相似文献   

16.
从文本信息中抽取关系三元组是构建知识图谱的关键任务,近年来受到工业界和学术界的广泛关注。针对旅游领域信息抽取过程中出现的实体嵌套和关系重叠问题,提出了一种基于双仿射注意力机制的实体关系联合抽取模型BAMRel,该模型通过共享编码层参数利用双仿射注意力机制在实体识别部分和关系抽取部分构建分类矩阵,并在关系抽取部分融合实体类型信息,提升关系抽取效果的同时增加了两个任务之间的交互。此外,通过远程监督和人工校验构建了旅游领域关系抽取数据集TFRED,BAMRel模型在此数据集上F1值达到了91.8%,有效地解决了实体嵌套和关系重叠问题。为了验证模型的鲁棒性,在百度DuIE数据集上与主流联合抽取模型进行了对比实验,BAMRel模型取得了最高的F1值80.2%。  相似文献   

17.
实体关系联合抽取旨在从文本中抽取出实体关系三元组, 是构建知识图谱十分重要的步骤之一. 针对实体关系抽取中存在的信息表达能力不强、泛化能力较差、实体重叠和关系冗余等问题, 提出了一种实体关系联合抽取模型RGPNRE. 使用RoBERTa预训练模型作为编码器, 提高了模型的表达信息能力. 在训练过程中引入了对抗训练, 提升了模型的泛化能力. 使用全局指针, 解决了实体重叠的问题. 使用关系预测, 排除不可能的关系, 减少了冗余的关系. 在基于schema的中文医学信息抽取数据集CMeIE上进行的实体关系抽取实验表明, 模型的F1值比基准模型提升了约2个百分点, 在实体对重叠的情况下, 模型的F1值提升了近10个百分点, 在单一实体重叠情况下, 模型的F1值提升了大约1个百分点, 说明该模型能够更准确地提取实体关系三元组, 从而有效提升知识图谱构建的准确度. 在含有1–5个三元组的对比实验中, 在拥有4个三元组的句子中, 模型的F1值提升了约2个百分点, 而在拥有5个及以上三元组的复杂句子中, F1值提升了约1个百分点, 说明该模型能够较好地处理复杂句子场景.  相似文献   

18.
面向法律文本的实体关系联合抽取技术对于案情关键信息的智能提取至关重要,是智慧司法领域应用中的重要环节。目前的联合抽取方法虽然已经在特定罪名案件的数据集上取得了较好的效果,但是由于模型在训练时只关注了特定罪名类型文本数据的特点,使得模型的泛化能力有限,在应用到多罪名案件的情况下常常使得模型的效果下降。因此引入多任务学习的方法对多罪名情形下的实体关系联合抽取进行了研究,以涉毒类案件和盗窃类案件两大类罪名的文书数据为基础,构建了一个罪名分类任务作为联合抽取的辅助任务,通过基于特征筛选的动态加权多任务模型同时对两个任务进行学习,在单任务模型的基础上整体F1值提升了2.4个百分点,在涉毒类案件和盗窃类案件上的F1值分别提升了1.6和3.2个百分点。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号