首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 218 毫秒
1.
针对基于特征向量的实体关系抽取方法中特征向量一般构造方法存在的不足,提出了基于互信息的实体对特征向量构造方法.该方法引入词和实体关系类别之间的互信息作为一个句子中实体对左右两边上下文特征提取的判断标准,并对实体关系类别特征词条进行编码,在此基础上再对实体对左右两边的上下文信息进行编码.这样做压缩了实体对上下文信息编码的维数,突出了实体关系各类别特性.实验结果表明本文的实体关系特征向量构造方法提高了中文实体关系抽取的准确率和召回率.  相似文献   

2.
关系抽取旨在从未经标注的自由文本中抽取实体间的关系.然而,现有的方法大都孤立地预测每一个关系而未考虑关系标签相互之间的丰富语义关联.该文提出了一种融合预训练语言模型和标签依赖知识的关系抽取模型.该模型通过预训练模型BERT编码得到句子和两个目标实体的语义信息,使用图卷积网络建模关系标签之间的依赖图,并结合上述信息指导最...  相似文献   

3.
从生物医学文献中提取化学物质诱导疾病关系对疾病治疗和药物开发具有重要意义,然而现有化学物质诱导疾病关系抽取方法忽略了整篇文档里不同句子的实体语义信息,因此不足以捕获完整的文档级语义信息,导致抽取效果不佳。该文揭示一种结合标题、摘要和最短依赖路径的交互自注意力机制,提出基于语义信息交互学习的化学物质诱导疾病关系抽取方法。该方法可增强文档的语义表示,并通过语义信息交互获取文档的完整语义。在CDR语料上的实验结果表明,采用交互自注意力学到的交互语义信息对于抽取文档级化学物质诱导疾病关系具有较好的促进作用。  相似文献   

4.
随着互联网技术不断地发展,数据信息呈爆炸性增长,迫切需要从海量数据中高效地提取关键信息,而实体关系抽取作为信息抽取的核心任务,发挥着不可替代的重要作用。现有基于深度学习的实体关系抽取方法存在误差累积、实体冗余、交互缺失、实体关系重叠等问题。为充分利用语句的语义信息和句法信息,提出一种加强语义信息与句法信息的二元标记实体关系联合抽取模型SSERel。通过对输入文本进行BERT编码,并对三元组主体的开始位置和结束位置进行预测标记,提取文本的全局语义特征、主体与每个词语的局部语义特征以及句法特征,并将其融合进编码向量。对语句每种关系的客体位置进行预测标记,最终完成三元组的提取。在NYT和WebNLG数据集上的实验结果表明,相比CasRel模型,该模型的F1值分别提升2.7和1.4个百分点,能够有效解决复杂数据中存在的重叠三元组和多三元组等问题。  相似文献   

5.
针对现有多文档抽取方法不能很好地利用句子主题信息和语义信息的问题,提出一种融合多信息句子图模型的多文档摘要抽取方法。首先,以句子为节点,构建句子图模型;然后,将基于句子的贝叶斯主题模型和词向量模型得到的句子主题概率分布和句子语义相似度相融合,得到句子最终的相关性,结合主题信息和语义信息作为句子图模型的边权重;最后,借助句子图最小支配集的摘要方法来描述多文档摘要。该方法通过融合多信息的句子图模型,将句子间的主题信息、语义信息和关系信息相结合。实验结果表明,该方法能够有效地改进抽取摘要的综合性能。  相似文献   

6.
实体抽取是构建知识图谱的重要环节,大多数深度学习模型没有注意到上下文的语义信息和忽略了对于知识实体的处理,因此,实体抽取的准确性有待进一步提高.本文提出了一种BERT模型结合实体向量的知识图谱实体抽取方法.该方法采用基于全词Mask的BERT模型生成句子向量和具有上下文语义的词向量,再将词向量取平均值得到实体向量,通过注意力机制将句子向量与实体向量结合,最后,将结合后的新向量放入条件随机场进行序列标注,找到最优的标签以达到实体抽取的目的.实验结果表明,该方法在人民日报语料库进行实体抽取时,其准确率、召回率和F1值分别为93.01%,90.32%和91.65%.同时,该模型在CoNLL-2003语料库中的实体抽取也具有很好的效果.  相似文献   

7.
实体关系抽取任务是信息抽取的核心任务,它对于有效地从爆炸性增长的数据中提取出关键性的信息有着不可替代的作用,也是构建大规模知识图谱的基础任务,因此研究实体关系抽取对各种自然语言处理任务具有重要意义。尽管现有的基于深度学习方法的实体关系抽取已经有了很成熟的理论和较好的性能,但依然还存在着误差累积、实体冗余、交互缺失、三元组重叠等问题。语义信息和句法信息对自然语言处理任务都具有重要作用,为了充分利用这些信息以解决上述提到的问题,提出了一种融合语义和句法图神经网络的二元标记实体关系联合抽取模型FSSRel(Fusion of Semantic and Syntactic Graph Convolutional Networks Binary Tagging Framework for Relation triple extraction)。该模型分为三个阶段进行:第一阶段,对三元组主体的开始结束位置进行预测标记;第二阶段,分别通过语义图神经网络和句法图神经网络提取语义特征和句法特征,并将其融合进编码向量;第三阶段,对语句的每种关系的客体位置进行预测标记,完成最终三元组的提取。实验结果表明,在...  相似文献   

8.
汪锦云  向阳 《计算机应用》2023,(10):3070-3076
网络中存在大量语义相同或者相似的冗余文本,而文本去重能够解决冗余文本浪费存储空间的问题,并能为信息抽取任务减少不必要的消耗。传统的文本去重算法依赖文字重合度信息,而没有较好地利用文本语义信息,同时也无法捕捉长文本中距离较远句子之间的交互信息,去重效果不理想。针对文本语义去重问题,提出一种基于关键词图表示的长文本去重算法。首先,通过抽取文本对中的语义关键词短语,将文本对表示为以关键词短语为节点的图;其次,通过多种方式对节点进行编码,并利用图注意力网络(GAT)学习节点之间的关系,从而得到文本对图的向量表示,并判断文本对是否语义相似;最后,根据文本对的语义相似度进行去重处理。与传统算法相比,所提算法能有效利用文本的语义信息,并能通过图结构将长文本中距离较远的句子用关键词短语的共现关系连接起来,从而增加不同句子之间的语义交互。实验结果表明,所提算法在两个公开数据集CNSE (Chinese News Same Event)和CNSS(Chinese News Same Story)上都取得了比Simhash、BERT (Bidirectional Encoder Representation...  相似文献   

9.
实体关系抽取旨在从无结构的文档中检测出实体和实体对的关系,是构建领域知识图谱的重要步骤。针对现有抽取模型语义表达能力差、重叠三元组抽取准确率低的情况,研究了融合预训练模型和注意力的实体关系联合抽取问题,将实体关系抽取任务分解为两个标记模块。头实体标记模块采用预训练模型对句子进行编码,为了进一步学习句子的内在特征,利用双向长短时记忆网络(BiLSTM)和自注意力机制组成特征加强层。采用二进制分类器作为模型的解码器,标记出头实体在句子中的起止位置。为了加深两个标记模块之间的联系,在尾实体标记任务前设置特征融合层,将头实体特征与句子向量通过卷积神经网络(CNN)和注意力机制进行特征融合,通过多个相同且独立的二进制分类器判定实体间关系并标记尾实体,构建出融合预训练模型和注意力的联合抽取模型(JPEA)。实验结果表明,该方法能显著提升抽取的效果,对比不同预训练模型下抽取任务的性能,进一步说明了模型的优越性。  相似文献   

10.
关系抽取是构建知识图谱的基础,而中文关系抽取也是关系抽取中的难点问题,现有的中文关系抽取大多采用基于字符特征或者词特征的方法,但是前者无法捕获字符上下文的信息而后者受制于分词质量,导致中文关系抽取的性能较低。针对该问题,提出了基于多层次语义感知的中文关系抽取模型,该模型利用实体间丰富的语义信息来提高实体对关系预测的性能。多层次语义感知体现在以下三个方面:首先,利用ERNIE预训练语言模型将文本信息转化为动态词向量;然后,利用注意力机制增强实体所在句子的语义表示,同时通过外部知识尽可能地消除实体词的中文歧义;最后,将包含多层语义感知的句子表示放入到分类中进行预测。实验结果表明,所提模型在中文关系抽取的性能上优于已有模型,且更具解释性。  相似文献   

11.
王宇晖    杜军平    邵蓥侠   《智能系统学报》2023,18(1):186-193
专利文本中包含了大量实体信息,通过命名实体识别可以从中抽取包含关键信息的知识产权实体信息,帮助研究人员更快了解专利内容。现有的命名实体提取方法难以充分利用专业词汇变化带来的词层面的语义信息。本文提出基于Transformer和技术词信息的知识产权实体提取方法,结合BERT语言方法提供精准的字向量表示,并在字向量生成过程中,加入利用字向量经迭代膨胀卷积网络提取的技术词信息,提高对知识产权实体的表征能力。最后使用引入相对位置编码的Transformer编码器,从字向量序列中学习文本的深层语义信息,并实现实体标签预测。在公开数据集和标注的专利数据集的实验结果表明,该方法提升了实体识别的准确性。  相似文献   

12.
基于双向语义的中文实体关系联合抽取方法   总被引:1,自引:0,他引:1  
禹克强  黄芳  吴琪  欧阳洋 《计算机工程》2023,49(1):92-99+112
现有中文实体关系抽取方法通常利用实体间的单向关系语义特征进行关系抽取,然而仅靠单向语义特征并不能完全利用实体间的语义关系,从而使得实体关系抽取的有效性受到影响。提出一种基于双向语义的中文实体关系联合抽取方法。利用RoBERTa预训练模型获取具有上下文信息的文本字向量表征,通过首尾指针标注识别句子中可能存在关系的实体。为了同时利用文本中的双向关系语义信息,将实体分别作为关系中的主体与客体来建立正负关系,并利用两组全连接神经网络构建正负关系映射器,从而对每一个输入实体同时从正关系与负关系的角度构建候选关系三元组。将候选关系三元组分别在正负关系下的概率分布序列与实体位置嵌入特征相结合,以对候选三元组进行判别,从而确定最终的关系三元组。在DuIE数据集上进行对比实验,结果表明,该方法的精确率与召回率优于MultiR、CoType等基线模型,其F1值达到0.805,相较基线模型平均提高了12.8%。  相似文献   

13.
从非结构化文本中联合提取实体和关系是信息抽取中的一项重要任务。现有方法取得了可观的性能,但仍受到一些固有的限制,如错误传播、预测存在冗余性、无法解决关系重叠问题等。为此,提出一种基于图神经网络的联合实体关系抽取模型BSGB(BiLSTM+SDA-GAT+BiGCN)。BSGB分为两个阶段:第一阶段将语义依存分析扩展到语义依存图,提出融合语义依存图的图注意力网络(SDA-GAT),通过堆叠BiLSTM和SDA-GAT提取句子序列和局部依赖特征,并进行实体跨度检测和初步的关系预测;第二阶段构建关系加权GCN,进一步建模实体和关系的交互,完成最终的实体关系三元组抽取。在NYT数据集上的实验结果表明,该模型F1值达到了67.1%,对比在该数据集的基线模型提高了5.2%,对重叠关系的预测也有大幅改善。  相似文献   

14.
关系抽取是构建知识图谱的一项核心技术.由于中文具有复杂的语法和句式,同时现有的神经网络模型提取特征有限以及语义表征能力较差,从而影响中文实体关系抽取的性能.文章提出了一种融合多特征的BERT预训练模型的实体关系抽取算法.首先对语料进行预处理,提取关键词、实体对信息和实体类型特征并进行融合,以此来强化BERT模型的语义学习能力,极大限度地减少了语义信息特征的丢失,最后通过Softmax分类器进行关系分类.实验结果表明,文章模型优于现有的神经网络模型.在人工标注的中文数据集上本文模型取得了97.50%的F1值.  相似文献   

15.
基于多通道卷积神经网的实体关系抽取   总被引:1,自引:0,他引:1  
针对实体关系抽取任务中,传统基于统计学习的方法构建特征费时费力、现有深度学习方法依赖单一词向量的表征能力的问题,提出多通道卷积神经网模型。首先使用不同的词向量将输入语句进行映射,作为模型不同通道的输入;然后使用卷积神经网自动提取特征;最后通过softmax分类器输出关系类型,完成关系抽取任务。和其他模型相比,该模型可以获取输入语句更丰富的语义信息,自动学习出更具有区分度的特征。在SemEval-2010 Task 8 数据集上的实验结果表明提出的多通道卷积神经网模型较使用单一词向量的模型更适合处理关系抽取任务。  相似文献   

16.
王勇超 《计算机应用研究》2021,38(4):1004-1007,1021
针对现有实体和关系联合抽取方法中存在的实体与关系依赖建模不足、实体发生重叠难以抽取其所涉及的多个关系的问题,设计了基于深度学习的联合抽取框架。首先针对依赖建模不足问题,从预训练语料中提取实体共现特征,建模了实体间的潜在语义关系和实体与关系之间的依赖关系。其次提出了新颖的指针标注方法,该标注方法可以通过指针表示关系类别,由于任一实体可以被多个指针指向,所以可以在一段文本中标注重叠的实体并抽取多个实体—关系三元组结果。最后,为了有效利用单词的丰富语义和指针之间依赖的信息,设计了一个标签感知注意力机制,融合了包括来自编码层的字词信息、相关的共现语义信息。与研究中前沿的联合提取方法相比,该方法在百度DuIE测试集上实现了F1值的增加。通过实验结果表明指针标注方法在一定程度上可以解决实体重叠问题。  相似文献   

17.
当前的电子病历实体关系抽取方法存在两个问题: 忽视了位置向量噪声和语义表示匮乏。该文提出一种基于位置降噪和丰富语义的实体关系抽取模型。模型首先利用位置信息和专业领域语料训练的词向量信息获取每个词的注意力权重,然后将此权重与通用领域语料训练的词向量结合,实现位置向量降噪和丰富语义引入,最后根据加权后的词向量判断实体关系类型。该方法在2010年i2B2/VA语料上进行实验评估,F1值为76.47%,取得了基于该语料的最优结果。  相似文献   

18.
针对电力领域科技项目申请书评审工作中存在的项目与专家精准匹配难的问题,提出一种基于层次化语义表示的电力文本命名实体识别模型(Attention-RoBerta-BiLSTM-CRF, ARBC)以及基于语义-象形双特征空间映射的电力项目与电力专家的匹配策略。ARBC模型包括词嵌入模块、双向长短时记忆网络BiLSTM模块以及条件随机场(CRF)模块。其中,词嵌入模块同时使用了电力文本词语、句子和文档3个层面的信息。具体地,首先提取基于RoBerta预训练模型的词嵌入向量,进而通过引入文档层面基于词频-逆文档频率值的注意力机制增强句子的上下文表征能力,最终将词嵌入与句子嵌入进行线性加权融合,形成词语的层次化表征向量。在ARBC模型输出电力文本命名实体基础之上,进一步提出基于语义-象形双特征空间映射的项目文本与领域专家的实体匹配策略,最终实现项目与专家的有效精准匹配任务。实验结果表明,ARBC模型在2000篇电力项目摘要文本命名实体识别测试集上获得83%的F1值,显著高于基于Bert和RoBerta的文本表示方法。此外,基于双特征空间映射的实体匹配策略在电力文本与电力专家匹配任务中准确率达85%。  相似文献   

19.
江旭  钱雪忠  宋威 《计算机工程》2022,48(10):110-115+122
实体关系抽取是从非结构化和程序化的海量文本中识别出实体之间的语义关系,为本体构建、智能检索等任务提供数据支持,然而现有远程监督关系抽取方法普遍存在需要大量人工标注语料库、提取特征含有噪声且忽略了实体与句子之间关联关系等问题。提出一种基于残差双向长短时记忆网络(BiLSTM)与句袋内和句袋间注意力机制的关系抽取模型,在将词向量和位置向量作为模型输入的基础上,通过残差BiLSTM网络提取语句与实体词中的长距离文本信息,利用句袋内和句袋间注意力机制对提取到的特征信息进行处理,使模型在远程监督过程中减少实体之间的特征提取噪声,并提高模型识别准确性。在NYT数据集上的实验结果表明,该模型能够充分利用实体与关系特征,平均精确率达到86.2%,相比于将卷积神经网络和分段卷积神经网络作为句子编码器的同类模型具有更好的远程监督关系抽取性能。  相似文献   

20.
姚博文  曾碧卿  蔡剑  丁美荣 《计算机应用》2021,41(12):3637-3644
关系抽取任务旨在从文本中抽取实体对之间的关系,是当前自然语言处理(NLP)领域的热门方向之一。针对中文人物关系抽取语料中语法结构复杂,无法有效学习文本语义特征的问题,提出一个基于预训练和多层次信息的中文人物关系抽取模型(CCREPMI)。该模型首先利用预训练模型较强的语义表征能力生成词向量,并将原始句子分成句子层次、实体层次和实体邻近层次分别进行特征提取,最终融合句子结构特征、实体含义以及实体与邻近词的依赖关系等信息进行关系分类预测。在中文人物关系数据集上的实验结果表明,该模型的精度达到81.5%,召回率达到82.3%,F1值达到81.9%,相比BERT和BERT-LSTM等基线模型有所提升。此外,该模型在SemEval2010-task8英文数据集上的F1值也达到了81.2%,表明它对英文语料具有一定的泛化能力。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号