首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 507 毫秒
1.
构建地质领域的知识图谱有助于便捷高效地共享和应用多源地质知识,而地质关系三元组抽取对地质领域知识图谱构建具有重要意义。针对现有实体关系联合抽取模型无法有效识别重叠三元组的问题,考虑地质领域专业知识的特殊性,基于预训练语言模型BERT建立一种用于地质领域关系三元组抽取的层级标注模型HtERT。采用中文预训练语言模型BERT-wwm替代原始的BERT模型作为底层编码器,以提高模型对中文的编码能力。在实体识别阶段,引入关于实体起始位置的嵌入表示来限制实体的抽取长度,从而提升实体识别的准确度。引入全局上下文信息和BiLSTM网络使得模型抽取到的特征能更精确地表示地质样本信息,增强模型对地质关系三元组以及重叠三元组的抽取能力。在地质领域数据集上的实验结果表明,HtERT模型相比于PCNN、BiLSTM、PCNN+ATT、CASREL等基线模型具有明显优势,精确率、召回率以及F1值分别平均提升15.24、10.96和13.20个百分点,验证了该模型在地质领域实体关系联合抽取任务中的有效性。  相似文献   

2.
现有实体关系联合抽取方法中,主体抽取与客体和关系抽取任务的交互不足或方法单一,对关系三元组内部潜在的位置及上下文语义关系利用不足.为此,提出了一种融合实体位置及上下文注意力的信息聚合器(Position and Attention based Booster, PATB)用于级联式实体关系联合抽取.首先抽取主体,再融合主体位置更新主体的表示,融合主体与上下文的注意力更新文本的表示,将更新的主体及文本表示进一步用于客体及关系抽取.模型在公共数据集NYT和WebNLG上的F1值分别为90.9%、92.5%,较基线模型分别提升1.3%和0.7%;在3种不同关系模式的测试数据Normal、EPO及SEO中,NYT上的F1值分别为88.9%、93.2%和92.6%,均优于基线模型;在含1~5个三元组的对比实验中的F1值也均优于基线模型,表明融合位置及上下文语义的PATB不仅可提升三元组抽取性能,且能在有复杂重叠关系、多个三元组情况下保持稳定的提取性能.  相似文献   

3.
实体关系三元组的抽取效果直接影响后期知识图谱构建的质量,而传统流水线式和联合式抽取的模型,并没有对句子级别和关系级别的语义特征进行有效建模,从而导致模型性能的缺失。为此,提出一种融合句子级别和关系级别的交互注意力网络的实体和关系联合抽取模型RSIAN,该模型通过交互注意力网络来学习句子级别和关系级别的高阶语义关联,增强句子和关系之间的交互,辅助模型进行抽取决策。在构建的中文旅游数据集(TDDS)的Precision、Recall和F1值分别为0.872、0.760和0.812,其性能均优于其他对比模型;为了进一步验证该模型在英文联合抽取上的性能,在公开英文数据集NYT和Webnlg上进行实验,该模型的F1值相比基线模型RSAN模型分别提高了0.014和0.013,并且该模型在重叠三元组的分析实验也均取得了优于基线模型的性能且更稳定。  相似文献   

4.
王景慧  卢玲 《计算机应用研究》2023,40(5):1410-1415+1440
中文实体关系抽取多以字符序列处理文本,存在字符语义表征不足、长字符序列语义遗忘等问题,制约了远距离实体的召回率,为此提出了一种融合依存句法信息的关系导向型抽取方法。输入层以字符序列和基于同义词表示的词序列为输入;编码端用长短时记忆网络(LSTM)进行文本编码,并加入全局依存信息,用于产生关系门的表示;解码端加入依存类型信息,并在关系门的作用下,用双向长短时记忆网络(BiLSTM)解码得到实体关系三元组。该方法在SanWen、FinRE、DuIE、IPRE中文数据集上的F1值分别较基线方法提高5.84%、2.11%、2.69%和0.39%。消融实验表明,提出的全局依存信息和依存类型信息表示方法均可提升抽取性能,对长句和远距离实体的抽取性能也稳定地优于基线方法。  相似文献   

5.
随着互联网技术不断地发展,数据信息呈爆炸性增长,迫切需要从海量数据中高效地提取关键信息,而实体关系抽取作为信息抽取的核心任务,发挥着不可替代的重要作用。现有基于深度学习的实体关系抽取方法存在误差累积、实体冗余、交互缺失、实体关系重叠等问题。为充分利用语句的语义信息和句法信息,提出一种加强语义信息与句法信息的二元标记实体关系联合抽取模型SSERel。通过对输入文本进行BERT编码,并对三元组主体的开始位置和结束位置进行预测标记,提取文本的全局语义特征、主体与每个词语的局部语义特征以及句法特征,并将其融合进编码向量。对语句每种关系的客体位置进行预测标记,最终完成三元组的提取。在NYT和WebNLG数据集上的实验结果表明,相比CasRel模型,该模型的F1值分别提升2.7和1.4个百分点,能够有效解决复杂数据中存在的重叠三元组和多三元组等问题。  相似文献   

6.
关系抽取是构建知识图谱的基础,而中文关系抽取也是关系抽取中的难点问题,现有的中文关系抽取大多采用基于字符特征或者词特征的方法,但是前者无法捕获字符上下文的信息而后者受制于分词质量,导致中文关系抽取的性能较低。针对该问题,提出了基于多层次语义感知的中文关系抽取模型,该模型利用实体间丰富的语义信息来提高实体对关系预测的性能。多层次语义感知体现在以下三个方面:首先,利用ERNIE预训练语言模型将文本信息转化为动态词向量;然后,利用注意力机制增强实体所在句子的语义表示,同时通过外部知识尽可能地消除实体词的中文歧义;最后,将包含多层语义感知的句子表示放入到分类中进行预测。实验结果表明,所提模型在中文关系抽取的性能上优于已有模型,且更具解释性。  相似文献   

7.
针对旅游信息呈现出散乱、无序和关联性不强的问题,提出一种融合BERT-WWM(BERT with whole word masking)和指针网络的实体关系联合抽取模型构建旅游知识图谱。借助BERT-WWM预训练语言模型从爬取的旅游评论中获得含有先验语义知识的句子编码。针对传统的实体关系抽取方法存在错误传播、实体冗余、交互缺失等问题,以及旅游评论中的实体关系存在一词多义、关系重叠等特征,提出直接对三元组建模,利用句子编码抽取头实体,根据关系类别抽取尾实体,并建立级联结构和指针网络解码输出三元组。基于Neo4j图数据库存储三元组构建旅游知识图谱。实验在建立的旅游数据集上进行,融合BERT-WWM与指针网络的实体关系联合抽取模型的准确率、召回率和F1值分别为93.42%、86.59%和89.88%,与现有模型相比三项指标均显示出优越性,验证了该方法进行实体关系联合抽取的有效性。构建的旅游知识图谱实现了旅游景区信息的整合与存储,对进一步促进旅游业发展具有一定的实际参考意义。  相似文献   

8.
基于正反例训练的SVM命名实体关系抽取   总被引:1,自引:0,他引:1  
刘路  李弼程  张先飞 《计算机应用》2008,28(6):1444-1446
根据中文命名实体关系抽取的特点,从中文的形态学、语法及语义等几个方面选取特征并构建特征向量,然后将符合特定实体关系模板的候选命名实体对抽取出来并分为正反例。利用正反例样本对支持向量机(SVM)抽取器进行训练,以此来判断候选命名实体对的关系类型。实验证明,本方法能够有效提高中文命名实体关系抽取的准确率。  相似文献   

9.
实体关系抽取作为信息抽取领域内的重要研究方向,其目的是把无结构或半结构的自然语言文本中所蕴含的实体之间的语义关系抽取成结构化的关系三元组。人物关系抽取是实体关系抽取的细粒度分支,以往的实体关系抽取研究多针对来自新闻或百科的英文短句语料,对于中文文学作品的人物关系抽取的研究刚刚起步。该文针对中长篇中文文学作品的特点,首先引入对抗性学习框架来训练句子级的噪声分类器以降低数据集中人物关系数据噪声,并在此基础上构建了人物关系的分类模型MF-CRC。分类模型首先基于预训练模型BERT抽取文本内容的基本语义特征,并采用BiLSTM模型进行深层语义特征的获取,然后根据中文用语习惯抽取了中文人物姓氏、性别与关系指示特征并进行嵌入表示,最后基于多维特征融合完成了人物关系分类模型的训练。该文选用名著《平凡的世界》《人生》和《白鹿原》为研究对象,首次构建了三个通用的面向中文文学作品的人物关系标签数据集,并在这些数据集上进行对比实验及消融实验。结果表明,该文MF-CFC模型效果高于其他对比模型,分别在Micro-F1和Macro-F1指标上比SOTA模型高出1.92...  相似文献   

10.
实体关系抽取任务旨在从非结构化文本中识别出实体和实体间的关系,是目前大规模知识图谱构建和更新的技术来源。在现有的实体关系联合抽取方法中,并行解码三元组的方法通过集合预测的方式高效生成三元组,然而这种方法忽略了实体与关系间、实体主客体间的交互,导致生成无效三元组。针对此问题,提出基于双集合预测网络的实体关系联合抽取模型。为了增强关系和实体之间的交互,采用双集合预测网络并行解码三元组,顺序生成三元组中实体信息和关系类型:第一个集合预测网络对三元组集合建模并解码出三元组内的主客体信息,第二个集合预测网络对融合了主客体信息的三元组嵌入集合建模并解码出主客体间的关系类型;针对实体主客体设计了一个实体过滤器,预测句子中实体间的主客体相关性并依照该结果过滤掉主客体相关性较低的三元组。在公开数据集纽约时报(NYT)和WebNLG上的实验结果表明,在编码器为BERT的情况下所提模型相较基线模型在准确率和F1指标上的效果更好,验证了该模型的有效性。  相似文献   

11.
从非结构化文本中联合提取实体和关系是信息抽取中的一项重要任务。现有方法取得了可观的性能,但仍受到一些固有的限制,如错误传播、预测存在冗余性、无法解决关系重叠问题等。为此,提出一种基于图神经网络的联合实体关系抽取模型BSGB(BiLSTM+SDA-GAT+BiGCN)。BSGB分为两个阶段:第一阶段将语义依存分析扩展到语义依存图,提出融合语义依存图的图注意力网络(SDA-GAT),通过堆叠BiLSTM和SDA-GAT提取句子序列和局部依赖特征,并进行实体跨度检测和初步的关系预测;第二阶段构建关系加权GCN,进一步建模实体和关系的交互,完成最终的实体关系三元组抽取。在NYT数据集上的实验结果表明,该模型F1值达到了67.1%,对比在该数据集的基线模型提高了5.2%,对重叠关系的预测也有大幅改善。  相似文献   

12.
构建三元组时在文本句子中抽取多个三元组的研究较少,且大多基于英文语境,为此提出了一种基于BERT的中文多关系抽取模型BCMRE,它由关系分类与元素抽取两个任务模型串联组成。BCMRE通过关系分类任务预测出可能包含的关系,将预测关系编码融合到词向量中,对每一种关系复制出一个实例,再输入到元素抽取任务通过命名实体识别预测三元组。BCMRE针对两项任务的特点加入不同前置模型;设计词向量优化BERT处理中文时以字为单位的缺点;设计不同的损失函数使模型效果更好;利用BERT的多头与自注意力机制充分提取特征完成三元组的抽取。BCMRE通过实验与其他模型,以及更换不同的前置模型进行对比,在F1的评估下取得了相对较好的结果,证明了模型可以有效性提高抽取多关系三元组的效果。  相似文献   

13.
基于span的联合抽取模型在命名实体识别和关系抽取上取得了优异的效果.这些模型将文本span作为候选实体,并将span元组视为候选关系元组.span的语义表示在实体识别和关系分类中共享.然而现有基于span的模型无法很好地捕获这些候选实体和关系的语义,为了解决这些问题,提出了一种融合attention机制的span的联...  相似文献   

14.
姚博文  曾碧卿  蔡剑  丁美荣 《计算机应用》2021,41(12):3637-3644
关系抽取任务旨在从文本中抽取实体对之间的关系,是当前自然语言处理(NLP)领域的热门方向之一。针对中文人物关系抽取语料中语法结构复杂,无法有效学习文本语义特征的问题,提出一个基于预训练和多层次信息的中文人物关系抽取模型(CCREPMI)。该模型首先利用预训练模型较强的语义表征能力生成词向量,并将原始句子分成句子层次、实体层次和实体邻近层次分别进行特征提取,最终融合句子结构特征、实体含义以及实体与邻近词的依赖关系等信息进行关系分类预测。在中文人物关系数据集上的实验结果表明,该模型的精度达到81.5%,召回率达到82.3%,F1值达到81.9%,相比BERT和BERT-LSTM等基线模型有所提升。此外,该模型在SemEval2010-task8英文数据集上的F1值也达到了81.2%,表明它对英文语料具有一定的泛化能力。  相似文献   

15.
实体关系抽取的核心问题是实体关系特征的选择。以往的研究通常都以词法特征、实体原始特征等来刻画实体关系,其抽取效果已难再提高。在传统方法的基础上,该文提出一种基于句法特征、语义特征的实体关系抽取方法,融入了依存句法关系、核心谓词、语义角色标注等特征,选择SVM作为机器学习的实现途径,以真实新闻文本作为语料进行实验。实验结果表明该方法的F1值有明显提升。  相似文献   

16.
基于维基百科的领域历史沿革信息抽取   总被引:1,自引:0,他引:1  
赵佳鹏  林民 《计算机应用》2015,35(4):1021-1025
针对在软件工程的教学过程中,由于领域概念种类多、演变快,导致学生理解记忆困难的问题,提出了通过抽取软件工程领域历史沿革主题信息构建知识库的方法。该方法首先结合自然语言处理技术与Web信息抽取技术从维基百科的自由文本中抽取实体与实体关系构建候选集;再利用关键词抽取方法TextRank从候选集中抽取与历史沿革关系最密切的实体关系;最后以关键实体关系为核心,抽取邻近的时间实体与概念实体组成五元组构建了知识库。在抽取信息的过程中,结合文本的语义信息对TextRank算法进行了改进,提高了抽取的准确率。实验结果表明,该知识库能够将软件工程领域的概念按时序特征组织在一起,验证了所提方法的有效性。  相似文献   

17.
现有中文短文本实体消歧模型在消歧过程中大多只考虑指称上下文与候选实体描述的语义匹配特征,对同一查询文本中候选实体间的共现特征以及候选实体与实体指称类别相似特征等有效的消歧特征考虑不足。针对这些问题,本文首先利用预训练语言模型获得指称上下文与候选实体描述的语义匹配特征;然后,针对实体嵌入和指称类别嵌入提出共现特征与类别特征;最后,通过融合上述特征实现基于多特征因子融合实体消歧模型。实验结果表明本文提出的共现特征及类别特征在实现实体消歧中的可行性和有效性,以及本文提出的基于多特征因子融合的实体消歧方法能够取得更好的消歧效果。  相似文献   

18.
关系抽取主要目的是将非结构化或半结构化描述的自然语言文本转化成结构化数据,其主要负责从文本中识别出实体,抽取实体间的语义关系。就关系抽取任务而言,当前流行的网络结构是仅使用CNN作为编码器,经过多层卷积操作后,对池化的结果进行softmax分类。还有部分工作则使用RNN并结合Attention机制对最后的结果做分类。这些网络结构在远程监督带噪声的关系抽取任务中表现并不理想。该文主要根据ResNet残差块的特性,提出了一种混合模型,它有效融合,ResNet和BiGRU,将带有残差特性的CNN和双向RNN结合起来,最后融入注意力机制来完成基于远程监督的关系抽取任务。实验验证了该混合模型在远程监督的噪声过滤方面的有效性。在NYT-Freebase 数据集上,P@N值相比使用单一ResNet提高了2.9%。另外,该文所建混合模型可以很轻易地移植应用到其他NLP任务中。  相似文献   

19.
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号