首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
实体关系联合抽取旨在从文本中抽取出实体关系三元组, 是构建知识图谱十分重要的步骤之一. 针对实体关系抽取中存在的信息表达能力不强、泛化能力较差、实体重叠和关系冗余等问题, 提出了一种实体关系联合抽取模型RGPNRE. 使用RoBERTa预训练模型作为编码器, 提高了模型的表达信息能力. 在训练过程中引入了对抗训练, 提升了模型的泛化能力. 使用全局指针, 解决了实体重叠的问题. 使用关系预测, 排除不可能的关系, 减少了冗余的关系. 在基于schema的中文医学信息抽取数据集CMeIE上进行的实体关系抽取实验表明, 模型的F1值比基准模型提升了约2个百分点, 在实体对重叠的情况下, 模型的F1值提升了近10个百分点, 在单一实体重叠情况下, 模型的F1值提升了大约1个百分点, 说明该模型能够更准确地提取实体关系三元组, 从而有效提升知识图谱构建的准确度. 在含有1–5个三元组的对比实验中, 在拥有4个三元组的句子中, 模型的F1值提升了约2个百分点, 而在拥有5个及以上三元组的复杂句子中, F1值提升了约1个百分点, 说明该模型能够较好地处理复杂句子场景.  相似文献   

2.
发动机生产故障和售后维修报告中有大量动力总成和零部件故障信息. 本文将知识图谱引入柴油发动机故障领域, 设计发动机故障领域知识图谱构建的系统流程, 针对多源故障数据进行本体建模. 使用BERT和BiLSTM-CRF结合的实体识别框架, 挖掘故障数据中的专家知识. 提出实体相关性评价指标FF-IEF, 并基于知识图谱和贝叶斯网络进行故障诊断. 设计并开发EFKG原型系统, 共包含12534个实体和408972条三元组, 该系统提供知识抽取、可视化检索、辅助决策等功能, 有效提高信息检索和维修效率, 对知识图谱在发动机故障领域的应用具有一定指导意义.  相似文献   

3.
在实现不同来源的图谱数据融合过程中, 实体对齐是关键的步骤, 其目的在于确定不同图谱间等价的实体对. 现有实体对齐方法大多基于图嵌入方式, 通过考虑图谱的结构和属性信息进行对齐, 但并未很好处理二者之间的交互关系, 同时忽略对关系及多阶邻居信息的利用. 为解决上述问题, 提出一种融合结构与属性注意力机制模型(fused structural and attribute attention mechanism model, FSAAM)的实体对齐方法. 该模型首先根据图谱数据特征划分为属性和结构通道数据, 其次使用属性注意力机制实现对属性信息的学习, 在实现对结构信息的学习中增加对关系信息的学习, 利用图注意力机制寻找对于实体对齐有益的邻居特征, 引入Transformer编码器更好的关联实体之间的信息, 并通过Highway网络减少可能学习到噪声信息的影响, 最后对学习到的结构通道和属性通道信息的相似度矩阵利用LS-SVM网络, 得到集成相似度矩阵从而实现实体对齐. 所提模型在公开数据集DBP15K的3个子数据集上进行验证. 实验结果表明, 相较于基线模型中效果最好的结果, 其Hits@1分别提高了2.7%, 4.3%和1.7%, 且Hits@10和MRR也均有提升, 表明本模型能够有效提高实体对齐的准确性.  相似文献   

4.
随着医学信息化的推进,医学领域已经积累了海量的非结构化文本数据,如何从这些医学文本中挖掘出有价值的信息,是医学行业和自然语言处理领域的研究热点.随着深度学习的发展,深度神经网络被逐步应用到关系抽取任务中,其中"recurrent+CNN"网络框架成为了医学实体关系抽取任务中的主流模型.但由于医学文本存在实体分布密度较高、实体之间的关系交错互联等问题,使得"recurrent+CNN"网络框架无法深入挖掘医学文本语句的语义特征.基于此,在"recurrent+CNN"网络框架基础之上,提出一种融合多通道自注意力机制的中文医学实体关系抽取模型,包括:1)利用BLSTM捕获文本句子的上下文信息;2)利用多通道自注意力机制深入挖掘句子的全局语义特征;3)利用CNN捕获句子的局部短语特征.通过在中文医学文本数据集上进行实验,验证了该模型的有效性,其精确率、召回率和F1值与主流的模型相比均有提高.  相似文献   

5.
机制砂是由碎石或者砾石经制砂机反复破碎加工至粒径小于2.36 mm的人工砂. 在实验中把机制砂中的石粉含量和含泥量称为细粉含量, 细粉含量表征机制砂的洁净程度. 本文提出了一种基于XGBoost网络的机制砂细粉含量预测方法. 首先, 利用完全封闭的图像采集设备对机制砂细粉制成的溶液进行图像采集, 保证外界光线不会对图像拍照造成影响, 之后进行图片裁剪、读取RGB值、转LCH颜色空间等预处理, 然后构建XGBoost网络模型, 通过贝叶斯原理进行参数的循环迭代, 之后进行模型优化, 使模型的r2_score更高, 最终实现对机制砂细粉含量的预测. 结果表明: 该模型预测的数据的r2_score可以达到0.967 762, 相比于传统的多元线性回归模型、BP神经网络、传统XGBoost网络预测的r2_score0.896 1440.914 5980.950 670, 预测精度有明显提高. 在实际应用中, 该方法可以缩短机制砂细粉含量测量时间, 简化机制砂细粉含量测量步骤, 是一种新型的预测机制砂细粉含量的方法.  相似文献   

6.
风险领域实体关系抽取是扩充现有知识图谱与泛化知识工程应用的关键问题.当前特定领域实体关系抽取面临人工标注语料的严重依赖、实体间关系的交叉互联以及远程监督标注存在噪声数据等核心难题,简单的解决方案是运用风险领域已有的知识图谱作为指导.然而,相比通用领域知识图谱,风险领域知识图谱的规模往往较小,难以满足当前领域实体关系抽取的知识需求.因此,本文既要利用已有的风险领域知识图谱,又要充分挖掘蕴含于领域文本数据中规律性的风险知识.本文提出基于知识图谱与文本互注意力的风险领域实体关系抽取方案.首先,根据已有的知识图谱抽象出风险领域实体关系及其约束条件;其次,运用少量高质的实体关系与大规模风险领域语料训练知识图谱与文本的互注意力机制模型,并融合文本表示学习与深度神经网络的方法进行风险领域实体关系的抽取.最后,针对给定的领域文本数据,综合关系约束与关系抽取结果得出风险领域实体关系类型.本文以风险领域数据为例,仅用少量的领域知识,即可获取较好的实体关系抽取效果.  相似文献   

7.
由于中文文本之间没有分隔符,难以识别中文命名实体的边界.此外,在垂直领域中难以获取充足的标记完整的语料,例如医疗领域和金融领域等垂直领域.为解决上述不足,提出一种动态迁移实体块信息的跨领域中文实体识别模型(TES-NER),将跨领域共享的实体块信息(entity span)通过基于门机制(gate mechanism)的动态融合层,从语料充足的通用领域(源领域)动态迁移到垂直领域(目标领域)上的中文命名实体模型,其中,实体块信息用于表示中文命名实体的范围.TES-NER模型首先通过双向长短期记忆神经网络(BiLSTM)和全连接网络(FCN)构建跨领域共享实体块识别模块,用于识别跨领域共享的实体块信息以确定中文命名实体的边界;然后,通过独立的基于字的双向长短期记忆神经网络和条件随机场(BiLSTM-CRF)构建中文命名实体识别模块,用于识别领域指定的中文命名实体;最后构建动态融合层,将实体块识别模块抽取得到的跨领域共享实体块信息通过门机制动态决定迁移到领域指定的命名实体识别模型上的量.设置通用领域(源领域)数据集为标记语料充足的新闻领域数据集(MSRA),垂直领域(目标领域)数据集为混合领域(OntoNotes 5.0)、金融领域(Resume)和医学领域(CCKS 2017)这3个数据集,其中,混合领域数据集(OntoNotes 5.0)是融合了6个不同垂直领域的数据集.实验结果表明,提出的模型在OntoNotes 5.0、Resume和CCKS 2017这3个垂直领域数据集上的F1值相比于双向长短期记忆和条件随机场模型(BiLSTM-CRF)分别高出2.18%、1.68%和0.99%.  相似文献   

8.
实体关系抽取是构建知识图谱的主要任务之一,旨在确定句子中实体之间的关系类别.远程监督关系抽取方法通过将远程知识库与文本数据对齐来自动标记数据,已成为处理关系抽取任务的主要方式.为解决远程关系抽取不能充分利用单词之间的位置关系信息,并且没有考虑重叠关系之间语义相关性的问题,本文提出一种融合位置特征注意力和关系增强机制的远程监督关系抽取模型.该模型使用基于高斯算法的位置特征注意力机制重新分配句子中单词的权重,并且采用分段卷积神经网络和词级注意力来捕获句子特征.然后,利用基于自注意力的关系增强机制来捕获重叠关系之间的语义关联.在NYT10公共数据集上的实验结果表明,本文模型的性能优于所比较的基线关系抽取模型.  相似文献   

9.
医疗文本数据是推行智慧医疗的重要数据基础,而医疗文本为半结构或非结构化数据,难以对其直接进行应用。对医疗文本中所包含的实体及实体关系进行标注是文本结构化的重要手段,也是命名实体识别、关系自动抽取研究的基础。传统的人工标注方法费力费时,已难以适应大数据发展的需求。该文以构建中文医学知识图谱的任务为驱动,构建了半自动化实体及关系标注平台。该平台融合多种算法,能够实现文本预标注、进度控制、质量把控和数据分析等多种功能。利用该平台,进行了医学知识图谱中实体和关系标注,结果表明该平台能够在文本资源建设中控制标注过程,保证标注质量,提高标注效率。同时该平台也被应用于其他文本标注任务,表明该平台具有较好的任务移植性。  相似文献   

10.
关系抽取是构建知识图谱的一项核心技术.由于中文具有复杂的语法和句式,同时现有的神经网络模型提取特征有限以及语义表征能力较差,从而影响中文实体关系抽取的性能.文章提出了一种融合多特征的BERT预训练模型的实体关系抽取算法.首先对语料进行预处理,提取关键词、实体对信息和实体类型特征并进行融合,以此来强化BERT模型的语义学习能力,极大限度地减少了语义信息特征的丢失,最后通过Softmax分类器进行关系分类.实验结果表明,文章模型优于现有的神经网络模型.在人工标注的中文数据集上本文模型取得了97.50%的F1值.  相似文献   

11.
命名实体识别和关系抽取是自然语言处理和知识图谱构建中两个十分重要的子任务。针对关系抽取过程中容易出现的错误传递和实体共享的缺陷,提出了一种融合自注意力机制的实体关系抽取级联标记框架Att-CasRel,不仅解决了级联错误,还能够解决同一个句子中多个关系三元组共享相同实体的问题。在Bert模型的基础上,使用CMeIE数据集的文本进行再训练得到适用于中文医疗领域的CB-Bert,并在尾实体识别阶段融入自注意力机制来增强头实体编码向量的特征表达,提高了模型的特征提取能力。在CMeIE数据集上的实验结果表明,该标记框架相较于独立抽取的模型以及其他联合抽取模型取得了更好的效果。  相似文献   

12.
命名实体识别是构建知识图谱的重要阶段。基于国军标及软件测试文档,完成了实体类型分类以及数据集的构建和标注。在软件测试领域,针对字词联合实体识别方法准确率不高的问题,进行字符级特征提取方法的改进,提出了CWA-BiLSTM-CRF识别框架。该框架包含两部分:第一部分构建预训练的字词融合字典,将字词一起输入给双向长短期记忆网络进行训练,并加入注意力机制衡量词内各字对特征的语义贡献,提取出字符级特征;第二部分将字符级特征与词向量等特征进行拼接,输入给双向长短期记忆网络进行训练,再通过条件随机场解决标签结果序列不合理的问题,识别出文中的实体。实验结果分别与三种常用的深度学习字符级特征提取方法进行比较,准确率和召回率均有提升,最优F1值为88.93%。实验表明,改进后的方法适用于军用软件测试领域命名实体识别任务,为下一步知识图谱的构建打下了基础。  相似文献   

13.
药用植物文本的命名实体识别对中医药领域的信息抽取和知识图谱构建起着重要作用。针对药用植物属性文本存在长序列语义稀疏的问题,提出一种基于注意力机制的双向长短时记忆网络(BiLSTM)和条件随机场(CRF)模型相结合的疾病实体识别方法(BiLSTM+ATT-CRF,BAC)。首先对药用植物属性文本进行预处理和半自动化标注构建数据集,并进行预训练得到低维词向量;然后将这些低维词向量输入BiLSTM网络中,得到双向语义依赖的特征向量;Attention层把注意力集中到与当前输出特征高度相关的信息上;最后通过条件随机场(CRF)算法获取最优的标签序列并解码输出。实验结果表明,BAC方法针对药用植物属性文本的长序列语义稀疏问题,疾病命名实体识别效果较传统方法更优。利用BAC方法训练好的模型从1680条文本句子中识别疾病命名实体,共抽取出1422个疾病实体。与药用植物名称进行匹配,共抽取出4316个药用植物治疗疾病的三元组数据。  相似文献   

14.
知识图谱技术在行业领域的运用越来越广,因此研究知识图谱技术在成果地质资料领域中的运用,解决到馆用户的精确查询和可视化问题变得更加重要.本文以成果地质资料为研究对象,利用爬虫技术,爬取成果地质资料中的矿产、地理区域、组织机构等实体信息.结合知识图谱相关技术,设计成果地质资料知识图谱地质实体和关系,经过命名实体识别、关系抽取和属性抽取,构建成果地质资料实体266 787个,关系306 686个.使用Neo4j图形化数据库存储知识图谱来提高地质资料的查询性能,方便到馆用户的查询.该研究可以为知识图谱在成果地质资料上面的应用提供理论支撑.  相似文献   

15.
铁路事故的相关信息以事故概况文本的形式存在,对于铁路安全工作有重要意义.但由于缺乏有效的信息抽取手段,导致分散在文本中的铁路事故知识没有得到充分的利用.命名实体识别是信息抽取的重要子任务,目前关于事故领域的命名实体识别问题研究较少.针对铁路事故命名实体识别问题,提出一种融合字位置特征的命名实体识别模型,该模型通过全连接神经网络获取字的位置特征,并与语义层面的字向量合并作为字的最终向量表示输入BiLSTM-CRF模型获取最优标签序列.实验结果表明,模型在铁路事故文本命名实体识别问题上的准确率、召回率和F1值分别为93.29%、94.77%和94.02%,相比于传统模型,取得了更好的效果,为铁路事故知识图谱的构建奠定基础.  相似文献   

16.
在知识图谱中,实体的文本描述信息、实体的层次类型信息和图的拓扑结构信息中隐藏着丰富的内容,它们可以形成对原始三元组的有效补充,帮助提高知识图谱各种任务的效果.为了充分利用这些多源异质信息,首先通过一维卷积神经网络嵌入文本描述信息,然后根据实体的层次类型信息构建投影矩阵,将三元组中的实体向量和实体的描述向量映射到特定的关...  相似文献   

17.
提出一种宠物知识图谱的构建框架。通过自顶向下的方式设计并构建了schema(概念)层,从半结构化和非结构化数据中进行知识抽取构建了数据层。在对非结构化数据的实体抽取方面,提出了一种条件随机场(CRF)与宠物症状词典相结合的症状命名实体识别方法。该方法利用症状词典对文本进行识别,获取语义类别信息,CRF结合语义信息实现对症状实体的识别抽取。实验结果表明了该方法的有效性。在知识表示方面,选用OrientDB数据库支持的属性图模型来表示。知识图谱采用OrientDB图数据库来完成知识的存储,并实例展示了构建的宠物知识图谱。  相似文献   

18.
从非结构化文本中联合提取实体和关系是信息抽取中的一项重要任务。现有方法取得了可观的性能,但仍受到一些固有的限制,如错误传播、预测存在冗余性、无法解决关系重叠问题等。为此,提出一种基于图神经网络的联合实体关系抽取模型BSGB(BiLSTM+SDA-GAT+BiGCN)。BSGB分为两个阶段:第一阶段将语义依存分析扩展到语义依存图,提出融合语义依存图的图注意力网络(SDA-GAT),通过堆叠BiLSTM和SDA-GAT提取句子序列和局部依赖特征,并进行实体跨度检测和初步的关系预测;第二阶段构建关系加权GCN,进一步建模实体和关系的交互,完成最终的实体关系三元组抽取。在NYT数据集上的实验结果表明,该模型F1值达到了67.1%,对比在该数据集的基线模型提高了5.2%,对重叠关系的预测也有大幅改善。  相似文献   

19.
以法学知识为中心的认知智能是当前司法人工智能发展的重要方向。该文提出了以自然语言处理(NLP)为核心技术的司法案件案情知识图谱自动构建技术。以预训练模型为基础,对涉及的实体识别和关系抽取这两个NLP基本任务进行了模型研究与设计。针对实体识别任务,对比研究了两种基于预训练的实体识别模型;针对关系抽取任务,该文提出融合平移嵌入的多任务联合的语义关系抽取模型,同时获得了结合上下文的案情知识表示学习。在“机动车交通事故责任纠纷”案由下,和基准模型相比,实体识别的F1值可提升0.36,关系抽取的F1值提升高达2.37。以此为基础,该文设计了司法案件的案情知识图谱自动构建流程,实现了对数十万份判决书案情知识图谱的自动构建,为类案精准推送等司法人工智能应用提供语义支撑。  相似文献   

20.
实体链接任务是识别文本中潜在的实体指称,并将其链接到给定知识库中无歧义的实体上。在绝大多数情况下,实体链接可能存在中文短文本缺乏有效上下文信息,导致存在一词多义的歧义现象;同时候选链接过程中,候选实体的不确定相关性也影响候选实体链接精确性。针对上述两个问题,提出深度神经网络与关联图相结合的实体链接模型。模型添加字符特征、上下文、信息深层语义来增强指称和实体表示,并进行相似度匹配。利用Fast-newman算法将图谱知识库聚类划分不同类型实体簇,将相似度计算得分最高候选实体所属实体簇映射到关系平面,构建聚类实体关联图。利用偏向随机游走算法考查候选实体之间语义相关度,计算指称与候选实体的匹配程度,输入链接实体。该模型可以实现短文本到知识图谱目标实体的准确链接。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号