首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 218 毫秒
1.
互联网时代, 数据呈爆发式的增长, 怎样从这些数据中抽取出有用的信息, 已是人工智能研究中的一个核心问题. 知识图谱作为解决这一问题的重要方法, 已成为人工智能技术发展的核心推动力. 信息抽取是知识图谱构建过程中的首要环节, 它实现了从海量的数据中抽取出结构化实体以及实体之间的关系. 本文探讨知识图谱中信息抽取的发展趋势, 对实体抽取、关系抽取和事件抽取及其关键技术进行了综述, 分析和讨论了当前存在的问题、挑战以及未来发展的方向.  相似文献   

2.
属性抽取是构建知识图谱的关键一环,其目的是从非结构化文本中抽取出与实体相关的属性值.该文将属性抽取转化成序列标注问题,使用远程监督方法对电商相关的多种来源文本进行自动标注,缓解商品属性抽取缺少标注数据的问题.为了对系统性能进行精准评价,构建了人工标注测试集,最终获得面向电商的多领域商品属性抽取标注数据集.基于新构建的数...  相似文献   

3.
鉴于现有农业知识图谱对病虫害防治相关实体、关系刻画不够细致的问题,以苹果病虫害知识图谱构建为例,研究细粒度农业知识图谱的构建方法。对苹果病虫害知识的实体类型和关系种类进行细粒度定义,共划分出19种实体类别和22种实体关系,以此为基础标注并构建了苹果病虫害知识图谱数据集AppleKG。使用APD-CA模型对苹果病虫害领域命名实体进行识别,使用ED-ARE模型对实体关系进行抽取。实验结果表明,该文模型在命名实体识别和关系抽取两项子任务中的F1值分别达到了93.08%和94.73%。使用Neo4j数据库对知识图谱进行了存储和可视化,并就细粒度苹果病虫害知识图谱可以为精准病虫害信息查询、智能辅助诊断等下游任务提供底层技术支撑进行了讨论。  相似文献   

4.
发动机生产故障和售后维修报告中有大量动力总成和零部件故障信息. 本文将知识图谱引入柴油发动机故障领域, 设计发动机故障领域知识图谱构建的系统流程, 针对多源故障数据进行本体建模. 使用BERT和BiLSTM-CRF结合的实体识别框架, 挖掘故障数据中的专家知识. 提出实体相关性评价指标FF-IEF, 并基于知识图谱和贝叶斯网络进行故障诊断. 设计并开发EFKG原型系统, 共包含12534个实体和408972条三元组, 该系统提供知识抽取、可视化检索、辅助决策等功能, 有效提高信息检索和维修效率, 对知识图谱在发动机故障领域的应用具有一定指导意义.  相似文献   

5.
探讨基于Neo4j构建《伤寒论》知识图谱的方法。以中医古籍《伤寒论》为知识图谱构建的数据源。在《中医临床术语标准规范》等规范的指导下,采用人工知识抽取对中医药相关术语的提取、预处理以及标准化,并利用图数据库Neo4j对所构建的知识图谱进行存储。构建了包含639个中医实体以及2076条实体关系的基于Neo4j的《伤寒论》知识图谱。  相似文献   

6.
计算机学科评估需要对学科整体信息进行汇总, 过于依赖专家经验且历届学科评估信息复用程度低. 针对此问题, 该文提出了一种计算机学科评估知识图谱构建方法. 该方法基于CIR模型建模知识图谱, 设计了针对文本数据的基于依存句法分析的无监督命名实体关系抽取方法和针对表格的数据流组合模型抽取知识, 并借助Neo4j图数据库实现知识图谱可视化, 为更多学科知识图谱的构建提供思路和借鉴.  相似文献   

7.
开放关系抽取从海量数据中获取知识,是自然语言处理的一个关键技术。开放关系抽取可以实现多种关系的抽取,由于中文领域可供训练的标注数据较少且语义句式较为复杂,面向中文的开放关系抽取存在较多困难。现有的中文开放关系抽取方法存在实体识别覆盖率较低且抽取关系种类单一的问题,无法满足知识图谱扩展等应用需求。该文提出了多策略的开放关系抽取方法,该方法综合利用知识图谱提高了实体识别的覆盖度,依靠实体上下文信息实现了实体对关系的抽取,根据依存句法分析抽取得到全要素三元组,并实现了从文本中抽取实体属性的方法。实验证明,该文的抽取方法准确率高,抽取关系种类多样,可以服务于知识图谱扩展等任务。  相似文献   

8.
针对目前海上节点对信息资源的存储与利用过程中体现的数据种类复杂、数据量大、利用率低等问题,提出了面向海上多节点信息资源管理的知识图谱构建方法,阐述了概念定义、知识抽取、知识融合等知识图谱构建的关键技术,设计了海上节点之间的实体更新方法.海上多节点信息资源知识图谱可有效提高对信息资源的利用率,为信息资源智能应用的发展提供支撑.  相似文献   

9.
近年来,基于知识图谱的问答系统逐渐成为学术界和工业界的研究和应用热点方向,而传统方法通常存在效率不高以及未充分利用数据信息的问题。针对以上问题,本文将中文知识图谱问答分为实体抽取和属性选择2个子任务,采用双向长短期记忆条件随机场(Bi-LSTM-CRF)模型来进行实体识别,并提出一种多粒度特征表示的属性选择模型。该模型采用字符级别以及词级别分别对问句和属性进行嵌入表示并通过编码器进行编码,对于属性同时还引入热度编码的信息。通过不同粒度文本表示的结合,并对问句和属性进行相似度计算,最终该系统在NLPCC-ICCPOL 2016 KBQA数据集上取得了73.96%的F1值,能够较好地完成知识图谱问答任务。  相似文献   

10.
风险领域实体关系抽取是扩充现有知识图谱与泛化知识工程应用的关键问题.当前特定领域实体关系抽取面临人工标注语料的严重依赖、实体间关系的交叉互联以及远程监督标注存在噪声数据等核心难题,简单的解决方案是运用风险领域已有的知识图谱作为指导.然而,相比通用领域知识图谱,风险领域知识图谱的规模往往较小,难以满足当前领域实体关系抽取的知识需求.因此,本文既要利用已有的风险领域知识图谱,又要充分挖掘蕴含于领域文本数据中规律性的风险知识.本文提出基于知识图谱与文本互注意力的风险领域实体关系抽取方案.首先,根据已有的知识图谱抽象出风险领域实体关系及其约束条件;其次,运用少量高质的实体关系与大规模风险领域语料训练知识图谱与文本的互注意力机制模型,并融合文本表示学习与深度神经网络的方法进行风险领域实体关系的抽取.最后,针对给定的领域文本数据,综合关系约束与关系抽取结果得出风险领域实体关系类型.本文以风险领域数据为例,仅用少量的领域知识,即可获取较好的实体关系抽取效果.  相似文献   

11.
知识图谱技术在行业领域的运用越来越广, 因此研究知识图谱技术在成果地质资料领域中的运用, 解决到馆用户的精确查询和可视化问题变得更加重要. 本文以成果地质资料为研究对象, 利用爬虫技术, 爬取成果地质资料中的矿产、地理区域、组织机构等实体信息. 结合知识图谱相关技术, 设计成果地质资料知识图谱地质实体和关系, 经过命名实体识别、关系抽取和属性抽取, 构建成果地质资料实体266787个, 关系306686个. 使用Neo4j图形化数据库存储知识图谱来提高地质资料的查询性能, 方便到馆用户的查询. 该研究可以为知识图谱在成果地质资料上面的应用提供理论支撑.  相似文献   

12.
提出一种宠物知识图谱的构建框架。通过自顶向下的方式设计并构建了schema(概念)层,从半结构化和非结构化数据中进行知识抽取构建了数据层。在对非结构化数据的实体抽取方面,提出了一种条件随机场(CRF)与宠物症状词典相结合的症状命名实体识别方法。该方法利用症状词典对文本进行识别,获取语义类别信息,CRF结合语义信息实现对症状实体的识别抽取。实验结果表明了该方法的有效性。在知识表示方面,选用OrientDB数据库支持的属性图模型来表示。知识图谱采用OrientDB图数据库来完成知识的存储,并实例展示了构建的宠物知识图谱。  相似文献   

13.
针对心理医学领域文本段落冗长、数据稀疏、知识散乱且规范性差的问题, 提出一种基于多层级特征抽取能力预训练模型(MFE-BERT)与前向神经网络注意力机制(FNNAttention)的心理医学知识图谱构建方法. MFE-BERT在BERT模型基础上将其内部所有Encoder层特征进行合并输出, 以获取包含更多语义的特征向量, 同时对两复合模型采用FNNAttention机制强化词级关系, 解决长文本段落语义稀释问题. 在自建的心理医学数据集中, 设计MFE-BERT-BiLSTM-FNNAttention-CRF和MFE-BERT-CNN-FNNAttention复合神经网络模型分别进行心理医学实体识别和实体关系抽取, 实体识别F1值达到93.91%, 实体关系抽精确率达到了89.29%, 通过融合文本相似度与语义相似度方法进行实体对齐, 将所整理的数据存储在Neo4j图数据库中, 构建出一个含有3652个实体, 2396条关系的心理医学知识图谱. 实验结果表明, 在MFE-BERT模型与FNNAttention机制的基础上构建心理医学知识图谱切实可行, 提出的改进模型所搭建的心理医学知识图谱可以更好地应用于心理医学信息管理中, 为心理医学数据分析提供参考.  相似文献   

14.
属性知识库扩展研究中已有的开放式信息抽取方法都十分依赖深度句法分析或有效的词典规则,在短文本处理上效果较差,召回率较低.文中提出基于词共现图的属性知识库迭代自增式扩展算法,利用属性与属性值的共现关系扩展知识库,并设计基于图的社区发现算法,找出社区的核心节点.最后,设计基于卷积神经网络的模型对抽取结果进行去噪.在两个真实数据集上的实验表明,文中方法在抽取质量上优于现有方法.  相似文献   

15.
知识图谱主要用于从复杂数据中抽取出关键信息以生成关系网络,其对于复杂关系出色的识别能力以及对于数据较强的描述能力使得知识图谱技术具有很高的应用价值.为给知识图谱在海洋领域的应用提供理论支撑,对知识图谱相关技术进行了总体概述.阐述Citespace文献分析工具的出色应用,针对海洋领域半结构化和非结构化数据抽取技术进行了系...  相似文献   

16.
领域知识图谱在各行各业中都发挥着重要作用,领域实体的获取则是构建领域知识图谱的重要基础。数据标注、编写抽取规则等现有的实体抽取方法往往需要较多的人工参与工作。提出一种基于图排序的实体抽取方法和基于最大信息增益的实体扩展方法来构建领域实体集,通过实体识别获得候选实体,基于维基百科的背景信息计算候选实体间的相关度构建实体图,并利用基于置信度传播的图排序算法筛选领域核心实体。在DBpedia中根据最大信息增益来平衡类与领域核心实体相关性及类的抽象程度两个因素以生成实体扩展的共性类。在此基础上,通过SKOS体系中的“Is subject of”关系获得共性类的实例实体,并根据基于字符串相似和结构相关度的方法对扩展实例实体进一步筛选,最终获得全面、准确的领域实体集。以数据结构课程为例构建该课程领域实体集,得到1 115个实体。实验结果表明,在领域数据集上,领域实体抽取F1值达到0.67,能够在较少人工参与的条件下有效获得领域实体,有助于领域知识图谱的构建。  相似文献   

17.
关系抽取是构建知识图谱的一项核心技术.由于中文具有复杂的语法和句式,同时现有的神经网络模型提取特征有限以及语义表征能力较差,从而影响中文实体关系抽取的性能.文章提出了一种融合多特征的BERT预训练模型的实体关系抽取算法.首先对语料进行预处理,提取关键词、实体对信息和实体类型特征并进行融合,以此来强化BERT模型的语义学习能力,极大限度地减少了语义信息特征的丢失,最后通过Softmax分类器进行关系分类.实验结果表明,文章模型优于现有的神经网络模型.在人工标注的中文数据集上本文模型取得了97.50%的F1值.  相似文献   

18.
作为知识图谱构建过程中的关键步骤,关系抽取这一从海量自然语言文本中抽取实体间关系的任务近年来得到了越来越广泛的关注。如今,远程监督(distant supervision)方法通过与已有知识库(knowledge base)中的实体和关系进行对齐,可以直接使用源文本进行训练从而省去了人工标记数据的过程。其中,使用了多实例多标签(multi-instance multi-label)模型的MultiR算法取得了很好的抽取效果。但该算法存在两个问题: 抽取过程中未考虑实体对之间可能已存在的关系,以及概率图匹配计算中使用的贪心算法无法获得最优解。该文针对上述问题进行了改进。首先,在关系抽取的打分过程中,考虑到同一实体对可能存在的多个关系之间具有一定关联性,该文引入了关系权重矩阵,使其在抽取过程中将实体对已知的关系转换为权重向量对打分进行干预,以此减少个别文本特征的干扰,提高抽取准确率。其次,在概率图匹配过程中,为了将图的匹配从局部最优值提升为全局最优值,该文将原有的贪心算法替换为基于状态压缩的动态规划算法。实验结果证明,优化后的MultiR模型,称之为OptMultiR,其关系抽取性能得到了显著提升。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号