首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 397 毫秒
1.
杨程  陆佳民  冯钧 《计算机应用》2020,40(11):3184-3191
随着知识图谱的日益发展和在各个垂直领域的广泛应用,对于资源描述框架(RDF)数据的高效处理需求日益成为现代大数据管理领域中的新课题。RDF是W3C提出的用于描述知识图谱实体以及实体间关系的数据模型。为了有效地应对大规模RDF数据的存储和查询,很多学者考虑在分布式环境中管理RDF数据。RDF数据的分布式存储所面临的关键问题是数据的划分,而划分的结果很大程度上决定了SPARQL的查询性能。从数据划分的角度,主要围绕两类:基于图结构的RDF数据划分方法和基于语义的RDF数据划分方法展开深入阐述。前者包括多粒度层次划分、模板划分和聚类划分,适用于通用领域查询的语义范畴较为宽泛的场景;后者包括哈希划分、垂直划分和模式划分,更加适用于垂直领域查询的语义范畴相对固定的环境。此外,针对几种典型的划分方法进行对比与分析,为未来RDF数据划分方法的研究提供参考。最后,对未来RDF数据划分方法的发展方向进行了归纳总结。  相似文献   

2.
基于关系数据库的资源描述框架(RDF)存储方案多数未考虑领域特性而造成查询性能不足。为此,提出一种改进的病历图谱存储方案。根据原始病历数据具有多元关系的特征,设计多元关系到RDF三元组的转化方案。基于原始病历数据具有空值多、谓词数量多且谓词不固定等特性,采用基于改进三元组表的存储方案,将病历RDF三元组的实体和属性进行ID化。在此基础上,设计实体类型表,面向病历图谱使用SPARQL-to-SQL查询转换算法。实验结果表明,与基于类型的存储方案相比,该方案具有较高的查询效率。  相似文献   

3.
语义Web中RDF元数据的存储与管理   总被引:1,自引:0,他引:1  
吴琴霞  张志鸿 《微计算机信息》2007,23(33):144-145,132
语义Web的实现首要解决的问题就是对资源的描述,RDF是描述信息资源的基础,管理和存储RDF数据成为必须要解决的问题。如果把RDF数据存储在关系数据库中,就可以有效地利用现有的数据库资源来管理RDF数据。本文用垂直Scheme的格式来构造RDF数据存储表,通过模式映射把RDF数据映射成RDF数据存储表中的记录;此外又给出了用RDF视图查询RDF数据的方法为实现语义查询打下了基础。  相似文献   

4.
5.
随着语义Web的发展,越来越多的RDF数据发布到Web上,需要一个可以提供存储和查询功能的数据管理系统来对海量的RDF数据进行管理。针对上述问题,设计并实现了一种大规模RDF语义数据的分布式存储方案。该方案通过RDF数据装载和预处理,可以有效地管理海量的RDF数据,并通过构建索引可以有效地对大规模RDF数据进行查询。工作包括底层的RDF存储方案的设计与实现,数据的预处理与装载。同时,设计了一系列实验来评估和对比不同节点数目的Cassandra集群之间的性能,数据采用的是从DBpedia获得的13 million行RDF的数据集。实验结果显示,方案对大规模RDF语义数据的存储和查询具有性能优势。  相似文献   

6.
知识图谱划分算法研究综述   总被引:6,自引:0,他引:6  
知识图谱是人工智能的重要基石,因其包含丰富的图结构和属性信息而受到广泛关注.知识图谱可以精确语义描述现实世界中的各种实体及其联系,其中顶点表示实体,边表示实体间的联系.知识图谱划分是大规模知识图谱分布式处理的首要工作,对知识图谱分布式存储、查询、推理和挖掘起基础支撑作用.随着知识图谱数据规模及分布式处理需求的不断增长,如何对其进行划分已成为目前知识图谱研究的热点问题.从知识图谱和图划分的定义出发,系统性地介绍当前知识图谱数据划分的各类算法,包括基本、多级、流式、分布式和其他类型图划分算法.首先,介绍4种基本图划分算法:谱划分算法、几何划分算法、分支定界算法、KL及其衍生算法,这类算法通常用于小规模图数据或作为其他划分算法的一部分;然后,介绍多级图划分算法,这类算法对图粗糙化后进行划分再投射回原始图,根据粗糙化过程分为基于匹配的算法和基于聚合的算法;其次,描述3种流式图划分算法,这类算法将顶点或边加载为序列后进行划分,包括Hash算法、贪心算法、Fennel算法,以及这3种算法的衍生算法;再次,介绍以KaPPa、JA-BE-JA和轻量级重划分为代表的分布式图划分算法及它们的衍生算法;同时,在其他类型图划分算法中,介绍近年来新兴的2种图划分算法:标签传播算法和基于查询负载的算法.通过在合成与真实知识图谱数据集上的丰富实验,比较了5类知识图谱代表性划分算法在划分效果、查询处理与图数据挖掘方面的性能差异,分析实验结果并推广到推理层面,获得了基于实验的知识图谱划分算法性能评价结论.最后,在对已有方法分析和比较的基础上,总结目前知识图谱数据划分面临的主要挑战,提出相应的研究问题,并展望未来的研究方向.  相似文献   

7.
随着语义网的发展,Web上越来越多的开放数据以RDF格式发布,对海量RDF的有效管理是实现语义网的一个重要条件.文中讨论并分析了现有的几种RDF数据存储方法,针对垂直划分的方法,基于列数据库MonetDB,实现了一个RDF数据管理方案.该方案将RDF和RDFS信息分开存储,并在Barton数据集上,设计了包含几种连接的基准查询,对比RDF管理系统Sesame的三元组模式,分别进行了存储空间和查询效率测试.实验结果验证了基于列数据库的垂直划分方案的有效性.  相似文献   

8.
9.
当海量RDF数据存储在分布式平台上时,数据划分的策略将直接影响海量数据的查询效率。为了提高分布式平台上的海量数据查询效率,提出一种基于分布式平台的有效数据划分方法。该方法根据RDF数据图的特征将数据分布在集群的各个节点上,并在此基础上对SPARQL查询语句进行分解,实现高效的分布式查询。算法在云平台上实现,并在真实的RDF数据集上对算法进行了测试。实验结果证明,与基准方法相比,该算法在查询效率上有很大的提高。  相似文献   

10.
袁柳  张龙波 《计算机科学》2015,42(10):266-270, 296
如何有效管理并利用日益庞大的RDF数据是当今Web数据管理领域面临的挑战之一。对大规模的RDF数据集进行聚类操作从而得到数据集的有效划分是RDF数据存储和应用时通常采取的策略。针对现有RDF聚类过程中忽略RDF三元组自身模式特征的问题,在对RDF聚类结果的形式深入分析的基础上,定义了3种不同类型的聚类模式,从而提出基于模式的聚类方法。通过对RDF数据集的重新描述,自动生成适用于RDF数据集特征的聚类模式,在此基础上实现数据聚类的任务。在不同测试集上的实验结果验证了所提方法的正确性和有效性。  相似文献   

11.
在分析民航突发事件应急管理领域本体及其存储特点的基础上,提出了一种基于Neo4j的领域本体RDF图数据存储方法,研究了领域本体RDF有向标记图结构与Neo4j图数据库存储模型的关系,结合民航突发事件应急管理领域本体的实例查询,给出了RDF图与Neo4j之间的映射关系及其实现过程。实验验证了Neo4j图数据库在满足领域本体RDF图数据查询的同时,进一步提高了查询的效率,为大数据平台下的RDF图数据语义检索与推理提供了方法支撑。  相似文献   

12.
13.
分布式存储是解决大规模数据存储的一种比较有效的方法,而数据分割是实现分布式存储的前提。面对不断增长的RDF数据,提出一种基于双目标优化的RDF图分割算法(RDF Graph Partitioning algorithm based on Double Objective Optimization,RGPDOO)。RGPDOO将边割和分割平衡两项图分割指标融合到一个目标函数,并依据此目标函数,实现了RDF图的静态和动态分割。其中静态图分割通过对图进行初始划分,将图中顶点分成内核顶点、交叉顶点和自由顶点三类。然后通过计算目标函数增益对交叉和自由顶点进行分配。动态图分割部分,针对RDF元组的插入和删除给出相应的解决方案。同时,为了满足图分割目标,算法每隔一段时间[T]会根据子图的平衡性和紧密性进行一次动态调整。实验选择合成和真实数据集进行测试,并分别与几种通用的静态和动态图分割算法进行比较。实验结果表明提出的算法能够有效地实现RDF图的静态和动态分割。  相似文献   

14.
知识图谱数据管理研究综述   总被引:2,自引:0,他引:2  
王鑫  邹磊  王朝坤  彭鹏  冯志勇 《软件学报》2019,30(7):2139-2174
知识图谱是人工智能的重要基石.各领域大规模知识图谱的构建和发布对知识图谱数据管理提出了新的挑战.以数据模型的结构和操作要素为主线,对目前的知识图谱数据管理理论、方法、技术与系统进行研究综述.首先,介绍知识图谱数据模型,包括RDF图模型和属性图模型,介绍5种知识图谱查询语言,包括SPARQL、Cypher、Gremlin、PGQL和G-CORE;然后,介绍知识图谱存储管理方案,包括基于关系的知识图谱存储管理和原生知识图谱存储管理;其次,探讨知识图谱上的图模式匹配、导航式和分析型3种查询操作.同时,介绍主流的知识图谱数据库管理系统,包括RDF三元组库和原生图数据库,描述目前面向知识图谱的分布式系统与框架,给出知识图谱评测基准.最后,展望知识图谱数据管理的未来研究方向.  相似文献   

15.
随着语史网的发展,存储和查询ILDF数据是亟待解决的问题.为此,展示用来存储RDF数据的基于DHT的P2P网络的体系结构,描述RDF的模型图及查询图,提出在分布式的上下文中查询处理和优化的运算法则.  相似文献   

16.
KGDB:统一模型和语言的知识图谱数据库管理系统   总被引:2,自引:0,他引:2  
知识图谱是人工智能的重要基石,其目前主要有RDF图和属性图两种数据模型,在这两种数据模型之上有数种查询语言,RDF图上的查询语言为SPARQL,属性图上的查询语言主要为Cypher.十年来,各个社区开发了分别针对RDF图和属性图的不同数据管理方法,不统一的数据模型和查询语言限制了知识图谱的更广应用.KGDB (Knowledge Graph Database)是统一模型和语言的知识图谱数据库管理系统:(1)以关系模型为基础,提出统一的存储方案,支持RDF图和属性图的高效存储,满足知识图谱数据存储和查询负载的需求;(2)使用基于特征集的聚类方法解决无类型三元组的存储问题;(3)实现了SPARQL和Cypher两种不同知识图谱查询语言的互操作性,使其能够操作同一个知识图谱.在真实数据集和合成数据集上进行的大量实验表明,KGDB与已有知识图谱数据库管理系统相比,不仅能够提供更加高效的存储管理,而且具有更高的查询效率.KGDB平均比gStore和Neo4j节省了30%的存储空间,基本图模式查询上的实验表明,在真实数据集上的查询速度普遍高于gStore和Neo4j,最快可提高2个数量级.  相似文献   

17.
Knowledge graph is an important cornerstone of artificial intelligence, which currently has two main data models: RDF graphs and property graphs. There are several query languages on these two data models, including SPARQL on RDF graphs and Cypher on property graphs. Over the last decade, various communities have developed different data management methods for RDF graphs and property graphs. Inconsistent data models and query languages hinder the wider application of knowledge graphs. In this paper, we propose a knowledge graphy database (KGDB) system with unified data model and query language. (1) We work out a unified storage scheme based on the relational model that supports the efficient storage of RDF graphs and property graphs, catering to the smooth storage and query of knowledge graph data. (2) The characteristic set-based clustering is used in KGDB for the storage of typeless entities. (3) It realizes the interoperability of SPARQL and Cypher by enabling them to operate on the same knowledge graph. Extensive experiments on real-world datasets and synthetic datasets reveal that KGDB is more efficient than existing knowledge graph database management systems in storage management and query efficiency. KGDB saves 30% of the storage space on average compared with gStore and Neo4j. In addition, KDGB is two orders of magnitude faster than gStore and Neo4j in the query of the real-world datasets, seen from experiments on the query of basic graph pattern matching.  相似文献   

18.
使用图表示RDF数据可以保持数据间的关联信息和语义信息,越来越多的关键词查询方法基于图结构实现RDF数据的查询处理。将二分图与RDF数据图相结合,定义RDF二分图模型,并提出一种基于二分图的RDF关键词扩展查询方法KERBG。该方法将文本信息封装在二分图顶点标签上,以支持对关系的查询;利用关键词同义词扩展技术对查询关键词进行语义扩展,有效解决同一对象的描述用词的多样性问题,进而提高查准率;利用RDF二分图的反对称邻接矩阵及其幂矩阵构造包含关键顶点的查询结果子图,实现关键词查询处理,并降低查询响应时间。实验结果表明,在查准率和查询响应时间方面,提出的KERBG方法优于当前主流方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号