首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 343 毫秒
1.
随着语义Web的发展,越来越多的RDF数据发布到Web上,需要一个可以提供存储和查询功能的数据管理系统来对海量的RDF数据进行管理。针对上述问题,设计并实现了一种大规模RDF语义数据的分布式存储方案。该方案通过RDF数据装载和预处理,可以有效地管理海量的RDF数据,并通过构建索引可以有效地对大规模RDF数据进行查询。工作包括底层的RDF存储方案的设计与实现,数据的预处理与装载。同时,设计了一系列实验来评估和对比不同节点数目的Cassandra集群之间的性能,数据采用的是从DBpedia获得的13 million行RDF的数据集。实验结果显示,方案对大规模RDF语义数据的存储和查询具有性能优势。  相似文献   

2.
随着互联网上数据大规模的增长以及语义网的发展,如何存储大规模RDF成为了当前普遍关注的问题.本文对语义网中大规模RDF存储系统的研究现状与进展进行了分析,分别介绍了在RDF存储系统中的存储组织和查询优化以及现有的一些大规模RDF存储系统解决方案,重在对大规模的RDF数据存储技术研究的主流方法和前沿进展进行分析,最后对大规模RDF存储系统存在的一些问题进行了讨论并展望了未来的发展方向.  相似文献   

3.
4.
语义Web中RDF元数据的存储与管理   总被引:1,自引:0,他引:1  
吴琴霞  张志鸿 《微计算机信息》2007,23(33):144-145,132
语义Web的实现首要解决的问题就是对资源的描述,RDF是描述信息资源的基础,管理和存储RDF数据成为必须要解决的问题。如果把RDF数据存储在关系数据库中,就可以有效地利用现有的数据库资源来管理RDF数据。本文用垂直Scheme的格式来构造RDF数据存储表,通过模式映射把RDF数据映射成RDF数据存储表中的记录;此外又给出了用RDF视图查询RDF数据的方法为实现语义查询打下了基础。  相似文献   

5.
针对关联数据集合呈现出的大数据特性和蕴含的语义信息,提出了首先建立关联数据集的模式级链接,再进行关联规则挖掘的方法。在同领域RDF数据集上定义RDF数据项模式并提出数据项模式的产生规则;利用RDF数据查询技术从数据项模式获得RDF数据项集合,进而再推导出特定领域内的关联规则。提出的基于关联数据RDF数据项模式的关联规则挖掘方法将关联规则挖掘扩展到同一领域内的数据集合而不再局限于单一数据集,同时给出了基于Hadoop的大规模RDF数据集上的关联规则挖掘的实现方案。实验结果验证了模式级链接对于关联规则挖掘的价值和所提方法的有效性。  相似文献   

6.
7.
随着语义网的发展,Web上越来越多的开放数据以RDF格式发布,对海量RDF的有效管理是实现语义网的一个重要条件.文中讨论并分析了现有的几种RDF数据存储方法,针对垂直划分的方法,基于列数据库MonetDB,实现了一个RDF数据管理方案.该方案将RDF和RDFS信息分开存储,并在Barton数据集上,设计了包含几种连接的基准查询,对比RDF管理系统Sesame的三元组模式,分别进行了存储空间和查询效率测试.实验结果验证了基于列数据库的垂直划分方案的有效性.  相似文献   

8.
在RDF数据存储方案中,现有的方法取消了元数据管理层,直接对数据进行操作,导致两个缺点的产生.首先,用户无法理解数据之间的关联,不利于下一步的数据集成.其次,缺乏元数据的描述信息,系统无法根据元信息划分数据块,使得数据的查询效率也随之下降.提出了一个基于演化聚类的、根据数据输入时抽取到的RDF数据元信息存储数据的RDF数据管理系统.  相似文献   

9.
通过从3个最大的中文百科全书(百度百科、互动百科、中文维基百科)所包含的大规模知识数据中识别重要的结构化特征生成RDF三元组,并将这些信息数据整合加入分布式大规模RDF数据存储系统,从而构成符合Linked Data要求的中文百科知识库RDF数据集。主要工作包括,通过配置网络爬虫对百度百科和互动百科的网页进行爬取,解析其中信息框等内容,生成RDF三元组并实现三元组的动态插入;下载需要的DBpedia中文三元组数据,将三元组进行整合并存储到课题组的大规模语义数据存储库Jingwei中;设计显示动态插入和三元组模式查询的页面,通过原型系统实验,验证了该方法的有效性。  相似文献   

10.
在分析民航突发事件应急管理领域本体及其存储特点的基础上,提出了一种基于Neo4j的领域本体RDF图数据存储方法,研究了领域本体RDF有向标记图结构与Neo4j图数据库存储模型的关系,结合民航突发事件应急管理领域本体的实例查询,给出了RDF图与Neo4j之间的映射关系及其实现过程。实验验证了Neo4j图数据库在满足领域本体RDF图数据查询的同时,进一步提高了查询的效率,为大数据平台下的RDF图数据语义检索与推理提供了方法支撑。  相似文献   

11.
介绍海量KDF数据分布式存储的一种解决方案.R39F数据是按照主题-谓词-对象三元组进行存储的,重要的RDF数据还存储了额外的信息,例如版本信息、临时查询信息等.学习和研究当前流行的几种分布式存储框架,依托于开源框架HBase,在Linux集群上实现高效、协作地存储海量RDF数据.  相似文献   

12.
13.
Knowledge graph is an important cornerstone of artificial intelligence, which currently has two main data models: RDF graphs and property graphs. There are several query languages on these two data models, including SPARQL on RDF graphs and Cypher on property graphs. Over the last decade, various communities have developed different data management methods for RDF graphs and property graphs. Inconsistent data models and query languages hinder the wider application of knowledge graphs. In this paper, we propose a knowledge graphy database (KGDB) system with unified data model and query language. (1) We work out a unified storage scheme based on the relational model that supports the efficient storage of RDF graphs and property graphs, catering to the smooth storage and query of knowledge graph data. (2) The characteristic set-based clustering is used in KGDB for the storage of typeless entities. (3) It realizes the interoperability of SPARQL and Cypher by enabling them to operate on the same knowledge graph. Extensive experiments on real-world datasets and synthetic datasets reveal that KGDB is more efficient than existing knowledge graph database management systems in storage management and query efficiency. KGDB saves 30% of the storage space on average compared with gStore and Neo4j. In addition, KDGB is two orders of magnitude faster than gStore and Neo4j in the query of the real-world datasets, seen from experiments on the query of basic graph pattern matching.  相似文献   

14.
联邦SPARQL查询是通过构建查询计划来指导查询执行,数据摘要索引文件捕获了RDF数据集的结构和语义信息,对查询计划生成过程中子查询基数评估至关重要。现有的数据摘要生成方法需要远程遍历每个数据源的完整数据,该过程成本消耗较高,且在大部分环境中联邦查询无法完成对大数据集的统计工作。为在减少数据摘要索引文件生成时间和内存开销的同时捕获尽可能真实的计数信息,考虑主语和谓语的分布偏差,提出利用样图生成原始图近似数据摘要的方法。使用对RDF图出度特征加权的采样方法获取原始图的典型样图,通过改进的映射函数将样图中的信息映射到原始图上,从而生成原始图的近似数据摘要。实验结果表明,该方法相比于基线方法至少节省了70%的数据摘要索引文件生成时间,并且仅采样0.5%的原始图生成的近似数据摘要即可在查询正确率上与基线方法保持高度一致。  相似文献   

15.
RDF 数据查询处理技术综述   总被引:9,自引:2,他引:9  
杜方  陈跃国  杜小勇 《软件学报》2013,24(6):1222-1242
随着语义网以及信息抽取技术等研究的发展,Web上涌现出越来越多的RDF数据,海量RDF数据的管理,已经成为学术界和工业界研究的热点之一。从RDF数据集形态及RDF数据组织存储两个维度以及查询表述、查询处理、查询优化等方面,深入地分析和比较了RDF数据查询处理方法,并在此基础上提出了未来研究的方向和挑战。  相似文献   

16.
KGDB:统一模型和语言的知识图谱数据库管理系统   总被引:2,自引:0,他引:2  
知识图谱是人工智能的重要基石,其目前主要有RDF图和属性图两种数据模型,在这两种数据模型之上有数种查询语言.RDF图上的查询语言为SPARQL,属性图上的查询语言主要为Cypher.10年来,各个社区开发了分别针对RDF图和属性图的不同数据管理方法,不统一的数据模型和查询语言限制了知识图谱的更广泛应用.KGDB(kno...  相似文献   

17.
董书暕  汪璟玢  陈远 《计算机科学》2016,43(3):220-224, 230
为了解决HMSST(HashMapSelectivityStrategyTree)算法在集中式环境下受限于有限内存的问题,提出了一种新的分布式SPARQL查询优化算法HMSST+。该算法基于Redis提出了一种分布式存储方案,通过平行扩展存储节点和分布式调度,使得海量RDF数据的查询得以在分布集群的内存中实现。采用LUBM1000所大学的测试数据集对查询策略进行了实验,结果表明提出的方法与HMSST算法相比具有更好的扩展能力,与现有的分布式查询方案相比也具有更好的查询效率。  相似文献   

18.
联合数字图书馆的目的就是为了实现信息的集成共享,给用户提供统一资源查询服务。提出了一种基于中介器 /包装器的联合数字图书集成信息检索机制,以RDF作为中间信息表示语言,完成查询转换和结果合成。此外描述了实现此机制的FDL集成信息检索系统,重点介绍了基于RDF的中介器、包装器产生模块的设计。并以原型系统为例,测试分析了系统性能。  相似文献   

19.
杨程  陆佳民  冯钧 《计算机应用》2020,40(11):3184-3191
随着知识图谱的日益发展和在各个垂直领域的广泛应用,对于资源描述框架(RDF)数据的高效处理需求日益成为现代大数据管理领域中的新课题。RDF是W3C提出的用于描述知识图谱实体以及实体间关系的数据模型。为了有效地应对大规模RDF数据的存储和查询,很多学者考虑在分布式环境中管理RDF数据。RDF数据的分布式存储所面临的关键问题是数据的划分,而划分的结果很大程度上决定了SPARQL的查询性能。从数据划分的角度,主要围绕两类:基于图结构的RDF数据划分方法和基于语义的RDF数据划分方法展开深入阐述。前者包括多粒度层次划分、模板划分和聚类划分,适用于通用领域查询的语义范畴较为宽泛的场景;后者包括哈希划分、垂直划分和模式划分,更加适用于垂直领域查询的语义范畴相对固定的环境。此外,针对几种典型的划分方法进行对比与分析,为未来RDF数据划分方法的研究提供参考。最后,对未来RDF数据划分方法的发展方向进行了归纳总结。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号