首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 62 毫秒
1.
杨程  陆佳民  冯钧 《计算机应用》2020,40(11):3184-3191
随着知识图谱的日益发展和在各个垂直领域的广泛应用,对于资源描述框架(RDF)数据的高效处理需求日益成为现代大数据管理领域中的新课题。RDF是W3C提出的用于描述知识图谱实体以及实体间关系的数据模型。为了有效地应对大规模RDF数据的存储和查询,很多学者考虑在分布式环境中管理RDF数据。RDF数据的分布式存储所面临的关键问题是数据的划分,而划分的结果很大程度上决定了SPARQL的查询性能。从数据划分的角度,主要围绕两类:基于图结构的RDF数据划分方法和基于语义的RDF数据划分方法展开深入阐述。前者包括多粒度层次划分、模板划分和聚类划分,适用于通用领域查询的语义范畴较为宽泛的场景;后者包括哈希划分、垂直划分和模式划分,更加适用于垂直领域查询的语义范畴相对固定的环境。此外,针对几种典型的划分方法进行对比与分析,为未来RDF数据划分方法的研究提供参考。最后,对未来RDF数据划分方法的发展方向进行了归纳总结。  相似文献   

2.
当海量RDF数据存储在分布式平台上时,数据划分的策略将直接影响海量数据的查询效率。为了提高分布式平台上的海量数据查询效率,提出一种基于分布式平台的有效数据划分方法。该方法根据RDF数据图的特征将数据分布在集群的各个节点上,并在此基础上对SPARQL查询语句进行分解,实现高效的分布式查询。算法在云平台上实现,并在真实的RDF数据集上对算法进行了测试。实验结果证明,与基准方法相比,该算法在查询效率上有很大的提高。  相似文献   

3.
4.
5.
6.
7.
随着语义Web的发展,越来越多的RDF数据发布到Web上,需要一个可以提供存储和查询功能的数据管理系统来对海量的RDF数据进行管理。针对上述问题,设计并实现了一种大规模RDF语义数据的分布式存储方案。该方案通过RDF数据装载和预处理,可以有效地管理海量的RDF数据,并通过构建索引可以有效地对大规模RDF数据进行查询。工作包括底层的RDF存储方案的设计与实现,数据的预处理与装载。同时,设计了一系列实验来评估和对比不同节点数目的Cassandra集群之间的性能,数据采用的是从DBpedia获得的13 million行RDF的数据集。实验结果显示,方案对大规模RDF语义数据的存储和查询具有性能优势。  相似文献   

8.
现有的资源描述框架(RDF)数据分布式并行推理算法大多需要启动多个MapReduce任务,但有些算法对于含有实例三元组前件的RDFS/OWL规则的推理效率低下,整体推理效率不高。针对此问题,文中提出结合Rete的RDF数据分布式并行推理算法(DRRM)。首先结合RDF数据本体,构建模式三元组列表和规则标记模型。在RDFS/OWL推理阶段,结合MapReduce实现Rete算法中的alpha阶段和beta阶段。然后对推理结果进行去重处理,完成一次RDFS/OWL全部规则推理。实验表明,文中算法能高效正确地实现大规模数据的并行推理。  相似文献   

9.
董书暕  汪璟玢  陈远 《计算机科学》2016,43(3):220-224, 230
为了解决HMSST(HashMapSelectivityStrategyTree)算法在集中式环境下受限于有限内存的问题,提出了一种新的分布式SPARQL查询优化算法HMSST+。该算法基于Redis提出了一种分布式存储方案,通过平行扩展存储节点和分布式调度,使得海量RDF数据的查询得以在分布集群的内存中实现。采用LUBM1000所大学的测试数据集对查询策略进行了实验,结果表明提出的方法与HMSST算法相比具有更好的扩展能力,与现有的分布式查询方案相比也具有更好的查询效率。  相似文献   

10.
在SPARQL查询过程中,含有复杂结构的资源描述框架(RDF)图的查询效率低下。为此,通过分析几种RDF图的基本结构与RDF顶点的选择性,提出RDF三元组模式选择性(RTPS)——一种基于RDF顶点选择性的图结构切分规则,以提高面向RDF图的子图匹配效率。首先,根据谓词结构在数据图与查询图中的通性建立RDF相邻谓词路径(RAPP)索引,将数据图结构转化为传入-传出双向谓词路径结构以确定查询顶点的搜索空间,并加快顶点的过滤;接着,通过整数线性规划(ILP)问题计算建模将复杂RDF查询图结构分解为若干结构简单的查询子图,通过分析RDF顶点在查询图中的相邻子图结构与特征,确立查询顶点的选择性以确定最优切分方式;然后,通过RDF顶点选择性与相邻子图的结构特征来缩小查询顶点的搜索空间范围,并在数据图中找到符合条件的RDF顶点;最后,遍历数据图以找到与查询子图结构相匹配的子图结构,将得到的子图进行连接并将其作为查询结果输出。实验采用控制变量法,比较了RTPS、RDF子图匹配(RSM)、RDF-3X、GraSS与R3F的查询响应时间。实验结果充分表明,与其他4种方法相比,当查询图复杂度高于9时,RTPS的查询响应时间更短,具有更高的查询效率。  相似文献   

11.
针对分布式资源搜索技术及其分类的特点,分别从基于网格的搜索技术的穷举式、集中式、路由式,以及基于P2P系统的搜索技术的集中式、全分布式非结构化、混合式、全分布式结构化等几个方面,对当前研究的分布式资源搜索技术进行了归纳总结,并且对该研究领域需要解决的问题进行了总结,对进一步研究的方向进行了展望。  相似文献   

12.
分析了分布式虚拟环境仿真的特点,提出了基于网格的分布式虚拟环境仿真的海量数据管理框架.该框架结构采用分层结构,自底向上依次为网格节点、高性能通信系统、数据存储与处理系统和计算系统.给出了一个基于上述体系结构的原型系统.对该原型系统的仿真结果表明,该海量数据管理体系结构设计符合虚拟环境仿真实时性、稳定性和高可靠性的要求.  相似文献   

13.
As a system scales up, the peer-to-peer (P2P) approach is attractive to distributed computing environments, such as Grids and Clouds, due to the amount of resources increased. The major issue in large-scale distributed systems is to prevent the phenomenon of a communication bottleneck or a single point of failure. Conventional approaches may not be able to apply directly to such environments due to restricted queries and varied resource characteristics. Alternatively, a fully decentralized resource discovery service based on an unstructured overlay, which relies only on the information of resource attributes and characteristics, may be a feasible solution. One major challenge of such service is to locate desired and suitable resources without the global knowledge of distributed sharing resources. As a consequence, the more nodes the resource discovery service involves, the higher the network overhead incurs. In this paper, we proposed a direction-aware strategy which can alleviate the network traffic among unstructured information systems for distributed resource discovery service. Experimental results have demonstrated that the proposed approach achieves higher success rate at low cost and higher scalability.  相似文献   

14.
基于XML中间件的分布式数据库的数据分片策略   总被引:5,自引:1,他引:5  
XML技术由于其鬼好的数据描述能力,在数据库系统的数据交换中得到广泛应用。为了降低并行查询的困难程度和提高并行查询的准确度,提出一种基于XML的分布式数据交换中间件模型,给出了该模型的体系结构和功能定义,并根据此中间件讨论了一种分布式数据库的数据分片技术。  相似文献   

15.
Several classes of scientific and commercial applications require the execution of a large number of independent tasks. One highly successful and low‐cost mechanism for acquiring the necessary computing power for these applications is the ‘public‐resource computing’, or ‘desktop Grid’ paradigm, which exploits the computational power of private computers. So far, this paradigm has not been applied to data mining applications for two main reasons. First, it is not straightforward to decompose a data mining algorithm into truly independent sub‐tasks. Second, the large volume of the involved data makes it difficult to handle the communication costs of a parallel paradigm. This paper introduces a general framework for distributed data mining applications called Mining@home. In particular, we focus on one of the main data mining problems: the extraction of closed frequent itemsets from transactional databases. We show that it is possible to decompose this problem into independent tasks, which however need to share a large volume of the data. We thus introduce a data‐intensive computing network, which adopts a P2P topology based on super peers with caching capabilities, aiming to support the dissemination of large amounts of information. Finally, we evaluate the execution of a pattern extraction task on such network. Copyright © 2009 John Wiley & Sons, Ltd.  相似文献   

16.
In this paper we discuss an economic model for resource sharing in large-scale distributed systems. The model captures traditional concepts such as consumer satisfaction and provider revenues and enables us to analyze the effect of different pricing strategies upon measures of performance important for the consumers and the providers. We show that given a particular set of model parameters the satisfaction reaches an optimum; this value represents the perfect balance between the utility and the price paid for resources. Our results confirm that brokers play a very important role and can influence positively the market. We also show that consumer satisfaction does not track the consumer utility; these two important performance measures for consumers behave differently under different pricing strategies. Pricing strategies also affect the revenues obtained by providers, as well as, the ability to satisfy a larger population of users.  相似文献   

17.
语义分割在医学图像分析、战场态势感知等领域起着重要的作用,但单一客户端通常无法为模型提供足够数量与多样性的训练数据,因此从复杂多变的分布式数据中训练语义分割模型是有必要的。为了不泄露数据隐私和保护数据安全,应用联邦学习在多客户端协同训练语义分割模型成为领域研究热点。在联邦语义分割定义基础上,围绕分布式复杂数据样本的数据异质性、标签缺失两个关键特征,开展联邦语义分割的问题描述、技术路径、典型模型实例等综述分析,评估不同方法的适用性及特点,梳理当前应用成果,提出针对该问题的潜在研究机会。研究为开展面向分布式复杂数据样本的联邦语义分割方法及相关研究提供借鉴和参考。  相似文献   

18.
分布式资源环境下,不同的设计主体之间需要基于同一主模型进行合作设计。利用模型参数化的特征,基于主模型的思想,使用VC基于UG二次开发原理开发了客户机/服务器应用程序,实现了客户端向服务器发送所需要的参数来获得模型的实时更新信息,通过改变信息的流向控制了模型的读写权限。通过该方法可以对任意参数化模型进行修改而无需使用者学习该建模软件,可以帮助企业提高工作效率和节约资金。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号