首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
当海量RDF数据存储在分布式平台上时,数据划分的策略将直接影响海量数据的查询效率。为了提高分布式平台上的海量数据查询效率,提出一种基于分布式平台的有效数据划分方法。该方法根据RDF数据图的特征将数据分布在集群的各个节点上,并在此基础上对SPARQL查询语句进行分解,实现高效的分布式查询。算法在云平台上实现,并在真实的RDF数据集上对算法进行了测试。实验结果证明,与基准方法相比,该算法在查询效率上有很大的提高。  相似文献   

2.
Skyline查询是指从多维数据集中筛选出不被其他任何数据点支配的数据点,是一种重要的数据分析方法。近年来,随着隐私保护需求的不断增长,分布式数据集上保护隐私的Skyline查询算法也受到越来越多关注。然而,现有的垂直分布数据集上的Skyline查询方案数据以明文存储,不能实现数据的隐私保护。为此,深入研究了垂直分布式数据集上保护隐私的Skyline查询问题,提出了一种抗合谋攻击的多方垂直分布数据集上的Skyline查询协议。理论分析证明了提出协议的正确性和安全性。此外,通过理论分析和模拟实验对协议运行效率进行了评估,结果显示新方案具有较高的运行效率。  相似文献   

3.
4.
不确定数据流上的Skyline查询技术逐步引起研究者的关注,传统的集中式流处理算法难以满足海量数据的查询需求,并且云计算所提供的海量计算资源和有效的存储管理模式,为研究并行Skyline查询技术提供了充足的条件。基于上述事实,提出了一种不确定数据流上的并行Skyline查询算法(parallel Skyline over uncertain data streams,PSUDS)。该算法通过交叉划分滑动窗口的方式,将集中式流查询转化为并行处理,以并行执行的方式来解决集中式算法处理性能不足的问题。大量实验结果表明,该算法具有较好的并行可扩展性。  相似文献   

5.
随着互联网、物联网等信息技术的快速发展,多维数据日益增多,这些海量数据中往往伴随着大量的不完整数据,如何从海量不完整数据中高效地获取用户所需的近似的结果集是一个亟需解决的问题。针对海量高维的不完整数据集,提出了一种基于维度组合的Skyline查询算法,通过构建Rank List数据结构提高查询效率,并减少不完整数据对查询结果的影响;利用维度的不同组合,划分出查询子空间,并渐进地查询出每个子空间的最优先点,从而获得海量不完整数据集上均匀分布的Skyline点。实验结果表明,该算法与Iskyline算法相比,平均查询效率提高了85%,并且在数据量大、维度高时,较普通方法查询效率更高。  相似文献   

6.
随着语义Web的发展,越来越多的RDF数据发布到Web上,需要一个可以提供存储和查询功能的数据管理系统来对海量的RDF数据进行管理。针对上述问题,设计并实现了一种大规模RDF语义数据的分布式存储方案。该方案通过RDF数据装载和预处理,可以有效地管理海量的RDF数据,并通过构建索引可以有效地对大规模RDF数据进行查询。工作包括底层的RDF存储方案的设计与实现,数据的预处理与装载。同时,设计了一系列实验来评估和对比不同节点数目的Cassandra集群之间的性能,数据采用的是从DBpedia获得的13 million行RDF的数据集。实验结果显示,方案对大规模RDF语义数据的存储和查询具有性能优势。  相似文献   

7.
8.
《计算机科学与探索》2017,(12):1886-1896
为了解决已有研究成果无法有效解决障碍空间中的空间Skyline查询问题,提出了障碍物环境下基于R+树的空间Skyline查询方法——SOS算法。该算法采用了两个过程:过滤过程和精炼过程。过滤过程主要是利用R+树的快速定位特性有效地剪枝掉大量被支配的数据点,缩小查询范围,提高算法效率。精炼过程主要根据障碍距离以及数据点与查询点间的拓扑关系对候选集中数据点进行二次筛选,最终得到Skyline集合。进一步给出新增点的ADD_SOS算法和删除点的DEN_SOS算法。理论研究和实验结果表明,该算法在处理障碍空间中的空间Skyline查询问题时具有优势。  相似文献   

9.
介绍海量KDF数据分布式存储的一种解决方案.R39F数据是按照主题-谓词-对象三元组进行存储的,重要的RDF数据还存储了额外的信息,例如版本信息、临时查询信息等.学习和研究当前流行的几种分布式存储框架,依托于开源框架HBase,在Linux集群上实现高效、协作地存储海量RDF数据.  相似文献   

10.
随着语义网的发展,Web上越来越多的开放数据以RDF格式发布,对海量RDF的有效管理是实现语义网的一个重要条件.文中讨论并分析了现有的几种RDF数据存储方法,针对垂直划分的方法,基于列数据库MonetDB,实现了一个RDF数据管理方案.该方案将RDF和RDFS信息分开存储,并在Barton数据集上,设计了包含几种连接的基准查询,对比RDF管理系统Sesame的三元组模式,分别进行了存储空间和查询效率测试.实验结果验证了基于列数据库的垂直划分方案的有效性.  相似文献   

11.
随着语义网的快速发展,为了实现科学数据的共享,越来越多的科学数据被加工发布为关联数据,进而应用于关联查询和关联发现。针对大规模关联数据的管理,本文通过构建 RDF 数据库集群来存储海量数据,设计了基于 SPARQL 端点的联合查询系统来解决用户跨机器透明查询的问题,分析了存储策略和联合查询系统的查询处理相关技术。实际运行表明,本平台易于集成使用,可以实现大规模 RDF 数据的可扩展性存储和有效查询。  相似文献   

12.
在许多应用中,Skyline查询是一种十分重要的查询类型,它在潜在的巨大的数据空间中返回不被其他元组支配的用户感兴趣的元组,但是Skyline查询无法控制返回结果的数量。处理一个新的top-k Skyline查询问题,该查询返回支配分数最大的k个Skyline元组,从而控制了需要向用户返回的查询结果数量。分析发现,大多数现有算法忽略了利用支配分数作为限制Skyline查询的结果数量的度量。提出一个新的基于表扫描的RSTS(ranked Skyline with table scan)算法来有效计算海量数据上的top-k Skyline结果。RSTS算法首先对表执行预排序操作,保证预排序表的元组按照对有序列表的round-robin扫描的顺序排列。RSTS算法包括两个阶段。阶段1利用对预排序表的顺序扫描来获得候选元组。阶段2计算候选元组的支配分数并返回结果。可以证明,RSTS算法具有早结束特性,并给出其扫描深度的理论分析。提出对于候选元组的剪切操作,理论剪切效果表明,绝大多数的Skyline结果可以直接丢弃。实验结果表明,RSTS算法可以有效计算top-k Skyline结果。  相似文献   

13.
董书暕  汪璟玢  陈远 《计算机科学》2016,43(3):220-224, 230
为了解决HMSST(HashMapSelectivityStrategyTree)算法在集中式环境下受限于有限内存的问题,提出了一种新的分布式SPARQL查询优化算法HMSST+。该算法基于Redis提出了一种分布式存储方案,通过平行扩展存储节点和分布式调度,使得海量RDF数据的查询得以在分布集群的内存中实现。采用LUBM1000所大学的测试数据集对查询策略进行了实验,结果表明提出的方法与HMSST算法相比具有更好的扩展能力,与现有的分布式查询方案相比也具有更好的查询效率。  相似文献   

14.
随着数据规模的日益庞大,在大规模数据集中帮助用户定位出数据量可控的代表性信息显得越发重要。虽然Top-k Skyline查询能够找到数据集中前k个最具代表性的信息,在获取代表性信息的同时又控制了结果规模,满足了上述要求,但是现有的Top-k Skyline查询在面对大规模数据集时效率较低,并不适用于大规模数据集。为了解决这个问题,将Top-k Skyline查询与并行化处理相结合,提出了一种面向大规模数据集的并行化Top-k Skyline查询算法PTKS(parallel Top-k Skyline),通过充分利用分布式资源,将原有查询进行有效的并行化处理,同时设计了基于用户偏好的用于缩减结果数据量的筛选规则,满足用户需求。在真实数据集上进行了相关实验,并与现有方法进行了对比,结果表明PTKS在大规模数据集上的查询效率更具有优势,能很好地适用于大规模数据集。  相似文献   

15.
针对现有组合Skyline查询算法剪枝效率低、对低维数据集计算速度不理想的问题,提出一种快速求解与更新组合Skyline的算法。定义支配区的相关概念,给出相应剪枝规则裁剪无用的数据组合。对于数据集添加数据点和删除数据点的情况,在原有查询结果的基础上根据数据点所在分区实施不同的操作,从而实现查询结果的快速更新。实验结果表明,该算法可有效提高剪枝效率,加快运算速度。  相似文献   

16.
RDF 数据查询处理技术综述   总被引:11,自引:2,他引:9  
杜方  陈跃国  杜小勇 《软件学报》2013,24(6):1222-1242
随着语义网以及信息抽取技术等研究的发展,Web上涌现出越来越多的RDF数据,海量RDF数据的管理,已经成为学术界和工业界研究的热点之一。从RDF数据集形态及RDF数据组织存储两个维度以及查询表述、查询处理、查询优化等方面,深入地分析和比较了RDF数据查询处理方法,并在此基础上提出了未来研究的方向和挑战。  相似文献   

17.
RDF数据模型具有天然的图结构,因此以图结构存储可以避免RDF逻辑数据模型到物理数据模型的转换。基于图数据库的RDF数据分布式存储方案,重点讨论RDF图数据流分割、图数据库分布式扩展、SPARQL查询语言转CYPHER图形查询语言等。实验对比了基于Neo4j图数据库与基于MySQL关系型数据库的RDF数据存储方案的处理性能,并验证了RDF图数据流分割算法的有效性。  相似文献   

18.
在分析民航突发事件应急管理领域本体及其存储特点的基础上,提出了一种基于HBase的领域本体存储方法,采用将领域本体元数据与RDF实例数据分开存储的方式,给出了描述领域本体类及属性信息的元数据和RDF实例数据的存储模型,及其基于MapReduce的领域本体RDF数据并行加载过程。结合应用实现了领域本体基于HBase API的基本图模式查询,并在Hadoop环境下进行了实验与效果分析,为民航应急管理领域本体的海量数据存储提供了理论与方法支撑。  相似文献   

19.
基于数据垂直划分的分布并行Skyline查询算法大多并行性较低,无法适应海量分布式数据的快速响应要求。为此,在BDS算法的基础上提出一种更高效的分布并行Skyline查询算法PDS-VP。其中,节点被分为协调者与参与者,原本由协调者节点完成的随机访问和本地Skyline计算分发给各参与者节点进行处理,以提高算法的执行效率。实验结果证明,该算法提高了原算法的并行性和运行效率。  相似文献   

20.
Skyline查询是从一个给定的数据集上返回所有不被其它点支配的点的集合.本文主要针对二维和三维空间上Skyline查询结果的单调性特点提出了一种新的3FO算法,它通过NN过滤、最小值覆盖过滤和单调性过滤三次过滤操作,删除非skyline点数据.可以快速地返回全部的Skyline点.实验结果表明,该算法比传统算法在相同数据集上平均性能提高2-3倍,是一种高效的算法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号