首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
提出了一种新的封闭立方体查询算法,缩小了查询时需搜索的记录的范围,提高了查询效率。给出了相关的理论分析和证明,并给出相关的封闭掩码集生成算法。实验结果和理论分析证明了新算法是有效的,在75%的情况下能将需查询范围包含的记录数减少到传统方法的92%左右,提高了对封闭立方体的查询效率。  相似文献   

2.
提出数据仓库动态增量维护算法和模型.文中阐述了动态增量维护算法、模型以及利用该算法对数据仓库视图的维护技术,并以基于网络的数据仓库为例,描述了动态增量维护算法在数据仓库系统中的实现技术.本算法与技术对数据仓库技术的发展及应用有着重要的理论意义和实用价值。  相似文献   

3.
为了加快对大量数据的查询处理速度,通常在数据仓库以实视图方式存储数据,当基础数据发生变化时,这些实视图也必须随着更新,因而视图自维护和一致性维护成为数据仓库的重要问题。本文提出利用视图计算的中间结果创建辅助视图,在数据仓库中进行实体化,采用有效的增量维护算法计算实视图的精确变化,实现数据仓库视图自维护。  相似文献   

4.
半结构化数据视图的增量维护   总被引:4,自引:0,他引:4  
讨论了半结构化视图的实体化及增量维护算法。算法提出了一种新的数据结构--绑定树来保存视图在数据库上进行求值的一些信息,在数据库进行更新操作时,利用绑定树中的信息可以有效地降低计算量和数据的通信量,从而达到较高的效率。同时,算法也可以支持各种复杂的半结构化查询的特性,有较广泛的应用前景。  相似文献   

5.
在XML数据流的海量持续查询处理领域中,很少有研究涉及到在查询集合发生变化的情况下,如何调整查询执行器以满足当前查询集合的问题.由于XML数据查询的数目是海量的,查询执行器重新构建的代价非常高.针对上述问题,提出了基于转换累计自动机的查询执行器的增量维护方法,来完成查询集合的增量增加和删除,从而避免了执行器重构的昂贵代价.同时,利用XML文档DTD结构约束,提高了查询执行器增量维护的效率,减少了增量维护所导致的空间冗余.实验表明,该方法能够以有限空间为代价,有效完成XML数据流持续查询执行器的动态维护.  相似文献   

6.
针对树形空间索引中多路查询及未考虑时间维索引的问题,提出一种结合时间和聚类结果的Hilbert-R树索引构建策略。首先,按照数据采集的周期划分时空数据集,并在此基础上建立时间索引,通过Hilbert曲线对空间数据进行分割编码,将空间坐标映射到一维区间;其次,依据数据要素在空间中的分布,采用动态确定K值的聚类算法,结合聚类结果构建高效的Hilbert-R树空间索引;最后,基于Redis几种常见的键值数据结构,对时空数据的时间属性和聚类结果构建分级索引。在时空范围及目标矢量对象查询的实验中,与缓存敏感R+树(CCR+)相比,所提算法可有效减少时间开销,查询时间平均缩短约25%,对不同密集型数据具有良好的适应性,可更好地支持Redis应用于海量时空数据查询。  相似文献   

7.
查询速度是联机分析处理中的一个关键性能指标,人们通过事先生成所有可能的聚集来提高查询速度,然而这样的完全物化是以存储空间为代价的.针对数据立方体数据分布特点和结合压缩技术,本文介绍如何最大化节省存储空间来进行完全物化,然后在此基础上对查询进行了研究,以达到最小存储空间以及较好的查询速度的目的.  相似文献   

8.
范围查询是数据立方体数据分析的有效工具,预计算技术通过预先计算并存储范围查询的结果,可以实现快速的用户响应。近年来研究人员对基于MOLAP的预计算技术的研究主要以prefix sum及分块技术为基础。本文对预计算技术的分块方法进行研究,分析了现有分块技术的方法和性能,并提出了两种新的分块方法:嵌套分块和基于前缀区域边界的分块。本文对这两种分块的方法和特点做了阐述,研究表明这两种方法为分块技术提出了新的思路,是对现有分块方案的有力补充。  相似文献   

9.
康炎丽  李丰  王蕾 《软件学报》2017,28(7):2126-2147
大数据蕴含着巨大的价值.分析类查询是获取数据价值的一种重要手段.为及时把握分析结果的变化,查询需要周期性地重复.为此,将不可避免地引入对旧数据的重复分析.目前,以重用历史数据的中间结果,优化冗余计算为核心思路的增量分析技术,存在用户透明性不佳、对历史结果存储位置的选择不够智能化等问题,对周期性增量查询的优化效果有限.本文从兼顾用户透明性和优化收益的角度出发,设计了一种以语义规则为指导的增量优化方法.该方法扩展了增量描述语法,以查询操作符的操作语义和输出语义指导对历史数据存储、合并位置的选择,再根据代价模型和物理查询任务的划分位置对选择结果进行调整,生成优化后可以在分布式计算框架(如:MapReduce)周期性调度执行的物理查询任务.本文以Apache Hive为基础实现了上述方法的原型HiveInc.实验表明,对于扩展了增量语法描述的TPC-H测试集,HiveInc相比优化前,可以获得平均2.93倍,最高5.78倍的加速;与经典优化技术IncMR,DryadInc相比,分别可以获得1.69和1.61倍的加速.  相似文献   

10.
在数据仓库中存在着大量的数据。联机分析处理包含着对大量数据的复杂的查询过程。在对这些数据的存储与查询中都遇到了许多困难。解决这一问题的有效办法就是先将数据划分成便于处理的数据块,再分别对每个数据块进行处理,最后将个数据块的处理结果归并在一起。对几种常用的归并算法进行了比较,并讨论了归并中的缓冲区分配问题。  相似文献   

11.
Data cube computation is a well-known expensive operation and has been studied extensively. It is often not feasible to compute a complete data cube due to the huge storage requirement. Recently proposed quotient cube addressed this fundamental issue through a partitioning method that groups cube cells into equivalent partitions. The effectiveness and efficiency of the quotient cube for cube compression and computation have been proved. However, as changes are made to the data sources, to maintain such a quotient cube is non-trivial since the equivalent classes in it must be split or merged. In this paper, incremental algorithms are designed to update existing quotient cube efficiently based on Galois lattice. Performance study shows that these algorithms are efficient and scalable for large databases.  相似文献   

12.
基于不确定数据的查询处理综述   总被引:5,自引:0,他引:5  
崔斌  卢阳 《计算机应用》2008,28(11):2729-2731
不确定数据在一些重要应用领域中是固有存在的,如传感器网络和移动物体追踪。在不确定数据上使用传统的查询方法会使查询结果出现偏差,不能满足用户的需求。因此,基于不确定数据的查询处理受到了越来越多的关注。与在确定数据上查询不同,不确定数据上的研究工作将概率引入到数据模型中来衡量不确定对象成为结果集中元素的可能性。由于问题定义和数据模型的不同,不确定数据上的查询类型也多种多样。从问题定义、数据模型、剪枝策略和算法等角度,对基于不确定数据的范围查询、top-k查询以及skyline查询进行了介绍。  相似文献   

13.
提出了一种从海量高维数据中进行高效查询的算法,该算法基于小世界网络模型,并采用网络节点表示高维数据的特征向量。算法主要包含两个部分,基于K-Means的索引生成算法和随机逼近查询算法,两个算法均给出了具体的操作步骤。算法经大量实验仿真,得出通过合理设置小世界网络节点的近邻节点数量以及最大查询路径和最大迭代次数等参数,算法可以满足不同精度的用户查询请求。实验结果表明,实现的算法在高维度海量数据查询中具有良好的检索效果。  相似文献   

14.
基于数据网格的分布式查询优化模型   总被引:2,自引:0,他引:2  
罗永红  陈特放  张友生 《计算机应用》2008,28(10):2553-2557
智能交通系统(ITS)中多个异构的、地理位置分散的数据源能使用像数据网格这样的分布式计算技术进行集成,这种集成所面临的真正挑战是分布式查询处理引擎的设计和开发。一般而言,分布式查询优化按照以下三个阶段进行:查询所涉及节点的确定,并行执行方案的生成,执行查询的最佳节点选择。由于这三个阶段的相互隔离可能会导致得到的查询方案并不是最佳的,提出了一个新的分布式查询优化模型,该模型集成了查询优化的三个阶段,综合考虑了查询优化各个阶段所涉及的参数,如节点的有效内存、处理速度、数据传输容错能力等。  相似文献   

15.
在分布式数据处理及信息集成应用中,大量使用涉及信息源本地基表的连接运算的查询,其结果往往数据量非常大,而这样的查询可能会被多次重复地使用,因此,如何降低数据通信量对于提高系统性能至关重要。提出了一个基于查询定义的分片传输算法来降低数据传输量。  相似文献   

16.
提出了一种基于查询树匹配的查询重用算法.首先,系统中原有查询树与新生成的查询树进行匹配并计算对新查询树的重用收益;然后根据重用收益来实现重叠的查询操作的重用.实验结果表明,该算法能够有效地减少连续查询的执行代价总量.  相似文献   

17.
基于流数据技术的连续查询处理   总被引:1,自引:1,他引:0  
高源  刘佳  刘国华  宋驰 《计算机工程与设计》2004,25(12):2312-2314,2330
网络提供了一个无限的、变化的信息源,使得数据库由传统的静态存储变成了动态的存储,数据变成了流数据,查询变成了连续查询。为了有一个完善的系统来处理大量的数据及查询,提出了一个流查询处理方案,同时满足普通用户和高级用户(有计算机语言基础),并从几个重要的指标来阐述了如何提高查询效率,减少了系统瓶颈,并在原型系统中得到了验证。  相似文献   

18.
一种基于网格的增量聚类算法*   总被引:1,自引:0,他引:1  
分析了现有基于网格的聚类算法,该算法具有高效且可以处理高维数据的特点,但传统网格聚类算法的聚类质量受网格划分的粒度影响较大。为此,提出了一种基于网格的增量聚类算法IGrid。IGrid算法具有传统网格聚类算法的高效性,且通过维度半径对网格空间进行了动态增量划分以提高聚类的质量。在真实数据集与仿真数据集上的实验结果表明,IGrid算法在聚类准确度以及效率上要高于传统的网格聚类算法。  相似文献   

19.
为了解决高维数据相似性连接查询中存在的维度灾难和计算代价高等问题,基于p-稳态分布,将高维数据映射到低维空间。根据卡方分布的性质,证明了如果低维空间的距离大于,则原始空间距离大于ε的概率具有一定的下界,从而可以在低维空间以较低的计算代价进行有效过滤。在此基础上,提出了基于卡方分布的高维数据相似性连接查询算法。为了进一步提高查询效率,提出了基于双重过滤的高维数据相似性连接查询算法。利用真实数据集进行了实验,实验结果表明所提方法具有较好的性能。基于卡方分布的相似性连接查询算法召回率可以达到90%以上。基于双重过滤的相似性连接查询算法可以进一步提高性能,但是会损失一定的召回率。对时间性能要求比较高、对召回率要求不太严格的查询任务可以采用基于双重过滤的相似性连接查询算法;反之,可以采用基于卡方分布的相似性连接查询算法。  相似文献   

20.
基于粒子群算法的数据库查询优化   总被引:1,自引:0,他引:1  
研究粒子群算法在数据库查询优化中的应用问题。为了解决大型数据库信息检索困难、查询效率低的问题,提出了一种基于粒子群算法优化数据库查询技术方案。算法提出了一种数据库查询执行计划代价模型,主要包括了查询多链接次序以及副本的选择问题,准确定义了数据库查询执行代价,采用提出的粒子群算法来优化并求解该执行代价问题,从而使得分组数目更少、数据定位更精确。实例验证结果表明,通过属性表现和违规行为任何教师都可以被准确定位,减少了分组,为数据库查询提供了优化。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号