首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 156 毫秒
1.
在数据仓库系统中,数据立方体(Cube)及其预聚集处理在OLAP起到非常重要的作用.对于一d个d维的dataCube可以生成2d个聚集Cuboids和d∏i=1(|Di|+1)个聚集数据单元,但对于一个高维Cube,要创建这些所有聚集Cuboids是不现实的.提出通过共享分段立方体Mini.Cube的高维Cube并行分布式存储结构(DHMC),将高维Cube划分成若干个低维共享分段立方体Mini-Cube,利用并行分布式处理技术来创建这些分割的分段共享Mini—Cube及其聚集Cuboids,来实现高维Cube的并行创建和增量更新维护,从而解决高维OLAP聚集海量数据的存储与查询问题.理论分析与实验结果均表明DHMC性能最佳.  相似文献   

2.
通过把数据立方体中的维分为划分维和非划分维,视图中的数据被分成两部分,分别存储在关系和多维数组中。针对这种混合存储结构,我们设计了一个数据立方体生成算法,它结合了流水线聚集方法和多维数组聚集方法的优点,大大减少了流水线的条数和所需要的存储空间,加快了计算速度。并用一个实际数据集进行了实验,结果表明该算法适用于计算高维的数据立方体。  相似文献   

3.
缓存敏感的封闭冰山立方体计算   总被引:1,自引:0,他引:1  
栾华  杜小勇  王珊 《软件学报》2010,21(4):620-631
数据立方体计算通常会产生大量的输出结果,冰山立方体和封闭立方体是解决这个问题的比较流行的两种策略,二者可以结合使用.鉴于封闭冰山立方体(closed iceberg cube)的重要性和实用性,如何高效地计算封闭冰山立方体是一个值得研究的问题.提出一种缓存敏感(cache-conscious)的计算封闭冰山立方体的方法,在自底向上对数据进行聚集的同时,寻找覆盖聚集单元的封闭单元,将其输出,使用两种策略进行剪枝,去掉不必要的递归,同时使用Apriori剪枝技术,支持冰山立方体(iceberg cube)的计算.为了减少与内存相关的延迟,快速得到聚集结果,对多个维进行预排序,并将软件预取技术引入到数据扫描中.在模拟数据和真实数据上进行了详细而全面的实验研究,结果表明,封闭冰山立方体的计算方法是快速、有效的.  相似文献   

4.
提出一种高维Cube的划分和并行分布式处理方法PHD_Cube,将高维Cube分割成若干个低维立方体mini-Cube,利用数据网格技术和并行分布式处理系统等并行处理技术来创建这些分割的分段共享mini-Cube及其聚集Cuboids。实验结果表明,PHD_Cube方法的性能优越。  相似文献   

5.
基于兴趣视图子集的流立方体计算方法   总被引:1,自引:0,他引:1  
流立方体计算是流式数据多维分析的重要基础,然而流式数据的动态性、无限性、突发性等特征使其面临巨大的挑战.在实际应用中,用户的兴趣通常集中在部分视图上,基于这个特点提出了一种基于兴趣视图子集的计算方法,依据用户历史查询信息确定兴趣视图子集与兴趣路径,同时定义了Stream-Tree结构用于在主存中物化存储兴趣视图子集所包含的数据单元,在运行过程中依据多层次时间窗口约束不断更新和维护Stream-Tree中存储的数据单元,而对于稀疏数据单元仅保留高层次的聚集值.实验和分析表明,该方法能够在有限的主存空间中维持流立方体当前窗口内的数据单元,同时能够支持快速更新维护存储结构和响应用户查询.  相似文献   

6.
商务数据仓库系统中,数据分析人员对数据仓库的抽取查询越来越频繁。使用什么样的技术来提高数据仓库的查询速度以及维护数据仓库是一个重大技术问题。本文提出汇总delta表的概念,将数据的改变划分为增值和更新两个阶段,缩短了以往在更新数据时数据仓库锁定的时间,提高了查询效率。同时,通过数据立方体的构建,更直观的呈现出数据分析模型。  相似文献   

7.
在数据仓库中,如何选择实例化视图是一个重要的问题。针对一类特定的数据立方体,该文提出了一个基于代价策略的实例化视图选择算法。通过对一个实际数据集的分析,发现在数据立方体中有很多父子视图具有相同的体积,其原因是用于产生数据立方体的基本关系的属性之间存在着密切的联系。显然,对这类数据立方体不能像算法PBS那样按照体积的大小来选择要实例化的视图。为此,设计了算法PBC,不但可以快速地给出满足条件的实例化视图集,而且可以准确地找到具有最短平均响应时间的实例化视图集,避免了在用户给出过大的参数时,实例化一些无益于缩短查询响应时间的视图。实验结果表明,算法PBC是有效的。  相似文献   

8.
封闭数据立方体技术研究   总被引:14,自引:1,他引:14  
李盛恩  王珊 《软件学报》2004,15(8):1165-1171
数据立方体中有很多冗余信息,去除这些冗余信息不但可以节约存储空间,还可以加快计算速度.数据立方体中的元组可以划分为封闭元组和非封闭元组.对任何一个非封闭元组,一定存在一个封闭元组,它们都是从基本表的同一组元组中经过聚集运算得到的,因而具有相同的聚集函数值.去掉数据立方体中所有的非封闭元组就产生了一个封闭数据立方体.提出了封闭数据立方体的生成算法、查询算法和增量维护算法,并使用合成数据和实际数据做了一些实验.实验结果表明,封闭数据立方体技术是有效的.  相似文献   

9.
Efe提出的交叉立方体(crossed cube)是超立方体(hypercube)的一种变型.交叉立方体的某些性质优于超立方体,比如其直径几乎是超立方体的一半.首先证明n(n≥3)维交叉立方体网络不存在无死锁的最短路径路由算法,然后利用虚通道技术将一条物理通道分成三条逻辑通道,并在此基础上提出一种基于虫洞路由的最短路径路由算法,其时间复杂度为O(n).理论证明了算法是无死锁的.  相似文献   

10.
随着数据采集技术的发展,人们获取数据的途径呈多样化,所得到的数据往往具有多个视图,从而形成多视图数据。利用多视图数据不同的信息特征,设计相应的多视图学习策略以提高分类器的性能是多视图学习的研究目标。为更好地利用多视图数据,促进降维算法在实际中的应用,对多视图降维算法进行研究。分析多视图数据和多视图学习,在典型相关分析(CCA)的基础上追溯多视图CCA和核CCA,介绍多视图降维算法从两个视图到多个视图以及从线性到非线性的演化过程,总结各种融入判别信息和近邻信息的多视图降维算法,以更好地学习多视图降维算法。在此基础上,对比分析多视图降维算法的特点及存在的问题,并对未来的研究方向进行展望。  相似文献   

11.
The results of data cube will occupy huge amount of disk space when the base table is of a large number of attributes. A new type of data cube, compact data cube like condensed cube and quotient cube, was proposed to solve the problem. It compresses data cube dramatically. However, its query cost is so high that it cannot be used in most applications. This paper introduces the semi-closed cube to reduce the size of data cube and achieve almost the same query response time as the data cube does. Semi-closed cube is a generalization of condensed cube and quotient cube and is constructed from a quotient cube. When the query cost of quotient cube is higher than a given threshold, semi-closed cube selects some views and picks a fellow for each of them. All the tuples of those views are materialized except those closed by their fellows. To find a tuple of those views, users only need to scan the view and its fellow. Thus, their query performance is improved. Experiments were conducted using a real-world data set. The results show that semi-closed cube is an effective approach of data cube.  相似文献   

12.
空间数据立方体的技术框架*   总被引:4,自引:3,他引:1  
系统地论述了研究空间数据立方体的目的和意义,介绍了空间数据立方体的非空间维、空间维、数字度量、空间度量的基本概念和结构,描述了空间数据立方体的完整意思,设计出了空间数据立方体的概念模型即空间数据立方体的星型/雪片模型。最后,基于数学工具——代数系统,给出了空间数据立方体严格的数学定义。  相似文献   

13.
当数据立方查询条件不是合取范式时,一般是将它转化成为若干合取范式的并的形式(析取范式)。但如果各合取范式之间有交集,则交集部分的记录会被多次查询。为了解决这个问题,文章提出了一种数据立方查询条件优化策略,把查询条件转化为互不相交的立方块的并的形式。文章详细地讨论了数据立方中互不相交的立方块的划分方法,并给出了该优化策略的实现算法和性能分析。结果表明,当查询条件不是合取范式时,该优化策略明显提高了查询性能。  相似文献   

14.
数据方体系统设计中的优化问题   总被引:2,自引:0,他引:2  
支持实时查询的联机分析处理系统的设计是当前一个很重要的研究问题。其中常用的方法是使用数据方体来实现。对于出现频率较高的查询,可以给出对应的数据方体集,使得每个查询都可以直接得到回答。但是在设计基于方体的系统时,需要考虑以下两个问题:(1)数据方体的维护成本,(2)回答频繁查询的响应时间。在用户给出了维护成本上限和响应时间上限后,需要对数据方体集进行优化,使得系统能够满足用户的要求,并回答尽可能多的查询。文章给出了数据方体系统设计优化问题的定义,这是一个NP完全问题,并提出了贪心删除和贪心合并的近似算法。实验表明了算法的有效性。  相似文献   

15.
Parallel ROLAP Data Cube Construction on Shared-Nothing Multiprocessors   总被引:8,自引:2,他引:6  
The pre-computation of data cubes is critical to improving the response time of On-Line Analytical Processing (OLAP) systems and can be instrumental in accelerating data mining tasks in large data warehouses. In order to meet the need for improved performance created by growing data sizes, parallel solutions for generating the data cube are becoming increasingly important. This paper presents a parallel method for generating data cubes on a shared-nothing multiprocessor. Since no (expensive) shared disk is required, our method can be used on low cost Beowulf style clusters consisting of standard PCs with local disks connected via a data switch. Our approach uses a ROLAP representation of the data cube where views are stored as relational tables. This allows for tight integration with current relational database technology.We have implemented our parallel shared-nothing data cube generation method and evaluated it on a PC cluster, exploring relative speedup, local vs. global schedule trees, data skew, cardinality of dimensions, data dimensionality, and balance tradeoffs. For an input data set of 2,000,000 rows (72 Megabytes), our parallel data cube generation method achieves close to optimal speedup; generating a full data cube of 227 million rows (5.6 Gigabytes) on a 16 processors cluster in under 6 minutes. For an input data set of 10,000,000 rows (360 Megabytes), our parallel method, running on a 16 processor PC cluster, created a data cube consisting of 846 million rows (21.7 Gigabytes) in under 47 minutes.  相似文献   

16.
李翠平  王珊 《计算机科学》2005,32(9):100-102
尽管利用预计算可以提高OLAP的查询效率,但是,由于存储空间的限制,预计算整个数据方体是不现实的.最近提出的综合数据方体通过将数据单元进行等价划分的方法解决了这个问题.然而,当数据源发生改变的时候,要对这样的数据方体进行维护是很困难的,即使只有一条元组发生了变化,所有的聚集值都必须重新计算,代价非常高.实际上,在有些应用环境中,人们更关注查询响应的速度,在查询结果的精度上可以放低一些要求.本文提出了如何对近似的综合数据方体进行增量维护的方法.实验证明,这些方法是非常有效的.  相似文献   

17.
文章利用并行计算框架MapReduce,探索数据立方体的计算问题。数据立方体的计算存在两个关键问题,一个是计算时间的问题,另一个是立方体的体积问题。随着维度的增加,计算时间将呈现指数级的增长,立方体的体积也是如此。尽管MapReduce是一个优秀的并行计算框架,但在处理数据倾斜时,分区算法不够完善,导致一些计算任务时间过长,影响整个作业的完成时间。本文通过数据采样的方式,优化数据分区,实验结果表明,数据立方体的计算的性能明显提升。为解决数据立方体体积过大的问题,在Reduce阶段将最终的结果输出到基于NoSQL的HBase数据库进行存储,HBase方便水平扩展,同时也便于日后对数据立方体的查询。  相似文献   

18.
The design of an OLAP system for supporting real-time queries is one of the major research issues. One approach is to use data cubes, which are materialized precomputed multidimensional views of data in a data warehouse. We can derive a set of data cubes to answer each frequently asked query directly. However, there are two practical problems: (1) the maintenance cost of the data cubes, and (2) the query cost to answer those queries. Maintaining a data cube requires disk storage and CPU computation, so the maintenance cost is related to the total size as well as the total number of data cubes materialized. In most cases, materializing all data cubes is impractical. The maintenance cost may be reduced by merging some data cubes. However, the resulting larger data cubes will increase the query cost of answering some queries. If the bounds on the maintenance cost and the query cost are too strict, we help the user decide which queries to be sacrificed and not taken into consideration. We have defined an optimization problem in data cube system design. Given a maintenance-cost bound, a query-cost bound and a set of frequently asked queries, it is necessary to determine a set of data cubes such that the system can answer a largest subset of the queries without violating the two bounds. This is an NP-hard problem. We propose approximate Greedy algorithms GR, 2GM and 2GMM, which are shown to be both effective and efficient by experiments done on a census data set and a forest-cover-type data set.  相似文献   

19.
介绍了在数据立方体上对于不同可信度的数据进行分块的方法,阐述了基于数据立方体分块的多维关联规则挖掘的算法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号