首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
联机分析处理数据立方体代数   总被引:11,自引:1,他引:10  
裴健  柴玮  赵畅  唐世渭  杨冬青 《软件学报》1999,10(6):561-569
数据立方体是多维数据库和以多维分析为基础的联机分析处理技术的核心机制.文章提出了一个支持多维数据库和多维分析的关于数据立方体的代数,从而为数据仓库及联机分析处理的语义描述提供了理论基础.同时,文章还论述了数据立方体的一些应用,以证明该工具所具有的强大功能.  相似文献   

2.
OLAP核心技术—数据立方体的研究现状与展望   总被引:6,自引:0,他引:6  
该文从OLAP的基本功能出发,综述了其核心技术-数据立方体(Data Cube)的研究现状,主要讨论了3个方面:数据立方体建模,数据立方体计算和数据立方体操作,最后展望了该领域的研究方向。  相似文献   

3.
提出一种新的数据立方体结构,通过索引和集合的交并运算来获得查询结果,特别是在进行区域查询时,避免了将区域分解为点后再依次进行点查询的方式,从而在保持较少的磁盘空间和较好的点查询响应速度的情况下,改善区域查询的性能;同时给出其生成和查询算法,并使用合成数据和实际数据进行了实验验证.  相似文献   

4.
基于数据立方体的联机分析挖掘模型研究   总被引:1,自引:0,他引:1       下载免费PDF全文
本文提出一种联机分析挖掘模型,该模型基于数据仓库和其他各种类型文件生成的工作仓库,同时综合了联机分析处理多维分析的在线性、灵活性和数据挖掘处理的智能化特点,提高了传统模型的灵活性和智能化程度。  相似文献   

5.
范围查询是数据立方体数据分析的有效工具,预计算技术通过预先计算并存储范围查询的结果,可以实现快速的用户响应。近年来研究人员对基于MOLAP的预计算技术的研究主要以prefix sum及分块技术为基础。本文对预计算技术的分块方法进行研究,分析了现有分块技术的方法和性能,并提出了两种新的分块方法:嵌套分块和基于前缀区域边界的分块。本文对这两种分块的方法和特点做了阐述,研究表明这两种方法为分块技术提出了新的思路,是对现有分块方案的有力补充。  相似文献   

6.
数据立方体计算方法研究综述   总被引:2,自引:0,他引:2  
随着多维数据分析在各领域的广泛应用,基于数据立方体的计算方法受到大量研究者的关注.分析了影响 数据立方体计算的各种因素,其中包括数据存储空间、查询处理效率和数据立方体的维护消耗,并且阐述了数据立方体的物化策略.分别从冰山立方体、紧凑数据立方体、高维数据立方体、近似计算、流式数据立方体等几个方面综述了国内外现有的计算方法,分析了各种方法的特点以及适用范围.  相似文献   

7.
多路数组聚集优化算法   总被引:2,自引:0,他引:2  
尹阿东  武森  宫雨  高学东 《计算机工程》2004,30(9):89-91,98
针对MOLAP服务器中多维数据的聚集操作,在传统的多路数组聚集算法的基础上,提出一种寻找最优聚集次序的计算方法。在实示计算中,应用这种方法可以方便、快捷地对以数据立方体形式存储于MOLAP服务器中的多维数据进行聚集操作。  相似文献   

8.
封闭数据立方体技术研究   总被引:14,自引:1,他引:14  
李盛恩  王珊 《软件学报》2004,15(8):1165-1171
数据立方体中有很多冗余信息,去除这些冗余信息不但可以节约存储空间,还可以加快计算速度.数据立方体中的元组可以划分为封闭元组和非封闭元组.对任何一个非封闭元组,一定存在一个封闭元组,它们都是从基本表的同一组元组中经过聚集运算得到的,因而具有相同的聚集函数值.去掉数据立方体中所有的非封闭元组就产生了一个封闭数据立方体.提出了封闭数据立方体的生成算法、查询算法和增量维护算法,并使用合成数据和实际数据做了一些实验.实验结果表明,封闭数据立方体技术是有效的.  相似文献   

9.
数据立方体计算是联机分析中一项重要的技术。研完工作者提出了多种具有不同存储空间和查询相应时间的数据立方体,每种数据立方体有独自的生成算法。本文分析了使用关系系统作为存储结构的一般数据立方体、部分数据立方体和浓缩数据立方体的原理,提出用合作伙伴的概念统一这三类数据立方体的思想,并设计了一个算法TCUBE用于生成这些数据立方体。我们使用了一个实际数据集测试了TCUBE的性能,结果表明它生成浓缩数据立方体的速度要快于原有的算法。  相似文献   

10.
商业智能系统应用联机分析处理技术将数据组织为多维数据立方体。该文建立了数据立方体中非空单元与决策表中等价类的一一映射关系。通过复用数据立方体中的聚合结果,提出一种基于数据立方体计算相容决策表属性核的方法,并证明了该方法的正确性。利用UCI数据集进行实验,结果表明在大数据量下该方法具有较好的时间效率。  相似文献   

11.
基于分组序号的聚集算法   总被引:4,自引:0,他引:4  
联机分析处理OLAP(online analytical processing)查询作为一种复杂查询,当使用SQL(structured query language)语句来表述时,通常都包含多表连接和分组聚集操作,因此提高多表连接和分组聚集计算的性能就成为ROLAP(relational OLAP)查询处理的关键问题.提出一种基于分组序号的聚集算法MuGA(group number based aggregation with multi-table join),该方法充分考虑数据仓库星型模式的特点,将聚集操作和新的多表连接算法MJoin(multi-table join)相结合,使用分组序号进行分组聚集计算,代替通常的排序或者哈希计算,从而有效地减少CPU运算以及磁盘存取的开销.算法的实验数据表明,提出的MuGA算法与传统的关系数据库聚集查询处理方法以及改进后的基于排序的聚集算法相比,性能都有显著提高.  相似文献   

12.
联机分析查询处理中的一种聚集算法   总被引:10,自引:2,他引:10  
联机分析处理(online analytical processing,简称OLAP)查询是涉及大量数据的即席复杂查询,从SQL(structured query language)角度来看,这些查询通常都包含多表连接和分组聚集操作.从OLAP查询处理角度出发,提出一种新的基于排序的聚集查询算法MuSA(sort-based aggregation with multi-table join).该方法充分考虑到数据仓库星型模式的特点,将聚集操作和新的多表连接算法MJoin相结合,排序时采用  相似文献   

13.
The results of data cube will occupy huge amount of disk space when the base table is of a large number of attributes. A new type of data cube, compact data cube like condensed cube and quotient cube, was proposed to solve the problem. It compresses data cube dramatically. However, its query cost is so high that it cannot be used in most applications. This paper introduces the semi-closed cube to reduce the size of data cube and achieve almost the same query response time as the data cube does. Semi-closed cube is a generalization of condensed cube and quotient cube and is constructed from a quotient cube. When the query cost of quotient cube is higher than a given threshold, semi-closed cube selects some views and picks a fellow for each of them. All the tuples of those views are materialized except those closed by their fellows. To find a tuple of those views, users only need to scan the view and its fellow. Thus, their query performance is improved. Experiments were conducted using a real-world data set. The results show that semi-closed cube is an effective approach of data cube.  相似文献   

14.
缓存敏感的封闭冰山立方体计算   总被引:1,自引:0,他引:1  
栾华  杜小勇  王珊 《软件学报》2010,21(4):620-631
数据立方体计算通常会产生大量的输出结果,冰山立方体和封闭立方体是解决这个问题的比较流行的两种策略,二者可以结合使用.鉴于封闭冰山立方体(closed iceberg cube)的重要性和实用性,如何高效地计算封闭冰山立方体是一个值得研究的问题.提出一种缓存敏感(cache-conscious)的计算封闭冰山立方体的方法,在自底向上对数据进行聚集的同时,寻找覆盖聚集单元的封闭单元,将其输出,使用两种策略进行剪枝,去掉不必要的递归,同时使用Apriori剪枝技术,支持冰山立方体(iceberg cube)的计算.为了减少与内存相关的延迟,快速得到聚集结果,对多个维进行预排序,并将软件预取技术引入到数据扫描中.在模拟数据和真实数据上进行了详细而全面的实验研究,结果表明,封闭冰山立方体的计算方法是快速、有效的.  相似文献   

15.
根据data cube层次性的特点和查询习惯提出了新的分块计算方法,并在此基础上提出了改进算法.这种方法节约了存储空间,在LBD粒度及其上的查询效率为O(1),同时数据的更新时间大约为O(),还节约了大量的存储空间,并且使得数据立方具有了一定的结构独立性,能有效的减少重新构造数据立方(reprocess)的次数,因而在时间上和效率上有较大的优势.  相似文献   

16.
一种基于维层次编码的OLAP聚集查询算法   总被引:8,自引:2,他引:8  
联机分析处理(OLAP)查询往往需在海量数据上进行即席的复杂分组聚集查询,在其SQL语句中通常包含多表连接和分组聚集操作,因而减少多表连接和压缩关键字,以及对查询数据进行有效地分组聚集操作,成为ROLAP查询处理的关键问题。提出了一种基于维层次编码的新型预分组聚集算法DHEPGA.DHEPGA算法充分利用了编码长度较小的维层次编码及其前缀,来快速检索出与查询关键字相匹配的维层次编码,求得维层次属性的查询范围,减少了I/O开销,提高了OLAP查询效率。理论分析和实验结果表明,DHEPGA算法性能是非常有效的。  相似文献   

17.
Decision support usuallyrequires drawing from a huge data warehouse some statisticalinformation that is interesting and useful to its users. A typicaldata model that supports the data warehouse is the multidimensionaldatabase, also known as a data cube. A data cube contains cells,each of which is associated with some summary information, or aggregate, that the decisions are to be based on. However, inreal-life databases, due to the nature of their contents, datadistribution tends to be clustered and sparse. The sparsity situationgets worse, in general, as the number of cells increases. Forthose cells that have support levels below a certain threshold,combining with adjacent cells is necessary to acquire sufficientsupport. Otherwise, incomplete or biased results could be deriveddue to lack of sufficient support.Our mainfocus in this paper is to find approximations for the missingor biased aggregates of those cells that have missing or lowsupport. We call this approximation process smoothing in thispaper. We propose a smooth function that can smooth nicely ona quantitative attribute while still being preserved locally.Our method is also adaptive to sudden changes of data distribution,called discontinuities, that inevitably occur in real-life data.  相似文献   

18.
用于数据仓储的一种改进的多维存储结构   总被引:7,自引:2,他引:7  
冯建华  蒋旭东  周立柱 《软件学报》2002,13(8):1423-1429
对于数据仓库中数据的物理存储组织,目前主要有关系和多维数组两种方式.这两种方式各有自己的优缺点,从提高联机分析处理(online analytical processing,简称OLAP)查询处理性能的角度出发,多维数组方式相对较优,目的主要是解决数据仓库的多维存储结构问题.针对当前多维数组存储组织方式存在的一些问题,提出了Cube(立方体)逻辑存储和物理存储的概念,首先将原多维数据空间划分为逻辑子空间,逻辑块再划分为多个物理块.在物理存储时充分考虑了多维数组的大容量和高稀疏度的问题,并采用新的多维数组的分布和压缩方法.这些概念和方法有效地解决了维内部层次结构的聚集操作和Cube操作的效率问题,显著提高了涉及维内部层次的聚集查询的响应速度,同时还解决了增量维护的效率问题.  相似文献   

19.
数据仓库系统中层次式Cube存储结构   总被引:11,自引:0,他引:11       下载免费PDF全文
高宏  李建中  李金宝 《软件学报》2003,14(7):1258-1266
区域查询是数据仓库上支持联机分析处理(on-line analytical processing,简称OLAP)的重要操作.近几年,人们提出了一些支持区域查询和数据更新的Cube存储结构.然而这些存储结构的空间复杂性和时间复杂性都很高,难以在实际中使用.为此,提出了一种层次式Cube存储结构HDC(hierarchical data cube)及其上的相关算法.HDC上区域查询的代价和数据更新代价均为O(logdn),综合性能为O((logn)2d)(使用CqCu模型)或O(K(logn)d)(使用Cqnq+Cunu模型).理论分析与实验表明,HDC的区域查询代价、数据更新代价、空间代价以及综合性能都优于目前所有的Cube存储结构.  相似文献   

20.
数据仓库的多维数据模型的研究   总被引:3,自引:0,他引:3  
多维数据模型是数据仓库和联机分析处理研究中的一个重要问题,该文根据电力负荷数据集的特点,提出了一种新模型,解决不同维公用一个底层层次属性,把系统中不完全的低粒度数据集和完全的粗粒度数据集在逻辑上无缝地结合起来支持联机分析处理的问题,这是其他多维数据模型所没有解决的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号