首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 0 毫秒
1.
Parallel data processing is a promising approach for efficiently computing data cube in relational databases, because most aggregate functions used in OLAP (On-Line Analytical Processing) are distributive functions. This paper studies the issues of handling data skew in parallel data cube computation. We present a fully dynamic partitioning approach that can effectively distribute workload among processing nodes without priori knowledge of data distribution. As supplement, a simple and effective dynamic load balancing mechanism is also incorporated into our algorithm, which further improves the overall performance. Our experimental results indicated that the proposed techniques are effective even when high data skew exists. The results of scale-up and speedup tests are also satisfactory.  相似文献   

2.
Star Cube--一种高效的数据立方体实现方法   总被引:1,自引:2,他引:1  
一个具有n个维的数据立方体有2^n个视图,视图越多,用于维护数据立方体的时间也就越长。通过将维分成划分维和非划分维,数据立方体可以转换成star cube.stal cube由一个综合表和那些仅包含划分维的视图组成。star cube使用前缀共享和元组共享技术不仅减少了所需的存储空间,还大大减少了计算和维护时间。在把一个分片限制在一个I/O单位的条件下,star cube的查询响应时间与数据立方体基本相同。实验结果也表明,star cube是一种在时空两方面均有效的数据立方体实现技术。  相似文献   

3.
联机分析处理和数据挖掘是两种重要的数据分析方法。使用数据立方体作为数据存储结构,将两者集成起来,使得用户可以从不同角度、不同抽象层次分析数据。针对数据立方体的特点,本文提出了挖掘维间关联规则的算法,并编程实现了该算法,取得满意的结果。  相似文献   

4.
Parallelizing the Data Cube   总被引:1,自引:0,他引:1  
This paper presents a general methodology for the efficient parallelization of existing data cube construction algorithms. We describe two different partitioning strategies, one for top-down and one for bottom-up cube algorithms. Both partitioning strategies assign subcubes to individual processors in such a way that the loads assigned to the processors are balanced. Our methods reduce inter processor communication overhead by partitioning the load in advance instead of computing each individual group-by in parallel. Our partitioning strategies create a small number of coarse tasks. This allows for sharing of prefixes and sort orders between different group-by computations. Our methods enable code reuse by permitting the use of existing sequential (external memory) data cube algorithms for the subcube computations on each processor. This supports the transfer of optimized sequential data cube code to a parallel setting.The bottom-up partitioning strategy balances the number of single attribute external memory sorts made by each processor. The top-down strategy partitions a weighted tree in which weights reflect algorithm specific cost measures like estimated group-by sizes. Both partitioning approaches can be implemented on any shared disk type parallel machine composed of p processors connected via an interconnection fabric and with access to a shared parallel disk array.We have implemented our parallel top-down data cube construction method in C++ with the MPI message passing library for communication and the LEDA library for the required graph algorithms. We tested our code on an eight processor cluster, using a variety of different data sets with a range of sizes, dimensions, density, and skew. Comparison tests were performed on a SunFire 6800. The tests show that our partitioning strategies generate a close to optimal load balance between processors. The actual run times observed show an optimal speedup of p.  相似文献   

5.
许睿  刘文才 《计算机工程与应用》2002,38(21):210-211,215
数据仓库及OLAP技术是当前数据库领域研究的热点,而数据模型又是数据仓库及OLAP核心基础。文章提出了一种应用于OLAP的数据模型,并用于实际应用中。这种数据模型在概念上表达了OLAP特性,支持OLAP操作,而且其数学代数简单明白地表达了OLAP查询。  相似文献   

6.
OLAP核心技术-数据立方体的研究现状与展望   总被引:6,自引:0,他引:6  
该文从OLAP的基本功能出发,综述了其核心技术-数据立方体(Data Cube)的研究现状,主要讨论了3个方面:数据立方体建模,数据立方体计算和数据立方体操作,最后展望了该领域的研究方向。  相似文献   

7.
The design of an OLAP system for supporting real-time queries is one of the major research issues. One approach is to use data cubes, which are materialized precomputed multidimensional views of data in a data warehouse. We can derive a set of data cubes to answer each frequently asked query directly. However, there are two practical problems: (1) the maintenance cost of the data cubes, and (2) the query cost to answer those queries. Maintaining a data cube requires disk storage and CPU computation, so the maintenance cost is related to the total size as well as the total number of data cubes materialized. In most cases, materializing all data cubes is impractical. The maintenance cost may be reduced by merging some data cubes. However, the resulting larger data cubes will increase the query cost of answering some queries. If the bounds on the maintenance cost and the query cost are too strict, we help the user decide which queries to be sacrificed and not taken into consideration. We have defined an optimization problem in data cube system design. Given a maintenance-cost bound, a query-cost bound and a set of frequently asked queries, it is necessary to determine a set of data cubes such that the system can answer a largest subset of the queries without violating the two bounds. This is an NP-hard problem. We propose approximate Greedy algorithms GR, 2GM and 2GMM, which are shown to be both effective and efficient by experiments done on a census data set and a forest-cover-type data set.  相似文献   

8.
GSFC--基于图结构的Free Cube存储方法   总被引:2,自引:0,他引:2  
free cube利用发掘基本关系表维值之间的蕴含规则,去除data cube中内在冗余,有效减小data cube体积.但是还存在一些值得进一步研究的问题.首先,直接地表示free cube仍然不够精简从而浪费了存储空间.其次,只提到了查询的基本思想,没有给出具体的查询技术.针对这些问题,提出了基于图结构的存储方法GSFC,利用前缀压缩进一步减小free cube体积.同时,该方法结合了存储和索引结构,有效解决free cube的查询问题.最后给出了计算和查询算法,并利用实验来证明算法的有效性.  相似文献   

9.
网络教学评价是网络教学的一个重要环节。提出了基于数据立方体的网络教学评价模型,以学生、教师为评价对象.构建相应的数据立方体。学生学习行为数据立方体及教师教学行为数据立方体均由六个维度构成,以访问时间作为主要的度量值。并讨论了模型中涉及的关键技术。  相似文献   

10.
网络教学评价是网络教学的一个重要环节。提出了基于数据立方体的网络教学评价模型,以学生、教师为评价对象,构建相应的数据立方体。学生学习行为数据立方体及教师教学行为数据立方体均由六个维度构成,以访问时间作为主要的度量值。并讨论了模型中涉及的关键技术。  相似文献   

11.
基于图形处理器的并行方体计算   总被引:1,自引:0,他引:1  
方体(cube)计算是数据仓库和联机分析处理(Online analytical processing,OLAP)领域的核心问题,如何提高方体计算性能获得了学术界和工业界的广泛关注,但目前大部分方体算法都没有考虑最新的处理器架构.近年来,处理器从单一计算核心进化为多个或许多个计算核心,如多核CPU、图形处理器(Graphic Processing Units, GPU)等.为了充分利用现代处理器的多核资源,该文提出了基于GPU的并行方体算法GPU-Cubing,算法采用自底向上、广度优先的划分策略,每次并行完成一个cuboid的计算并输出;在计算cuboid过程中多个分区同步处理,分区内多线程并行.GPU-Cubing算法适合GPU体系结构,并行度高.与BUC算法相比,基于真实数据集的完全方体计算可以获得一个数量级以上的加速比,冰山方体获得至少2倍以上的加速.  相似文献   

12.
一种快速生成最小浓缩数据立方的算法   总被引:2,自引:0,他引:2  
语义OLAP技术是近来学者研究的热点之一,浓缩数据立方就是其中一种.本文设计了一个用于快速生成最小浓缩数据立方的算法SQCube.算法分两个阶段:首先利用BottomUpBST算法生成一个非最小的浓缩数据立方,然后对所得到的非最小浓缩数据立方进行后处理,把其中的所有纯BST和隐BST压缩为一条BST,从而生成一个最小浓缩数据立方.实验表明SQCube算法明显优于以往提出的同类算法MinCube.  相似文献   

13.
基于数据立方体的多维关联规则的挖掘方法   总被引:17,自引:0,他引:17  
高学东  王文贤  武森 《计算机工程》2003,29(14):74-76,153
总结了现有基于数据立方体的多维关联规则挖掘算法,在此基础上将联机分析处理(OLAP)的钻取操作引入关联规则挖掘过程,提出Apriori_cubc算法的改进算法。通过动态调整立方体的维层次,来挖掘出用户感兴趣的关联规则。  相似文献   

14.
数据方体系统设计中的优化问题   总被引:2,自引:0,他引:2  
支持实时查询的联机分析处理系统的设计是当前一个很重要的研究问题。其中常用的方法是使用数据方体来实现。对于出现频率较高的查询,可以给出对应的数据方体集,使得每个查询都可以直接得到回答。但是在设计基于方体的系统时,需要考虑以下两个问题:(1)数据方体的维护成本,(2)回答频繁查询的响应时间。在用户给出了维护成本上限和响应时间上限后,需要对数据方体集进行优化,使得系统能够满足用户的要求,并回答尽可能多的查询。文章给出了数据方体系统设计优化问题的定义,这是一个NP完全问题,并提出了贪心删除和贪心合并的近似算法。实验表明了算法的有效性。  相似文献   

15.
数据仓库中的一种立方体数据模型   总被引:9,自引:1,他引:9  
数据仓库和联机分析处理(OLAP)是商业数据处理领域中的两个最重大的新技术。OLAP应用要求对数据仓库中存储的大量数据进行分析,用标准关系数据库技术来实现非常复杂的查询是相当困难的。所以,在数据仓库中,数据被组织成立方体数据模型。该文提出了一种简单、直观的数据立方体模型以及在这个立方体上支持OLAP操作的代数。为复杂的查询提供了简要的表述方法。  相似文献   

16.
数据挖掘(Data Mining)是目前IT业界的热点,其身影随处可见。数据挖掘技术在许多行业中得到了很好的应用,尤其是在市场营销中获得了成功,初步体现了其优越性和发展潜力。该文主要分析了数据挖掘、数据仓库,联机分析处理(OLAP分析)等基本概念及它们之间的联系,并简要介绍了数据挖掘工具和数据挖掘应用领域。  相似文献   

17.
文章利用并行计算框架MapReduce,探索数据立方体的计算问题。数据立方体的计算存在两个关键问题,一个是计算时间的问题,另一个是立方体的体积问题。随着维度的增加,计算时间将呈现指数级的增长,立方体的体积也是如此。尽管MapReduce是一个优秀的并行计算框架,但在处理数据倾斜时,分区算法不够完善,导致一些计算任务时间过长,影响整个作业的完成时间。本文通过数据采样的方式,优化数据分区,实验结果表明,数据立方体的计算的性能明显提升。为解决数据立方体体积过大的问题,在Reduce阶段将最终的结果输出到基于NoSQL的HBase数据库进行存储,HBase方便水平扩展,同时也便于日后对数据立方体的查询。  相似文献   

18.
Web日志挖掘是目前Web挖掘研究的一个重点.针对Web日志挖掘中存在的问题,给出了基于数据仓库技术的Web日志挖掘方案,就数据预处理、数据立方体设计及数据挖掘技术的应用进行了较为深入的探讨.并以一个Web站点日志为例,详细阐述了Web日志数据预处理、Web日志立方体设计以及数据挖掘算法的实现过程,并实现了一个Web日志多维数据集,能够有效解决Web日志分析中的难题.  相似文献   

19.
介绍基于分布式数据库技术、网络通信技术、地理信息系统技术的空间数据仓库的设计方法。以福建省沿海地区遗迹保护区为例,搭建了一个分布式的空间数据仓库。在此基础上实现以地区行政级别、类型划分及保护区一般信息为雏度的多粒度数据部署。并以本数据仓库为倒,根据不同的空间联机分析(OLAP)服务请求,动态创建数据立方体,完成OLAP服务并返回空间OLAP结果。  相似文献   

20.
向阳  王庆大  张迎春 《计算机工程》2005,31(20):70-71,129
针对MS OLAP对海量数据立方体进行完全更新非常耗时,以及在它的服务器管理器中实现数据立方体的手动增最更新操作繁琐,需要由熟悉MDX语言的专业人员完成的问题,文章提出了基于事实表上时间戳或其它标志的自动增量更新方案,并给出了C#编写的程序示例。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号