首页 | 本学科首页   官方微博 | 高级检索  
     

PC Cluster环境下基于多维数组的Data Cube算法
引用本文:李盛恩,李翠平,王珊,杜小勇. PC Cluster环境下基于多维数组的Data Cube算法[J]. 微电子学与计算机, 2003, 20(8): 1-6
作者姓名:李盛恩  李翠平  王珊  杜小勇
作者单位:1. 中国科学院计算技术研究所,北京,100080
2. 中国人民大学信息学院,北京,100872
基金项目:国家自然科学基金(69883007),教育部科学技术研究重点项目(02036)资助
摘    要:因为需要存取大量的数据,计算data cube要花费大量的时间和存储空间。本文研究了使用便宜的PC机群计算data cube的方法。我们使用多维数组作为存储结构,并将数组划分成若干个分片。对每个分片进行压缩以节约存储空间、减少存取时间和增量维护时间,分片被分布到不同的处理机。我们提出了一个新的流水线组织方法以及对分片建立索引的思想,大大减少了外排序的代价和存取磁盘的次数。实验结果表明我们的算法具有一定的伸缩性。

关 键 词:数据仓库  多维数组  DataCube算法  联机分析  PC机
修稿时间:2002-11-20

An Array-based Algorithm for Data Cube Computation With PC Cluster
LI Sheng-en ,LI Cui-ping ,WANG Shan ,DU Xiao-yong. An Array-based Algorithm for Data Cube Computation With PC Cluster[J]. Microelectronics & Computer, 2003, 20(8): 1-6
Authors:LI Sheng-en   LI Cui-ping   WANG Shan   DU Xiao-yong
Affiliation:LI Sheng-en 1,LI Cui-ping 1,WANG Shan 2,DU Xiao-yong 21
Abstract:The computation of data cube is a very expensive op-eration because a lot of data have to be accessed.We investi-gate the approach of using low cost PC cluster to compute data cube.In our approach,multidimensional array is used to store data.We partition multidimensional array into fragments and distribute them among machines in cluster.Fragments are com-pressed to save storage space,access time and incremental maintenance time.We propose a novel method to organize pipeline and an idea of creating fragment index file.The cost of outer sort and the amount of accessing disk are dramatically re-duced.The experiment results show the algorithm is of scalability.
Keywords:Data warehouse  OLAP  Data Cube  
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号