首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 140 毫秒
1.
数据立方梯度是关联规则更富表达能力的扩展,可以通过带约束的数据立方梯度挖掘发现用户关心的各种数据变化趋势。研究了数据立方梯度的联机挖掘问题,并给出了基于BUBST浓缩数据立方的具体实现方案。利用联机分析处理服务中预先计算的数据立方进行数据立方梯度的联机挖掘,不仅可以消除同时保存立方梯度和立方元组而带来的冗余,而且更加符合用户在浏览数据立方过程中自然产生的挖掘兴趣。  相似文献   

2.
一种快速生成最小浓缩数据立方的算法   总被引:2,自引:0,他引:2  
语义OLAP技术是近来学者研究的热点之一,浓缩数据立方就是其中一种.本文设计了一个用于快速生成最小浓缩数据立方的算法SQCube.算法分两个阶段:首先利用BottomUpBST算法生成一个非最小的浓缩数据立方,然后对所得到的非最小浓缩数据立方进行后处理,把其中的所有纯BST和隐BST压缩为一条BST,从而生成一个最小浓缩数据立方.实验表明SQCube算法明显优于以往提出的同类算法MinCube.  相似文献   

3.
现有数据立方梯度查询语言CubegradeQL主要是针对非实例化数据立方的,实际上,为了提高OLAP查询效率,数据仓库中往往保存了大量实例化的数据立方。本文我们改进了CubegradeQL语言,给出了一个新的查询语言dmGQL,dmGQL能够支持实例化/非实例化数据立方中的梯度查询,最后,我们讨论了dmGQL的查询处理。  相似文献   

4.
CBFrag-Cubing:一种基于压缩位图的高维数据立方创建算法   总被引:1,自引:0,他引:1  
数据立方的计算是数据仓库和OLAP研究的一个重要方向,同时又是数据仓库中代价很大的操作。针对在生物信息、统计分析、文本处理等领域中存在的基数较小的高维数据集,X.L.Li等人提出了Frag-Cubing算法。为了提高Frag-Cubing算法的效率,本文提出了基于分片思想的算法CBFrag-Cubing。该算法使用了位图索引结构,优化了数据立方的存储,减少了数据立方的计算时间。实验表明,与Frag-Cubing算法相比,该算法在存储空间上至少节省25%,在计算时间上节省30%。  相似文献   

5.
封闭数据立方是一种有效的无损压缩技术,它去掉了数据立方中的冗余信息,从而有效降低了数据立方的存储空间、加快了计算速度,而且几乎不影响查询性能.Hadoop的MapReduce并行计算模型为数据立方的计算提供了技术支持,Hadoop的分布式文件系统HDFS为数据立方的存储提供了保障.为了节省存储空间、加快查询速度,在传统数据立方的基础上提出封闭直方图立方,它在封闭数据立方的基础上通过编码技术进一步节省了存储空间,通过建立索引加快了查询速度.Hadoop并行计算平台不论从扩展性还是均衡性都为封闭直方图立方提供了保证.实验证明:封闭直方图立方对数据立方进行了有效压缩,具有较高的查询性能,根据Hadoop的特点通过增加节点个数明显加快了计算速度.  相似文献   

6.
MapReduce环境下的并行Dwarf立方构建   总被引:1,自引:0,他引:1  
针对数据密集型应用,提出了一种基于MapReduce框架的并行Dwarf数据立方构建算法.算法将传统Dwarf立方等价分割为多个独立的子Dwarf立方,采用MapReduce架构,实现了Dwarf立方的并行构建、查询和更新.实验证明,并行Dwarf算法一方面结合了MapReduce框架的并行性和高可扩展性,另一方面结合...  相似文献   

7.
前缀立方的索引   总被引:1,自引:0,他引:1  
前缀立方是最近提出的一种新的数据立方结构.它利用前缀共享和基本单元组有效地缩小了数据立方的尺寸,相应减少了数据立方的计算时间.为提高前缀立方的查询性能,本文提出了它的一种索引机制Prefix-CuboidTree.文中用真实数据集和模拟数据集进行大量实验,证明了该索引机制的查询性能.  相似文献   

8.
预计算一个完整的数据立方可以获得最快的查询响应速度,但是对于一个大规模的数据立方,所需的存储空间非常大,因此通常只能预先计算数据立方中的部分聚集。文章提出了计算部分数据立方的算法PCC(PartialComputationofCube),它的特点是采用自底向上的划分方法,能根据需要计算的聚集确定维的划分路径,并裁减不必要的聚集和划分。实验表明,和利用完整数据立方的计算方法BUC来计算部分数据立方的方法比,PCC算法的效率更高。  相似文献   

9.
时间序列数据立方的存储与聚集计算   总被引:1,自引:0,他引:1  
本文讨论了从时序数建造、存储数据立方,以及聚集计算的算法,其中N23算法和扩展的EN23算法可以方便地将一个N(N〉3)维数据方立转换为三维数据立方,大大降低了I/O次数,极大地提高了运行效率。  相似文献   

10.
Quotient Cube和QC-tree试图在浓缩一个数据立方尺寸的同时,保持该数据立方蕴涵的语义,但是,前者没有语义关系的存储,后者存储的语义关系是晦涩模糊的.为此提出了下钻立方结构,首次从语义角度考虑数据立方存储,存储的不是类的内容,而是类之间的直接下钻关系.下钻立方不仅能够极大地减小数据立方的存储尺寸,而且可以清晰地表达原数据立方蕴涵的下钻语义.此外,下钻立方具有较高的查询响应性能,这一点在范围查询中表现得尤其显著.实验和分析表明,下钻立方在存储尺寸和查询响应方面明显优于QC-tree,适于用来组织和存储数据立方.  相似文献   

11.
数据立方梯度挖掘的研究   总被引:2,自引:0,他引:2  
1 前言随着人们生成、收集和存储数字化数据能力的极大提高,当今世界面临着各种原始数据的爆炸性增长。数据库技术的巨大进步创建了对大量数据的有效存储,成千上万的大型数据库被广泛地应用在商业、政府和科研等等部门。大量数据资源的积累为人们从历史数据中发现有用信息提供了基础,人们期望数据库能够提供智能化或者至少是半自动化的数据分析处理的能力。于是,数据仓库技术(Data Warehouse)、联机分析处理技术(On Line Analysis Processing)以及数据挖掘技术(Data Mining)应运而生。  相似文献   

12.
基于数据立方体的多维关联规则的挖掘方法   总被引:17,自引:0,他引:17  
高学东  王文贤  武森 《计算机工程》2003,29(14):74-76,153
总结了现有基于数据立方体的多维关联规则挖掘算法,在此基础上将联机分析处理(OLAP)的钻取操作引入关联规则挖掘过程,提出Apriori_cubc算法的改进算法。通过动态调整立方体的维层次,来挖掘出用户感兴趣的关联规则。  相似文献   

13.
数据立方体上多维多层关联规则挖掘算法   总被引:7,自引:0,他引:7  
重点结合联机分析挖掘的思想,讨论了数据立方体上的多维多层关联规则挖掘。基于数据立方体和FP算法提出并构建了体现概念层次的Hib&Dim FP树和其挖掘算法Hib&Dim FP算法,并把此算法应用于数据立方体上的多维多层关联规则挖掘。最后的实验证明了该算法的有效性。  相似文献   

14.
二维立方体中关联规则挖掘算法研究   总被引:2,自引:0,他引:2  
秦锋  杨学兵 《微机发展》2003,13(2):86-88
针对二维数据立方体的结构特点 ,通过对传统的关联规则挖掘算法的改进 ,提出了一种二维立方体关联规则挖掘的新颖算法。该算法通过有效组织挖掘过程中的数据结构 ,降低对立方体的扫描次数 ,并充分利用联机分析处理技术 ,从而大大降低了执行时间 ,提高了执行效率  相似文献   

15.
联机分析处理和数据挖掘是两种重要的数据分析方法。使用数据立方体作为数据存储结构,将两者集成起来,使得用户可以从不同角度、不同抽象层次分析数据。针对数据立方体的特点,本文提出了挖掘维间关联规则的算法,并编程实现了该算法,取得满意的结果。  相似文献   

16.
介绍了在数据立方体上对于不同可信度的数据进行分块的方法,阐述了基于数据立方体分块的多维关联规则挖掘的算法.  相似文献   

17.
梯度分析是数据仓库和联机分析处理中的一项重要分析任务,在决策支持中发挥着重要作用.本文根据实际应用的需要,提出了一种新颖的关键梯度分析方法.借助立方体计算中的计数排序和分割策略,通过扩展补充路径,并利用插入排序方法,实现了高效的关键梯度分析算法.在模拟数据上进行了大量的实验,结果证明了算法的高效性和实用性.  相似文献   

18.
文章利用并行计算框架MapReduce,探索数据立方体的计算问题。数据立方体的计算存在两个关键问题,一个是计算时间的问题,另一个是立方体的体积问题。随着维度的增加,计算时间将呈现指数级的增长,立方体的体积也是如此。尽管MapReduce是一个优秀的并行计算框架,但在处理数据倾斜时,分区算法不够完善,导致一些计算任务时间过长,影响整个作业的完成时间。本文通过数据采样的方式,优化数据分区,实验结果表明,数据立方体的计算的性能明显提升。为解决数据立方体体积过大的问题,在Reduce阶段将最终的结果输出到基于NoSQL的HBase数据库进行存储,HBase方便水平扩展,同时也便于日后对数据立方体的查询。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号