首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 156 毫秒
1.
数据仓库中的维数据通常都是有层次的,基于维层次路径的聚簇能有效地在物理空间上将关联数据组织到一起,减少查询访问磁盘的次数。而现在的Cube存储结构都关注于Cube操作的计算和存储,忽视了这一特点。论文提出基于维层次聚簇的Cube存储结构HC(HierarchicallyClustered)Cube及相关算法,解决了目前存在的问题。  相似文献   

2.
基于多维数组MOLAP技术,针对目前使用较多的多维数组线性化压缩存储方法在处理维内部层次的聚集查询方面效率比较低的问题,本文提出了一种新的压缩存储方法,即采用二进制编码存储维方法,能有效提高存储和查询效率。  相似文献   

3.
在数据仓库系统中,数据立方体(Cube)及其预聚集处理在OLAP起到非常重要的作用.对于一d个d维的dataCube可以生成2d个聚集Cuboids和d∏i=1(|Di|+1)个聚集数据单元,但对于一个高维Cube,要创建这些所有聚集Cuboids是不现实的.提出通过共享分段立方体Mini.Cube的高维Cube并行分布式存储结构(DHMC),将高维Cube划分成若干个低维共享分段立方体Mini-Cube,利用并行分布式处理技术来创建这些分割的分段共享Mini—Cube及其聚集Cuboids,来实现高维Cube的并行创建和增量更新维护,从而解决高维OLAP聚集海量数据的存储与查询问题.理论分析与实验结果均表明DHMC性能最佳.  相似文献   

4.
联机分析多维存储结构的研究   总被引:1,自引:0,他引:1  
联机分析使用多维数组作为存储结构以加快查询响应时间。为了等同的对待每个维,适应稀疏数据,必须对多维数组进行划分。目前,有两种划分方法。本文分析了它们的优缺点,给出了一种统一的存储结构,实验结果表明,为了达到转换时间短和压缩比高的目的,要选择合适的划分向量和数据块体积。  相似文献   

5.
一种并行处理多维连接和聚集操作的有效方法   总被引:1,自引:0,他引:1  
随着并行计算算法的完善和廉价、功能强大的多处理机系统的成熟,使得采用多处理机系统来并行处理多维数据仓库的连接和聚集操作成为当前有效提高OLAP查询处理性能的首选技术.为此,提出一种降低连接和聚集操作开销的并行算法PJAMDDC(parallel join and aggregation for multi-dimensional data cube).算法充分考虑了多维数据立方体的存储机制和多处理机分布系统的结构特点,在原有聚集计算多维数据立方体的搜索点阵逻辑结构的基础上,采用多维数据仓库的层次联合代理(hierarchy combined surrogate)和对立方体的搜索点阵进行加权的方法,使得立方体数据在多个处理机间的分配达到最佳的状态,从而在分割多维数据的同时,提高了并行处理多维连接和聚集操作的效率.算法实验评估表明,PJAMDDC算法并行处理多维数据仓库的连接和聚集操作是有效的.  相似文献   

6.
数据仓库上的Gcube操作   总被引:1,自引:0,他引:1  
1 问题的提出商业和企业界认为,数据仓库上的联机分析处理(OLAP)应用是决策分析的关键。支持OLAP应用的多维数据模型正在得到人们的普遍接受。在多维数据模型中,数据记录中的某些域或属性被选作度量属性,其它域或属性被称为维属性或函数属性。在多维数据库中,具有相同函数属性值的数据记录的度量属性值集合组合为一个聚集值(通过聚集函数)。多维数据库可以视为由维属性值索引的多维数组,每个数组单元存储相应的维属性值组合所对应的度量属性值集合的聚集值。以后,在不引起混淆的情况下,我们把多维数据库简单地称为关系。多维数据库通常也称为Cube。人们把产生多维数据库的  相似文献   

7.
基于数据仓库的OLAP系统是当前海量多维数据分析的主要工具。随着信息技术的发展,海量多维数据的规模急剧增长,结构日益复杂,OLAP系统的性能严重下降,已经无法满足人们的数据分析需求。基于分布式计算系统Hadoop给出了新的海量多维数据的存储方法和查询方法。设计了HDFS上的列存储文件格式HCFile,基于HCFile给出了海量多维数据存储方案,该方案能够提高聚集计算效率,并有很好的可扩展性。同时,利用多维数据的层次性语义特征,设计了维层次索引,并给出了利用维层次索引和Map Reduce进行聚集计算的方法。通过和Hive的对比实验,表明了数据存储方案和查询方法能够有效提高海量多维数据分析的性能。  相似文献   

8.
为了解决大容量物理存储条件下数据仓库的物化视图选择问题,提出一种面向查询集覆盖的物化视图选择算法.首先给出了一些概念和定义,然后从视图集的多维数据格中抽取和裁剪出候选视图集,并定义视图物化的效益模型,最后在存储容量的限制下逐步淘汰收益最小的应答查询的冗余视图,得到覆盖所有查询的最优物化视图集.实验结果表明,该算法在较大物理存储条件下的物化视图选择效率优于以往算法,且能够消除物化视图在应答查询时存在的时延“抖动”现象,应答用户查询的平均时间也大为缩短.  相似文献   

9.
由于数据仓库中存储着不同粒度、容量巨大的数据记录,所以如何有效地执行联机分析处理(OLAP)查询操作,特别是连接和聚集操作,便成为数据仓库领域的核心问题之一.为此,提出了一种降低连接和聚集操作的新算法(join and aggregation based on the complex multi-dimensional hierarchies,JACMDH).算法充分考虑了复杂多维层次的特点,在原有的位图连接索引(bitmap join index)的基础上,采用层次联合代理(hierarchy combined surrogate)和预先分组排序的方法,使得复杂的多维层次上的连接和聚集操作转化成事实表上的区域查询,从而在处理多维层次聚集的同时,提高了连接和聚集的效率.算法性能分析和实验数据表明,JACMDH算法和目前流行的算法相比,其性能有显著的提高.  相似文献   

10.
超大型压缩数据仓库上的CUBE算法   总被引:9,自引:2,他引:7  
高宏  李建中 《软件学报》2001,12(6):830-839
数据压缩是提高多维数据仓库性能的重要途径,联机分析处理是数据仓库上的主要应用,Cube操作是联机分析处理中最常用的操作之一.压缩多维数据仓库上的Cube算法的研究是数据库界面临的具有挑战性的重要任务.近年来,人们在Cube算法方面开展了大量工作,但却很少涉及多维数据仓库和压缩多维数据仓库.到目前为止,只有一篇论文提出了一种压缩多维数据仓库上的Cube算法.在深入研究压缩数据仓库上的Cube算法的基础上,提出了产生优化Cube计算计划的启发式算法和3个压缩多维数据仓库上的Cube算法.所提出的Cube算法直  相似文献   

11.
目前蒙古语语义Web方面的研究成果都是基于单机环境的,当语义Web信息检索系统投入实际运行时,单机环境存在存储容量有限和多用户并发查询速度慢等问题.针对此问题,提出了基于蒙古语新闻领域本体的分布式语义Web检索方法.首先依据蒙古语新闻领域的特点,参照七步法和骨架法,构建蒙古语新闻领域本体,研究适合本体的混合语义相似度算法进行语义扩展.然后将本体数据与算法部署于Hadoop分布式平台,解决了大规模本体数据存储的逻辑描述、物理结构和并行处理问题,实现了基于蒙古语新闻领域本体的分布式检索系统.实验结果表明,该方法有效地减少了查询关键词的响应时间,提高了新闻检索的查全率和查准率.  相似文献   

12.
数据仓库索引启发式查询优化方法   总被引:1,自引:0,他引:1       下载免费PDF全文
在大型数据仓库查询过程中,经常涉及多事实表的连接操作。传统的查询优化方法是在计算多关系连接时尽可能地减少中间关系的大小,并没有考虑到数据仓库中数据的海量,以读为主且事实表一般建有索引的特点,往往无法取得最优的效果。针对数据仓库查询的特点,提出了一种利用索引加快查询的启发式优化方法。理论分析与实验表明,该方法在查询处理代价和执行时间上都明显减少,方法具有有效性。  相似文献   

13.
屈啸  王永利 《计算机科学》2012,39(6):170-174
随着物联网的发展,以RFID为代表的物联网传感器数据的存储、查询、处理等课题正成为研究的热点。结合数据仓库时空维度和列存储的思想,建立了一种列式RFID数据仓库,并根据RFID的时空特性,设计了一种支持连续聚集查询的多时空粒度数据结构和快速更新算法。它去除了传统聚集查询的部分冗余操作,适合处理大规模RFID数据仓库上的连续实时聚集查询。通过实验证明,该模型与算法在一些典型的物联网应用中取得了较高的效率,可广泛地适用于海量RFID数据仓库上的OLAP分析。  相似文献   

14.
由于数据流具有无界的特性,数据流系统中的查询多为带有窗口的查询,对带有窗口的查询,现有方法常由操作符直接维护窗口,但操作符的类型及排列方式可能会导致窗口难以维护,且冗余度较大.因此提出一种查询处理中的分级窗口维护策略,将窗口分为流窗口和操作符窗口,以流窗口为主并控制操作符窗口的维护,使查询中的窗口保持一致,解决了窗口维护问题,并且符合流查询语言的语义,各级窗口中的数据通过共享来解决内存消耗问题.  相似文献   

15.
遥感影像的存储与查询是地理信息处理中重要的内容,在海量遥感影像的实时处理中发挥着重要作用。针对传统的遥感影像处理中存在单节点故障、扩展性低和处理效率低等问题,提出了一种基于HBase的遥感数据分布式存储与查询方案。该方法首先采用均匀网格对遥感影像进行划分,并根据划分结果设计了一种基于网格ID和Hilbert曲线相结合的索引方案。然后,通过利用HBase的过滤机制设计了过滤列族,达到了在查询时筛选数据的目的。另外,采用MapReduce的并行处理方法对影像数据进行并行写入和查询。实验结果表明,与MySQL和MapFile相比,该方法可以有效地提高数据的写入和查询速度,且具有较好的可扩展性。  相似文献   

16.
石柯 《计算机工程》2008,34(8):66-68
为了集成网格环境中的数据库资源,促进网格应用支持现有数据库的访问,提出一种基于服务的数据库访问和集成系统(GridDBAdmin)。GridDBAdmin为用户提供了虚拟的全局逻辑数据库视图,支持用户使用现有的SQL语言同时访问多个数据库。系统由元数据服务和网格虚拟数据库服务构成。其中元数据服务负责发现含有用户所需数据的数据库,网格虚拟数据库服务提供全局逻辑视图,通过分布式查询机制将用户的SQL请求分解到具体的数据库中并进行结果合并。对基于Globus和OGSA-DAI工具包开发的原型系统进行了测试,得到了较好的结果。  相似文献   

17.
空间数据仓库有效地支持对空间数据的管理和分析,提供更加全面的决策支持.讨论了一种有效的空间决策支持手段——空间区域聚集查询的实现.基于aggregate cubetree和aR—tree提出了一个可以有效地在空间维和非空间维上进行区域聚集查询的索引结构aCR-tree及其相关算法,并计算分析了查询算法的时间复杂度.与现有技术相比aCR-tree降低了存储代价和每次查询访问的节点数,通过实验证明,该索引结构可以提供较好的存储性能和查询性能.  相似文献   

18.
基于XML技术的数据仓库多维数据模型   总被引:4,自引:0,他引:4  
本文介绍了一种基于关系数据库、利用 XML技术实现多维数据模型方法 .首先讨论了在关系数据库之上构建数据仓库的系统结构 ,利用面向对象的技术构建一个逻辑多维数据模型 ,通过 XML 文档保存多维数据模型的元数据 .配合数据仓库的数据抽取工具、汇总工具可以实现数据仓库的基本功能 .对于实现关系数据库之上 OL AP和数据挖掘有一定的参考价值 .  相似文献   

19.
为了提高查询效率,从数据流查询过程中查询操作单元和查询存储结构的共享两个方面展开研究.设计一种基于共享的二级索引队列,用于存储数据流中间结果.该结构使得中间查询结果可以再利用的同时也为数据共享情况下的迁移提供了一定的灵活性.对于多查询共享,通过抽取相同数据流中的相同谓词进行查询共享,实现一处计算多处使用的目的.最后对相关模型和算法进行了分析.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号