首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 171 毫秒
1.
一种高效流立方体结构   总被引:1,自引:0,他引:1       下载免费PDF全文
流立方体是一种通过H-tree结构实现的,通过H-cubing算法计算每个立方单元格的立方体结构。由于H-tree中的子节点是无序的,H-cubing算法的局限性导致其不能有效地进行数据流的查询和在线分析以及等高级操作。针对这一问题,提出一种新的基于ANH-tree的流立方体实现方法,该方法在H-tree的基础上,使用平衡二叉树索引无序节点并在相关节点直接建立链接来加快节点访问速度和立方单元格的计算速度,并在此基础上给出了与新结构对应的创建和查询算法,实验表明ANH-tree结构在CPU时间和内存空间等方面的性能远远优于H-tree。  相似文献   

2.
在侏儒立方体研究的基础上,提出了一种新的能够保持语义的立方体结构。这种结构改变了侏儒立方体对聚集数据的存储方式,在保持基本立方体上卷、下钻语义的前提下,尽量地去除前缀冗余、后缀冗余,节约存储空间,保证立方体清晰的结构,并且拥有比侏儒立方体更高的存储效率和查询响应速度,对点查询和范围查询能够快速地返回结果,对大数据量情况下的稀疏立方体具有良好的支持。  相似文献   

3.
该文研究一种以语义为基本要素并实现"语义"、"时间"和"结构"处理协同联动的时态XML索引技术SCTindex.首先,以时态结点为数据处理逻辑单元,在时态结点集合上建立基于线序划分的时态数据结构,这种结构具有相应的"拟序关系"数学基础,便于推广,能够实现"一次一集合"的查询方式,具有较高的时间查询效率;其次,以结点语义标签为数据处理技术单元,建立语义标签归并集合,在语义层面配置基于线序划分的时间索引机制,体现了XML本体要素——"语义"与时态数据基本内涵——"时间"约束间的整合联动;另外,引入带有足够结构信息和能够实现"更新友好"的结点编码方案GDFC,建立了相应时态数据的结构连接算法,实现了"结构"与"语义"协同处理.论文主要贡献是基于计算机协同处理理念,较精细地分析时态XML数据的"语义"、"结构"和"时间"等查询要素的本体特征和内在关联,提出了具有较高查询效率的线序划分结构,同时将其配置在语义层面,实现了不同于常规的以"结构摘要"为主轴部署查询的索引模式.论文进行基本实验仿真,通过与现有相关工作进行比较评估,表明SCTindex的可行性、有效性和优越性.  相似文献   

4.
李红松  黄厚宽 《软件学报》2006,17(4):806-813
以往在数据立方体上实现的联机聚集往往需要附加空间来存储联机聚集估算所需要的信息,极大地影响了数据立方体的存储和维护性能.提出了基于QC-Tree的用于范围查询处理的联机聚集PE(progressively estimate)算法以及它与简单聚集算法相结合的混合聚集算法HPE(hybrid progressively estimate);还提出了一种能够同时处理多个范围查询的联机聚集算法MPE(multiple progressively estimate).与以往联机聚集算法不同,这些算法不需要任何附加空间,而是利用QC-Tree自身保存的聚集数据和语义关系来估算聚集结果.由于QC-Tree是一种极为高效的数据立方体存储结构,因此能够以较理想的性能实现数据立方体上的联机聚集.对算法的分析和实验结果表明,所提出的算法具有较好的性能.  相似文献   

5.
《计算机工程》2017,(2):68-73
数据立方体是数据仓库的核心数据模型,其对应的数据立方体格因保留上卷下钻的语义关系而有利于查询和导航。目前对数据立方体内部结构特性尚未展开系统的研究。为此,将数据立方体格视为图数据,研究数据立方体格的结构特性和解析模型。分析结果表明,不同于随机网络和复杂网络的模型,数据立方体格在度分布、聚集系数、平均最短路径等方面具有不同的结构特性。根据上述特性进一步建立数据立方体格的解析模型。  相似文献   

6.
车辆监控系统中时空数据模型设计与实现   总被引:1,自引:2,他引:1  
王卫京  翁敬农  樊珂 《计算机工程与设计》2006,27(6):1042-1044,1051
针对车辆监控GIS系统中车辆对象轨迹数据变化频率较高、数据量大的特点,首先分析了当前常用的几种数据存储方法,然后在时空立方体模型基础上,提出通过切分时空立方体,形成单元时空立方体,并建立轨迹版本的建模思想。对模型的实现和基于此模型的时空查询算法进行了详细阐述。验证表明该模型能满足实际应用的需要,在减少存储和时空查询性能上有较大提高。  相似文献   

7.
基于兴趣视图子集的流立方体计算方法   总被引:1,自引:0,他引:1  
流立方体计算是流式数据多维分析的重要基础,然而流式数据的动态性、无限性、突发性等特征使其面临巨大的挑战.在实际应用中,用户的兴趣通常集中在部分视图上,基于这个特点提出了一种基于兴趣视图子集的计算方法,依据用户历史查询信息确定兴趣视图子集与兴趣路径,同时定义了Stream-Tree结构用于在主存中物化存储兴趣视图子集所包含的数据单元,在运行过程中依据多层次时间窗口约束不断更新和维护Stream-Tree中存储的数据单元,而对于稀疏数据单元仅保留高层次的聚集值.实验和分析表明,该方法能够在有限的主存空间中维持流立方体当前窗口内的数据单元,同时能够支持快速更新维护存储结构和响应用户查询.  相似文献   

8.
从港口企业面临的决策需求出发,分析港口现有数据来构建港口数据立方体。多维联机分析处理(MOLAP)是在数据立方体上进行的应用查询,支持维层次是MOLAP的一个重要特征,一般层次维是以数组形式进行存储的,但是数组存储不仅不能体现维的层次特征,还使得数据单元出现冗余。针对数组存储的不足,采用维层次存储树来保存层次维信息,体现了维的层次特性,消除了冗余数据,方便层次维的查询和更新,且各层维成员采用二进制编码方式,不仅节省了存储空间,还提高了查询效率。  相似文献   

9.
提出一种新的浓缩商覆盖立方体的数据立方体压缩技术,在商覆盖立方体中省略了部分只依据基本表即可快速应答查询的基本单元组,从而缩小其体积。给出浓缩商覆盖立方体的生成算法和查询算法。实验结果表明,浓缩商覆盖立方体的元组数量仅为原商覆盖立方体的62%,验证了浓缩商覆盖立方体技术的有效性。  相似文献   

10.
数据立方体格和形式概念格比较研究表明,两者都基于序结构,并且采用形式概念分析理论(FCA)的等价特征组与数据立方体覆盖等价类对数据单元有相同的划分结果.将FCA与概念格理论引入数据立方体研究,首次提出聚集概念格(ACL)结构.ACL与一般概念格同构,能完整保存立方体中的所有聚集结果,实现与商立方体相同比例的约简.ACL结构仍比较复杂,在ACL基础上,又提出一种约简聚集概念格结构(RACL),该结构只存储非对象概念,而不是所有概念.RACL与基本表联合仍然是完整立方体结构,但能实现更大的约简.给出了ACL和RACL的高效的查询方法,并使用模拟数据和实际数据作了一些实验.理论和实验都表明RACL结构比现有方法更节省空间,同时查询效率也较高.  相似文献   

11.
数据仓库多维模型中的维结构具有层次性的特点,并且动态决策分析也有在维的不同层次间切换的需求,因此维在逻辑上一般采用层次结构来组织.传统的代数格模型只支持单维单关键字,维组合格模型则对代数格模型进行了扩展,能够支持单维复合关键字.进一步改进了维组合格模型,引入了不完全维组合格的概念,以实现在多维数据立方体的维模型建模阶段对立方体视图空间的约简.给出了维组合格上的基本操作,并应用这些基本操作实现了一种由维格增量构造不完全维组合格的算法.  相似文献   

12.
Association relations between concepts are a class of simple but powerful regularities in binary data, which play important roles in enterprises and organizations with huge amounts of data. However, although there can be easily large number of association relation mined from databases, since existing objective and subjective methods scarcely take semantics into consideration, it has been recognized early in the knowledge discovery literature that most of them are of no interest to the user. In this paper, the semantic discrimination capability (SDC) of association relation is measured based on discrimination value model first. The formula of SDC integrating both statistical and graph features is proposed from five different strategies. The high correlation coefficient of the proposed method against discrimination value shows that the proposed SDC measure is accuracy. Moreover, an application using SDC on document clustering is carried out, which shows that SDC has broad prospects on data‐related task such as document clustering. Copyright 2013 John Wiley © Sons, Ltd.  相似文献   

13.
文章利用并行计算框架MapReduce,探索数据立方体的计算问题。数据立方体的计算存在两个关键问题,一个是计算时间的问题,另一个是立方体的体积问题。随着维度的增加,计算时间将呈现指数级的增长,立方体的体积也是如此。尽管MapReduce是一个优秀的并行计算框架,但在处理数据倾斜时,分区算法不够完善,导致一些计算任务时间过长,影响整个作业的完成时间。本文通过数据采样的方式,优化数据分区,实验结果表明,数据立方体的计算的性能明显提升。为解决数据立方体体积过大的问题,在Reduce阶段将最终的结果输出到基于NoSQL的HBase数据库进行存储,HBase方便水平扩展,同时也便于日后对数据立方体的查询。  相似文献   

14.
Cube算子的计算在OLAP应用中起着极为重要的作用。本文分析了在高维Cube算子计算中传统流水线方法的不足之处,提出了通过有选择地实例化Cube中的部分节点以提高OLAP性能的解决方案,并给出了一个获取需要实例化节点的算法。  相似文献   

15.
Data analysis applications typically aggregate data across manydimensions looking for anomalies or unusual patterns. The SQL aggregatefunctions and the GROUP BY operator produce zero-dimensional orone-dimensional aggregates. Applications need the N-dimensionalgeneralization of these operators. This paper defines that operator, calledthe data cube or simply cube. The cube operator generalizes the histogram,cross-tabulation, roll-up,drill-down, and sub-total constructs found in most report writers.The novelty is that cubes are relations. Consequently, the cubeoperator can be imbedded in more complex non-procedural dataanalysis programs. The cube operator treats each of the Naggregation attributes as a dimension of N-space. The aggregate ofa particular set of attribute values is a point in this space. Theset of points forms an N-dimensional cube. Super-aggregates arecomputed by aggregating the N-cube to lower dimensional spaces.This paper (1) explains the cube and roll-up operators, (2) showshow they fit in SQL, (3) explains how users can define new aggregatefunctions for cubes, and (4) discusses efficient techniques tocompute the cube. Many of these features are being added to the SQLStandard.  相似文献   

16.
17.
一种并行处理多维连接和聚集操作的有效方法   总被引:1,自引:0,他引:1  
随着并行计算算法的完善和廉价、功能强大的多处理机系统的成熟,使得采用多处理机系统来并行处理多维数据仓库的连接和聚集操作成为当前有效提高OLAP查询处理性能的首选技术.为此,提出一种降低连接和聚集操作开销的并行算法PJAMDDC(parallel join and aggregation for multi-dimensional data cube).算法充分考虑了多维数据立方体的存储机制和多处理机分布系统的结构特点,在原有聚集计算多维数据立方体的搜索点阵逻辑结构的基础上,采用多维数据仓库的层次联合代理(hierarchy combined surrogate)和对立方体的搜索点阵进行加权的方法,使得立方体数据在多个处理机间的分配达到最佳的状态,从而在分割多维数据的同时,提高了并行处理多维连接和聚集操作的效率.算法实验评估表明,PJAMDDC算法并行处理多维数据仓库的连接和聚集操作是有效的.  相似文献   

18.
重建数据立方体的数据覆盖方法   总被引:1,自引:0,他引:1  
曹蓟光  王申康 《软件学报》2002,13(8):1586-1592
数据切片体现了数据立方体某方面的数据特征,当产生数据切片的数据立方体由于某种原因不可访问时,通过已知的多个数据切片尽可能地恢复数据立方体中的原始信息,有利于对数据的深入分析和理解.提出了一种基于数据切片重建数据立方体的方法,通过数据切片的连接生成多维细粒度空间,利用数据覆盖操作逐步细分每个数据切片所对应的多维空间,以逼近多维细粒度空间.提出了重建后数据立方体的可查询判据.该方法直接利用数据库中的基本操作来实现,高效地支持大数据量的应用环境.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号