首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
一种基于维层次编码的OLAP聚集查询算法   总被引:8,自引:2,他引:8  
联机分析处理(OLAP)查询往往需在海量数据上进行即席的复杂分组聚集查询,在其SQL语句中通常包含多表连接和分组聚集操作,因而减少多表连接和压缩关键字,以及对查询数据进行有效地分组聚集操作,成为ROLAP查询处理的关键问题。提出了一种基于维层次编码的新型预分组聚集算法DHEPGA.DHEPGA算法充分利用了编码长度较小的维层次编码及其前缀,来快速检索出与查询关键字相匹配的维层次编码,求得维层次属性的查询范围,减少了I/O开销,提高了OLAP查询效率。理论分析和实验结果表明,DHEPGA算法性能是非常有效的。  相似文献   

2.
ROLAP是OLAP(联机分析处理)中使用最广泛的一种类型,其主要功能是管理决策所需要的总结数据。总结数据一般都涉及多表连接和分组聚集操作,提高这些操作的性能成为提高OLAP操作响应速度的关键。为此,提出一种基于分组序号的新聚集算法IMuGA。算法充分利用时间维表特殊性,通过对事实表关键字直接获得分组属性值,减少了多表连接中时间维度的连接次数,提高了联机分析处理查询效率。实验结果表明,该算法是有效的。  相似文献   

3.
在联机分析处理(OLAP)中,有效地维度模型对海量数据的即席复杂分组聚集查询起着关键的作用.在偏序和映射的基础上,通过定义层次有序维,提出一种基于层次有序维的分组聚集算法.该算法利用维属性之间的聚集关系,通过约束层次链中的元素次序,实现了分组聚集计算中多表连接转换为维范围的查询,提高了连接和聚集效率.最后,实验结果验证了该算法的有效性.  相似文献   

4.
基于分组序号的聚集算法   总被引:4,自引:0,他引:4  
联机分析处理OLAP(online analytical processing)查询作为一种复杂查询,当使用SQL(structured query language)语句来表述时,通常都包含多表连接和分组聚集操作,因此提高多表连接和分组聚集计算的性能就成为ROLAP(relational OLAP)查询处理的关键问题.提出一种基于分组序号的聚集算法MuGA(group number based aggregation with multi-table join),该方法充分考虑数据仓库星型模式的特点,将聚集操作和新的多表连接算法MJoin(multi-table join)相结合,使用分组序号进行分组聚集计算,代替通常的排序或者哈希计算,从而有效地减少CPU运算以及磁盘存取的开销.算法的实验数据表明,提出的MuGA算法与传统的关系数据库聚集查询处理方法以及改进后的基于排序的聚集算法相比,性能都有显著提高.  相似文献   

5.
由于数据仓库中存储着不同粒度、容量巨大的数据记录,所以如何有效地执行联机分析处理(OLAP)查询操作,特别是连接和聚集操作,便成为数据仓库领域的核心问题之一.为此,提出了一种降低连接和聚集操作的新算法(join and aggregation based on the complex multi-dimensional hierarchies,JACMDH).算法充分考虑了复杂多维层次的特点,在原有的位图连接索引(bitmap join index)的基础上,采用层次联合代理(hierarchy combined surrogate)和预先分组排序的方法,使得复杂的多维层次上的连接和聚集操作转化成事实表上的区域查询,从而在处理多维层次聚集的同时,提高了连接和聚集的效率.算法性能分析和实验数据表明,JACMDH算法和目前流行的算法相比,其性能有显著的提高.  相似文献   

6.
提高多表连接和聚集操作性能是OLAP查询中的关键问题之一。本文提出了一种基于间接索引桶的OLAP分组聚集查询算法MIBGA。该算法将维层次编码和事实表标识符分组集合进行有效结合,用间接索引桶代替目前流行的位图连接索引,并通过分组属性位图的位操作方式来快速完成OLAP查询。分析表明,该方法压缩了索引的存储空间,减少了I/O开销,有效地提高了多表连接的查询效率。  相似文献   

7.
联机分析查询处理中的一种聚集算法   总被引:10,自引:2,他引:10  
联机分析处理(online analytical processing,简称OLAP)查询是涉及大量数据的即席复杂查询,从SQL(structured query language)角度来看,这些查询通常都包含多表连接和分组聚集操作.从OLAP查询处理角度出发,提出一种新的基于排序的聚集查询算法MuSA(sort-based aggregation with multi-table join).该方法充分考虑到数据仓库星型模式的特点,将聚集操作和新的多表连接算法MJoin相结合,排序时采用  相似文献   

8.
一个基于三元组存储的列式OLAP查询执行引擎   总被引:1,自引:0,他引:1  
朱阅岸  张延松  周烜  王珊 《软件学报》2014,25(4):753-767
大数据与传统的数据仓库技术相结合产生了大数据实时分析处理需要(volume+velocity),它要求大数据背景下的数据仓库不能过多地依赖物化、索引等高存储代价的优化技术,而要提高实时处理能力来应对大数据分析中数据量大、查询分析复杂等特点.这些查询分析操作一般表现为在事实表和维表之间连接操作的基础上对结果集上进行分组聚集等操作.因此,表连接和分组聚集操作是ROLAP(relational OLAP)性能的两个重要决定因素.研究了新硬件平台下针对大规模数据的OLAP查询的性能,设计新的列存储OLAP查询执行引擎CDDTA-MMDB(columnar direct dimensional tuple access-main memory databasequeryexecutionengine,直接维表元组访问的内存数据库查询执行引擎).基于三元组的物化策略,使得CDDTA-MMDB能够减少内存列存储模型上表连接操作访问基表和中间数据结构的次数.首先,CDDTA-MMDB将查询分解为作用在维表和事实表上的子查询,如果只涉及过滤操作,子查询将生成<代理键,布尔值>二元组;否则,子查询生成<代理键,关键字,值>三元组.然后,只需一趟扫描事实表,利用事实表的外键映射函数直接定位相应三元组或者二元组,完成相应的过滤、连接或聚集操作.CDDTA-MMDB充分考虑了内存列存储数据库的设计原则,尽量减少随机内存访问.实验结果表明:CDDTA-MMDB是高效的,与具代表性的列存储数据库相比,比MonetDB 5.5快2.5倍,比C-store的invisible join快5倍;并且,CDDTA-MMDB在多核处理器上具有线性加速比.  相似文献   

9.
一种构建StreamCube的超大维表连接算法   总被引:1,自引:0,他引:1  
表连接是关系数据库中最重要的操作之一,在数据流管理系统中同样重要.构建StreamCube的聚集查询时,数据流与超大维表(如IPaddress维表)作表连接将耗费大量有限的计算资源和内存.超大维表需划分为多个块,分块读入内存,造成磁盘I/O频繁.根据维表及其连接键层的特性,降低维表与数据流连接的连接键冗余,将维表无损压缩为可装入内存的连接键范围维表(RJ-DT),引出数据流上非等值连接问题;并提出一种超大维表多表连接算法--多动态索引嵌套循环连接算法(multi dynamic index nested-loop join),该算法实现数据流与压缩维表高效的非等值连接,并拓展为多表连接.理论分析及实验结果表明,该算法可使超大维表连接性能明显改善,最高可达到一个数量级的加速并具有很强的实用性.  相似文献   

10.
Skyline查询能够有效地实现多目标最优化,而数据仓库中的OLAP也是针对多维数据进行分析,因此,针对Skyline查询在数据仓库中的应用,提出了数据仓库中雪花模式的Skyline-Join查询算法.该算法首先将子维表M-Join父维表,然后渐进选择式地对事实表和父维表进行连接.每次连接之前都对事实表进行分组和组内Skyline计算,删除组内非Skyline元组,这样可以减少许多不必要的连接操作,使得查询效率大大提高.通过实验证明,在事实表元组数量逐渐变大和维表个数逐渐增多的情况下,提出的算法比先Join后Skyline计算的naive算法效率上有明显改善.  相似文献   

11.
The processing of XML queries can result in evaluation of various structural relationships. Efficient algorithms for evaluating ancestor-descendant and parent-child relationships have been proposed. Whereas the problems of evaluating preceding-sibling-following-sibling and preceding-following relationships are still open. In this paper, we studied the structural join and staircase join for sibling relationship. First, the idea of how to filter out and minimize unnecessary reads of elements using parent's structural information is introduced, which can be used to accelerate structural joins of parent-child and preceding-sibling-following-sibling relationships. Second, two efficient structural join algorithms of sibling relationship are proposed. These algorithms lead to optimal join performance: nodes that do not participate in the join can be judged beforehand and then skipped using B^+-tree index. Besides, each element list joined is scanned sequentially once at most. Furthermore, output of join results is sorted in document order. We also discussed the staircase join algorithm for sibling axes. Studies show that, staircase join for sibling axes is close to the structural join for sibling axes and shares the same characteristic of high efficiency. Our experimental results not only demonstrate the effectiveness of our optimizing techniques for sibling axes, but also validate the efficiency of our algorithms. As far as we know, this is the first work addressing this problem specially.  相似文献   

12.
Joins are arguably the most important relational operators. Poor implementations are tantamount to computing the Cartesian product of the input relations. In a temporal database, the problem is more acute for two reasons. First, conventional techniques are designed for the evaluation of joins with equality predicates rather than the inequality predicates prevalent in valid-time queries. Second, the presence of temporally varying data dramatically increases the size of a database. These factors indicate that specialized techniques are needed to efficiently evaluate temporal joins.We address this need for efficient join evaluation in temporal databases. Our purpose is twofold. We first survey all previously proposed temporal join operators. While many temporal join operators have been defined in previous work, this work has been done largely in isolation from competing proposals, with little, if any, comparison of the various operators. We then address evaluation algorithms, comparing the applicability of various algorithms to the temporal join operators and describing a performance study involving algorithms for one important operator, the temporal equijoin. Our focus, with respect to implementation, is on non-index-based join algorithms. Such algorithms do not rely on auxiliary access paths but may exploit sort orderings to achieve efficiency.Received: 17 October 2002, Accepted: 26 July 2003, Published online: 28 October 2003Edited by: T. Sellis  相似文献   

13.
14.
新的利用连接索引的算法Jive,它用中间产生的临时文件和分割输出连接结果的方法,采用已有的数据结构-连接索引,只需要对输入关系的一次扫描,即可完成连接.在一般情况下优于Valduriez(1987)所提出的连接算法,在输入关系很大的情况下性能尤为突出。  相似文献   

15.
空间连接运算是空间数据查询中最重要、最耗时的基本操作之一,其中基于R树的空间连接(RJ)被认为是一种高效的处理机制,但在空间连接的精化阶段处理复杂的空间数据时需要很大的系统开销。基于MBR及直接查询谓词,提出了一种加权处理方法,并扩展了R树结构及MRJ算法。从而优化了多路R树连接的筛选处理,能得到更加有效的候选集;同时,减少了磁盘访问次数,可节省CPU及I/O的时间开销。还通过应用实例验证了其在空间数据库查询优化方面的优势。  相似文献   

16.
连接操作是最昂贵且常用的数据库操作.在传统数据库系统中,主要的连接操作是等值连接操作,因此,传统的并行连接算法主要集中于并行等值连接操作.另外,随着XML在Web应用中变得越来越重要,XML已经成为Internet上一种新的数据交换标准.对XML数据的连接操作不同于传统数据库中的等值连接操作,它属于结构连接操作.以前适合等值连接操作的并行连接算法并不能有效地解决结构连接问题.因此,第1次提出了并行结构连接问题,并且通过应用直方图的思想于并行连接中,从而提出两种基本的并行XML结构连接算法、等高直方图连接算法和等宽直方图连接算法.实验表明这两种算法具有较好的性能.  相似文献   

17.
基于MapReduce快速kNN Join方法   总被引:2,自引:0,他引:2  
kNN连接是空间数据库领域里一个基本而又重要的问题,被广泛地应用于多个其他领域.它对提高众多实际应用的性能有着重要意义.随着目前参加kNN连接的数据集的增大和要求的响应时间的缩短(尤其在一些应急环境中),作者实际上对kNN连接的效率要求更高.然而,目前的方法大多基于单个进程或者单台机器,并不具有很好的伸缩性.为了解决这个问题,作者引入了map-reduce框架来运行kNNjoin并提出了两种新的方法:基于map-reduce的分布式网格概略化kNN join(DSGMP-J)和基于map-reduce的voronoi diagram下kNN join(VDMP-J).并把它们和最新的方法H-BNLJ进行了实验对比.实验结果证明了作者提出的DSGMP-J和VDMP-J方法具有较优的伸缩性.  相似文献   

18.
基于MBR及直接查询谓词,提出了能够优化多路R树连接筛选阶段的加权处理方法,扩展了R树结构及MRJ算法。使用该方法能够得到更加有效的候选集,减少磁盘访问次数,节省了CPU及I/O的时间开销,通过实例验证了其在空间数据库查询优化方面的优势。  相似文献   

19.
张延松  张宇  王珊 《软件学报》2018,29(3):883-895
以MapD为代表的图分析数据库系统通过GPU、Phi等新型众核处理器来支持高性能分析处理,在面向复杂数据模式时连接操作仍然是重要的性能瓶颈.近年来,异构处理器逐渐成为高性能计算的主流平台,内存连接性能的研究从多核CPU平台扩展到新兴的众核处理器,但众多的研究成果并未系统地揭示连接算法性能、连接数据集大小、硬件架构之间的内在联系,难以为未来异构处理器平台的数据库提供连接平台优化选择策略.本文以面向多核CPU、Xeon Phi、GPU处理器平台的内存连接优化技术为目标,通过优化内存哈希表设计,实现以向量映射替代哈希映射操作,消除哈希代价对内存连接算法的影响,从而更加准确地测量内存连接算法在多核CPU的cache大小、Xeon Phi的cache大小、Xeon Phi的并发多线程、GPU的SIMT(单指令多线程)机制等硬件相关因素影响下的性能特征.实验结果表明,缓存与并发多线程机制是提高内存连接算法性能的重要影响因素.缓存机制对于满足cache大小的连接操作具有性能优势,而GPU的并发多线程机制则在较大表的连接操作中具有较高的性能,Xeon Phi则在满足其L2 cache大小的连接操作中具有最高性能.实验结果揭示了内存连接操作性能与异构处理器硬件特性的联系,为未来异构处理器平台内存数据库查询优化器提供了优化策略.  相似文献   

20.
In this paper, we analyze the performance of the parallel Distributive Join algorithm that we proposed in Chung and Yang 1995. We implemented the algorithm on an Intel Paragon machine and analyzed the effect of the number of processors and the join selectivity on the performance of the algorithm. We also compared the performance of the Distributive Join (DJ) algorithm with that of the Hybrid-Hash(HH) join algorithm. Our results show that the DJ performs comparably with the HH over the entire range of number of processors used and different join selectivities. A big advantage of the parallel DJ algorithm over the HH join algorithm is that it can easily support non-equijoin operations. The results can also be used to estimate the performance of file I/O intensive applications to be implemented on the Intel Paragon machine.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号