期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

一种构建StreamCube的超大维表连接算法 总被引：1，自引：0，他引：1

甘亮贾焰李爱平金鑫《计算机研究与发展》2011,48(1)

表连接是关系数据库中最重要的操作之一,在数据流管理系统中同样重要.构建StreamCube的聚集查询时,数据流与超大维表(如IPaddress维表)作表连接将耗费大量有限的计算资源和内存.超大维表需划分为多个块,分块读入内存,造成磁盘I/O频繁.根据维表及其连接键层的特性,降低维表与数据流连接的连接键冗余,将维表无损压缩为可装入内存的连接键范围维表(RJ-DT),引出数据流上非等值连接问题;并提出一种超大维表多表连接算法--多动态索引嵌套循环连接算法(multi dynamic index nested-loop join),该算法实现数据流与压缩维表高效的非等值连接,并拓展为多表连接.理论分析及实验结果表明,该算法可使超大维表连接性能明显改善,最高可达到一个数量级的加速并具有很强的实用性. 相似文献

2.

并行框架下基于位图索引的多表星型连接算法

解晨光刘明刚《计算机工程与设计》2014,35(9)

分析面向大数据平台的MapReduce分布式编程技术以及实现数据查询时的连接算法,针对SSB数据模型,提出基于分布式缓存的多表星型连接优化技术.利用谓词向量技术,将维表中间连接的数据依赖转化为表上的位图索引过滤,减少数据依赖产生的巨大网络开销;采用分布式缓存技术充分利用处理节点的内存,优化网络传输,减少查询代价. 相似文献

3.

列存储中的OLAP多查询优化方法

陆戌辰王梅乐嘉锦《计算机科学与探索》2012,6(9):852-864

为了使列存储OLAP(on-line analytical processing)操作中I/O和CPU开销较大的扫描、连接、聚集操作实现有效的共享和复用,提出了一个多查询优化技术。根据列存储以及OLAP操作的特点,提出了一系列转换规则,为OLAP查询请求产生的一组相关查询语句生成一个单一全局查询计划。为了达到共享复用的目的,在全局计划中引入新的过滤结点、分组结点、合并结点和聚集结点。同时,借用MuGA(multiply group by algo-rithm)算法,通过分组结点、合并结点、连接结点实现维表及事实表元组的分组序号标记,从而实现列扫描、列连接的共享。并为聚集结点提出了一个多阶段聚集算法,结合最终生成的事实表复合分组序号,实现聚集操作的复用。在SSB(star schema benchmark)数据集上设计实验,证明了该多查询优化策略的有效性。相似文献

4.

基于Spark的两表等值连接过程优化

张子栋郑延斌《计算机应用研究》2019,36(2)

在数据统计分析查询中表间的等值连接是常用的操作之一,但代价较高。大数据环境下大表之间等值连接的效率更低。为了解决该问题,提出了一种基于Spark的两表等值连接过程优化方法。首先根据数据价值密度特征构建Bloom Filter完成表的过滤操作;其次结合Simi-Join和Partition Join两者的优势,对过滤后的单侧表使用贪心算法进行拆分;最后对拆分后的子集进行连接,因此把两大表的连接过程转换为分阶段进行的两小表连接。代价分析和实验结果表明该算法与现有基于Spark的连接操作相比不仅在性能上得到了提升而且当出现数据倾斜时对算法效率影响较小。相似文献

5.

一种改进的分组序号聚集算法

下载免费PDF全文

王生富张继福荀亚玲刘爱琴《计算机工程与应用》2010,46(10):125-128

ROLAP是OLAP（联机分析处理）中使用最广泛的一种类型,其主要功能是管理决策所需要的总结数据。总结数据一般都涉及多表连接和分组聚集操作,提高这些操作的性能成为提高OLAP操作响应速度的关键。为此,提出一种基于分组序号的新聚集算法IMuGA。算法充分利用时间维表特殊性,通过对事实表关键字直接获得分组属性值,减少了多表连接中时间维度的连接次数,提高了联机分析处理查询效率。实验结果表明,该算法是有效的。相似文献

6.

基于位图连接索引的复杂多维层次的连接和聚集算法

荀亚玲张素兰《通讯和计算机》2007,4(2):10-14,37

在ROLAP中往往涉及到大量数据的复杂即席查询，从SQL角度看，这些查询通常都包含多表连接和分组聚集操作。本文提出了一种连接和聚集操作的新算法JAMDHBJI，该算法充分考虑了ROLAP中复杂多维层次的特点，同时考虑到并非全部维都具有维层次的语义特性，将维层次编码和位图连接索引有效结合，把复杂的连接和分组聚集操作转化为在事实表上的区域查询，从而大大提高了连接和分组聚集的效率。理论分析表明该算法是高效的。相似文献

7.

数据仓库中雪花模式的Skyline-Join查询

陈玲徐忠华张剡肖旭生柏文阳《计算机研究与发展》2009,46(Z2)

Skyline查询能够有效地实现多目标最优化,而数据仓库中的OLAP也是针对多维数据进行分析,因此,针对Skyline查询在数据仓库中的应用,提出了数据仓库中雪花模式的Skyline-Join查询算法.该算法首先将子维表M-Join父维表,然后渐进选择式地对事实表和父维表进行连接.每次连接之前都对事实表进行分组和组内Skyline计算,删除组内非Skyline元组,这样可以减少许多不必要的连接操作,使得查询效率大大提高.通过实验证明,在事实表元组数量逐渐变大和维表个数逐渐增多的情况下,提出的算法比先Join后Skyline计算的naive算法效率上有明显改善. 相似文献

8.

数据仓库中的一种提高多表连接效率的有效方法 总被引：4，自引：0，他引：4

文娟薛永生翁伟林子雨《计算机研究与发展》2005,42(11):2010-2017

联机分析处理OLAP查询经常涉及多表连接,所以提高多表连接的性能就成了提高OLAP查询处理的关键性问题．针对目前直接提高多表连接效率的方法、并行多表连接算法和连接索引,提出了变形多表连接索引．该方法基于使用SQL语句表述的查询模型库QMB建立一系列符合条件的变形多表连接事实表,并建立这些变形多表连接事实表的索引．在特定的多表连接查询中,变形多表连接事实表能替代原事实表与各维表连接,并在查询处理过程中动态更新．理论分析和实验结果表明,该方法可以有效地提高多表连接的查询效率．相似文献

9.

多盘广播的偏斜索引算法

下载免费PDF全文

马小琴余建桥《计算机工程》2010,36(4):63-65

在移动环境中,多盘广播是被广泛使用的数据广播调度算法之一。为广播数据建立索引可以使移动客户机选择性地监听信道,以减少电源消耗,但过多地插入索引会增加数据访问时间。针对该问题,为多盘广播建立偏斜索引,设计索引树构造算法和广播数据的索引树算法。与可变扇出算法相比,多盘广播的偏斜索引算法需要的平均访问时间和平均调谐时间较短。相似文献

10.

基于Δ-tree的高维数据相似连接算法

下载免费PDF全文

刘艳郝忠孝《计算机科学与探索》2011,38(10):157-160

为了解决主存中高维数据相似连接问题,基于高效索引Δ-tree提出了连接两个不同数据集的主存相似连接算法Δ-tree-join*.该算法采用自顶向下的模式,充分利用Δ-tree的特性,使用较少的维数计算聚类之间的距离及数据点与聚类之间的距离,通过该距离过滤掉不必要的节点和数据点,减少计算量,提高连接效率.实验结果表明,△... 相似文献

11.

面向MIC协处理器的OLAP外键连接算法

张宇张延松陈红王珊《软件学报》2017,28(3):490-501

众核架构协处理器Xeon Phi成为新兴的主流高性能计算平台.对于数据库应用而言,内存分析处理是一种计算密集型负载,其主要的性能取决于大事实表与维表之间的内存外键连接性能.本文关注于一种相对于缓存相关的分区哈希连接算法和缓存不相关的无分区哈希连接算法的缓存友好型外键连接算法,以适应Xeon Phi协处理器较小的LLC和高并发线程的特点.通过挖掘OLAP模式中的代理键特征,基于键值匹配的哈希探测操作可以进一步简化为事实表与维表之间基于主-外键参照完整性约束的代理键参照访问,因此复杂的哈希表和CPU代价较高的哈希探测操作可以简化为通过映射外键值为代理键向量内存偏移地址的方法对代理向量直接访问.基于代理向量参照访问的外键连接算法能够简单并高效地应用于Xeon Phi协处理器平台,通过更多的核心和高并发线程来掩盖内存访问延迟.实验中对传统的哈希连接算法（无分区哈希连接算法和基数分区哈希连接算法）和基于代理向量参照技术的外键连接算法在Xeon E5-2650 v3 10核处理器平台和Xeon Phi 5110P 60核协处理器平台进行性能测试和比较,实验结果给出了主流的内存外键连接算法在不同数据集和不同平台上全面的性能特征. 相似文献

12.

Improving performance by creating a native join-index for OLAP

Yansong Zhang Shan Wang Jiaheng Lu 《Frontiers of Computer Science in China》2011,5(2):236-249

The performance of online analytical processing (OLAP) is critical for meeting the increasing requirements of massive volume analytical applications. Typical techniques, such as in-memory processing, column-storage, and join indexes focus on high performance storage media, efficient storage models, and reduced query processing. While they effectively perform OLAP applications, there is a vital limitation: mainmemory database based OLAP (MMOLAP) cannot provide high performance for a large size data set. In this paper, we propose a novel memory dimension table model, in which the primary keys of the dimension table can be directly mapped to dimensional tuple addresses. To achieve higher performance of dimensional tuple access, we optimize our storage model for dimension tables based on OLAP query workload features. We present directly dimensional tuple accessing (DDTA) based join (DDTAJOIN), a technique to optimize query processing on the memory dimension table by direct dimensional tuple access. We also contribute by proposing an optimization of the predicate tree to shorten predicate operation length by pruning useless predicate processing. Our experimental results show that the DDTA-JOIN algorithm is superior to both simulated row-store main memory query processing and the open-source column-store main memory database MonetDB, thanks to the reduced join cost and simple yet efficient query processing. 相似文献

13.

Single‐scan: a fast star‐join query processing algorithm

下载免费PDF全文

Vasile Purdilă Ştefan‐Gheorghe Pentiuc 《Software》2016,46(3):319-339

A data warehouse can store very large amounts of data that should be processed in parallel in order to achieve reasonable query execution times. The MapReduce programming model is a very convenient way to process large amounts of data in parallel on commodity hardware clusters. A very popular query used in data warehouses is star‐join. In this paper, we present a fast and efficient star‐join query execution algorithm built on top of a MapReduce framework called Hadoop. By using dynamic filters against dimension tables, the algorithm needs a single scan of the fact table, which means a significant reduction of input/output operations and computational complexity. Also, the algorithm requires only two MapReduce iterations in total–one to build the filters against dimension tables and one to scan the fact table. Our experiments show that the proposed algorithm performs much better than the existing solutions in terms of execution time and input/output. Copyright © 2014 John Wiley & Sons, Ltd. 相似文献

14.

基于副本复制和Bloom Filter 的P2P 概率路由算法

朱桂明郭得科金士尧《软件学报》2011,22(4):773-781

非结构化P2P网络资源定位过程中的查询延迟、查准率和查询成本难以同时被优化,为此,提出一种基于副本复制和Bloom Filter技术的P2P概率路由算法DCBF(data copying and Bloom Filter).DCBF基于有向随机网络,对资源对象进行少量的复制,并将各个副本随机路由给网络中的节点;接收副本的节点,以分布式衰减Bloom Filter向邻近节点传递副本的成员资格信息.理论分析和实验结果均表明,DCBF仅需复制少量的副本,通过以分布式衰减Bloom Filter传递副本的成员资格信息,使得网络中的绝大多数节点能够感知到副本的成员资格信息,从而使得各个节点能够以极低的查询代价,在较低的路由延迟范围内,高概率地将查询路由到目标节点. 相似文献

15.

面向多核CPU和GPU平台的数据库星形连接优化

刘专韩瑞琛张延松陈跃国张宇《计算机应用》2021,41(3):611-617

针对联机分析处理（OLAP）中事实表与多个维表之间的星形连接执行代价较高的问题,提出了一种在先进的多核中央处理器（CPU）和图形处理器（GPU）上的星形连接优化方法。首先,对于多核CPU和GPU平台的星形连接中的物化代价问题,提出了基于向量索引的CPU和GPU平台上的向量化星形连接算法;然后,通过面向CPU cache和GPU shared memory大小的向量划分来提出基于向量粒度的星形连接操作,从而优化星形连接中向量索引的物化代价;最后,提出了基于压缩向量的星形连接算法,将定长向量索引压缩为变长的二元向量索引,从而在低选择率时提高cache内向量索引的存储访问效率。实验结果表明,在CPU平台上向量化星形连接算法相对于常规的行式或列式连接性能提升了40%以上,在GPU平台上向量化星形连接算法相对于常规星形连接算法性能提升超过了15%;与当前主流的内存数据库和GPU数据库相比,优化的星形连接算法性能相对于最优内存数据库Hyper性能提升了130%,相对于最优的GPU数据库OmniSci性能提升了80%。可见基于向量索引的向量化星形连接优化技术有效地提高了多表连接性能,与传统优化技术相比,基于向量索引的向量化处理提高了较小cache上的数据存储访问效率,压缩向量进一步提升了向量索引在cache内的访问效率。相似文献

16.

内存存储模型上的多表连接优化技术研究

下载免费PDF全文

张延松于利胜王珊陈红《计算机科学与探索》2010,4(6):531-541

分析了面向先进硬件平台上的数据库优化技术,提出了基于内存存储模型的多表连接查询处理优化技术,采用内存存储模型存储维表并对维表主键进行顺序化,从而使维表的主键与内存维表记录的内存偏移地址相一致,实现对维表记录的内存直接访问。通过列存储技术减少维表记录的访问宽度,进一步优化维表访问的cache性能。与基于SQL Server 2005的查询执行计划的连接算法、join index连接算法以及基于列存储模型的优化连接算法进行了实验比较和性能分析,结果表明:基于内存存储模型的多表连接算法在处理星型结构数据仓库多谓词、多连接的复杂查询时具有很好的性能,与join index相比不需要额外的空间开销,与列存储数据模型相比具有更好的兼容性和性能。相似文献

17.

面向异构DHT存储的数据与位置解耦算法

罗超然金鑫张颖蔡华谦柳熠景翔黄罡《软件学报》2023,34(10):4930-4940

分布式哈希表(distributed hash table, DHT)由于其高效的数据寻址方式而被广泛应用于分布式存储.传统DHT必须将数据存放在指定节点中才能实现高效的数据分布式寻址,极大地限制了DHT技术的应用范围.例如,在异构存储网络中,节点的存储空间、带宽、稳定性等均有较大差异,结合数据特征和节点性能差异选择合适的数据存放节点可以很大程度上提高数据的访问效率,而传统DHT数据和存储位置紧耦合的特征导致其难以应用于异构的存储网络中.针对此问题,提出了vRoute算法以实现DHT中数据标识与其存储位置的解耦.通过构建基于Bloom Filter的分布式数据索引, vRoute算法可以在不降低数据寻址效率的基础上允许数据存储在网络中的任意节点.通过扩展Kademlia算法实现了vRoute,并从理论上证明了vRoute算法的有有效性.最后,模拟实验表明vRoute以较低的存储、网络开销实现了和传统的DHT算法接近的数据寻址效率. 相似文献

18.

基于Bloom Filter路由表的P2P搜索算法 总被引：2，自引：1，他引：1

下载免费PDF全文

段世惠王劲林《计算机工程》2010,36(2):25-27

研究非结构化P2P网络的搜索机制,提出基于布莱姆过滤器(BF)路由表的改进算法。该算法利用BF技术生成路由条目并在一定范围内相互交换本地路由表,使节点能够了解一定范围内的节点共享信息,实现有针对性的搜索,避免传统的盲目性搜索。仿真结果表明,该算法查询搜索时产生的消息数量比传统算法减少一个数量级,并能够获得较好的查全率。相似文献