首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 171 毫秒
1.
一个基于三元组存储的列式OLAP查询执行引擎   总被引:1,自引:0,他引:1  
朱阅岸  张延松  周烜  王珊 《软件学报》2014,25(4):753-767
大数据与传统的数据仓库技术相结合产生了大数据实时分析处理需要(volume+velocity),它要求大数据背景下的数据仓库不能过多地依赖物化、索引等高存储代价的优化技术,而要提高实时处理能力来应对大数据分析中数据量大、查询分析复杂等特点.这些查询分析操作一般表现为在事实表和维表之间连接操作的基础上对结果集上进行分组聚集等操作.因此,表连接和分组聚集操作是ROLAP(relational OLAP)性能的两个重要决定因素.研究了新硬件平台下针对大规模数据的OLAP查询的性能,设计新的列存储OLAP查询执行引擎CDDTA-MMDB(columnar direct dimensional tuple access-main memory databasequeryexecutionengine,直接维表元组访问的内存数据库查询执行引擎).基于三元组的物化策略,使得CDDTA-MMDB能够减少内存列存储模型上表连接操作访问基表和中间数据结构的次数.首先,CDDTA-MMDB将查询分解为作用在维表和事实表上的子查询,如果只涉及过滤操作,子查询将生成<代理键,布尔值>二元组;否则,子查询生成<代理键,关键字,值>三元组.然后,只需一趟扫描事实表,利用事实表的外键映射函数直接定位相应三元组或者二元组,完成相应的过滤、连接或聚集操作.CDDTA-MMDB充分考虑了内存列存储数据库的设计原则,尽量减少随机内存访问.实验结果表明:CDDTA-MMDB是高效的,与具代表性的列存储数据库相比,比MonetDB 5.5快2.5倍,比C-store的invisible join快5倍;并且,CDDTA-MMDB在多核处理器上具有线性加速比.  相似文献   

2.
InfoBright是一个列存储数据库,对比传统行存储数据库它提供了优秀的数据压缩能力和极高的查询效率.InfoBright出众的查询效率并没有建立在传统的B树索引结构的基础上,而是采用了一种叫做知识网格(Knowledge Grid)的新技术.重点分析了知识网格技术原理.  相似文献   

3.
通过对分布式列存储机制下多维数据仓库模型的研究,考虑到多维数据仓库模型上的关联和聚集操作常常会引入大量的数据迁移,提出一种有效的列存储机制下多维数据仓库模型的优化方法即结合层次编码技术。采用维表层次全局域编码和维表层次局部域编码相结合的方式对传统星型模型维表中的层次信息进行二进制编码整合,将维表的层次信息压缩进事实表形成无连接星型模型,并针对新模型下的数据特征提出一种复合压缩策略,以期减少分布式列存储机制下的OLAP操作引入的数据迁移并降低数据存储空间,提升系统的查询性能。实验结果表明,该优化方法是可行且有效的。  相似文献   

4.
为了提高数据库的查询性能,SQL Server 2012提出了在表中创建列式索引。本文阐述了列存储索引的存储原理及使用列存储索引的优势与局限,旨在可以让用户通过列式索引卓越的性能挖掘交互式的探索数据,从而通过现有数据获得更多的商业价值。  相似文献   

5.
列存储数据仓库中启发式查询优化机制   总被引:3,自引:0,他引:3  
严秋玲  孙莉  王梅  乐嘉锦  刘国华 《计算机学报》2011,34(10):2018-2026
研究和实践表明列存储更加适合于大规模数据集上的即席查询的“读优化”应用需求.然而由于列存储的处理对象是列,此时传统的基于规则的查询优化方法并不完全适用.文中首先比较了列存储系统中查询优化与行存储系统的不同,在此基础上提出适合于列存储的启发式查询优化机制,其中包括启发式优化策略、重写规则、左深连接树结构和相关算法.实验表...  相似文献   

6.
分布式数据库能够以相对低廉的代价满足海量数据分析处理的性能需求,兼具良好的可扩展性.文中采用Shared-Nothing架构及MySQL数据库来实现分布式数据库访问层的功能架构及模块设计,提出了使用列存储机制提升分布式数据库系统查询性能的思路,包括数据存储的方法及策略.对所设计实现的系统进行了基准性能测试及扩展性能测试,结果表明,文中所实现系统相较传统列式数据库具有出色的查询性能表现,同时具有优秀的可扩展性,能够以较低的代价满足海量数据分析处理所带来的额外数据库性能提升要求.  相似文献   

7.
索引技术是提高海量数据查询效率的关键技术之一.传统索引如B+树等在更新事务环境中具有较好的性能,然而在面向列存储的分析型数据仓库查询环境下,时间空间代价较大.根据列存储数据仓库查询环境的特点,提出一种新型树型索引--RB+树(reduced B+-tree).该索引对传统B+树结构进行了改进,并结合自底向上创建索引树的方法,使得索引的空间利用率、创建和查找效率得到显著的提高.进一步将RB+树应用于列存储数据仓库中,建立了行号索引、列值索引,特别地为解决星型模型中多表连接问题提出连接索引,有效地提高了列存储数据仓库中元组重构与多表连接的效率.在数据仓库基准数据集SSB上的实验验证了方法的有效性.  相似文献   

8.
列存储数据库关键技术综述   总被引:5,自引:0,他引:5  
随着互联网技术的发展、硬件的不断更新、企业及政府信息化的不断深入,应用的复杂性要求越来越高,推动着数据存储技术向着海量数据、分析数据、智能数据的方向发展,以便为数据仓库、在线分析提供高效实时的技术支持。基于行存储的数据库技术面临新的问题,已经出现了技术瓶颈。近些年来,一种新的数据存储理念,即基于列存储的关系型数据库(简称列数据库,下同)应运而生。列数据库能够快速发展,主要原因是其复杂查询效率高,读磁盘少,存储空间少,以及由此带来的技术、管理和应用优势。对列数据库技术的基本现状、关键支撑技术以及应用优势进行了介绍和分析。  相似文献   

9.
为了使列存储OLAP(on-line analytical processing)操作中I/O和CPU开销较大的扫描、连接、聚集操作实现有效的共享和复用,提出了一个多查询优化技术。根据列存储以及OLAP操作的特点,提出了一系列转换规则,为OLAP查询请求产生的一组相关查询语句生成一个单一全局查询计划。为了达到共享复用的目的,在全局计划中引入新的过滤结点、分组结点、合并结点和聚集结点。同时,借用MuGA(multiply group by algo-rithm)算法,通过分组结点、合并结点、连接结点实现维表及事实表元组的分组序号标记,从而实现列扫描、列连接的共享。并为聚集结点提出了一个多阶段聚集算法,结合最终生成的事实表复合分组序号,实现聚集操作的复用。在SSB(star schema benchmark)数据集上设计实验,证明了该多查询优化策略的有效性。  相似文献   

10.
大数据的存储与分析是近年来数据库领域研究的热点,高效的索引技术是提高大数据查询分析性能的重要技术手段。在现有的数据存储模型及索引技术研究基础上,提出使用MapReduce构建列存储数据的索引。该索引技术结合MapReduce编程模型,先在Map阶段完成数据划分,然后在Reduce阶段完成数据的排序,最后在数据有序的Reduce节点上创建RB+树索引,从而减少索引创建时因为RB+树内部节点递归分裂而产生的昂贵代价和树的高度,提高数据查询的性能。通过在真实数据集上进行实验,验证了所提出方法的有效性。  相似文献   

11.
GPU以及集成式的CPU-GPU架构凭借其强大的并行处理能力和可编程流水线方式,已经成为数据库领域的研究热点。为充分利用异构平台的并行计算能力,提升列存储系统的查询性能,在研究异构平台结构特性的基础上,首先提出了GPU多线程平台上进行连接的数据划分策略--ICMD(Improved CMD),利用GPU流处理器并行处理各个子空间上的连接,然后利用任务评估分配模型实现查询负载的动态分配,使得查询操作能在多核CPU、GPU上高效并行执行。同时利用片上全局同步机制、局部内存重用技术优化ICMD连接算法。最后采用SSB基准测试集测试,结果表明:Intel? HD Graphics 4600平台上并行连接查询相比于CPU版本获得了35%的性能提升,较GPU查询引擎的Ocelot性能上提升了18%。  相似文献   

12.
The performance of online analytical processing (OLAP) is critical for meeting the increasing requirements of massive volume analytical applications. Typical techniques, such as in-memory processing, column-storage, and join indexes focus on high performance storage media, efficient storage models, and reduced query processing. While they effectively perform OLAP applications, there is a vital limitation: mainmemory database based OLAP (MMOLAP) cannot provide high performance for a large size data set. In this paper, we propose a novel memory dimension table model, in which the primary keys of the dimension table can be directly mapped to dimensional tuple addresses. To achieve higher performance of dimensional tuple access, we optimize our storage model for dimension tables based on OLAP query workload features. We present directly dimensional tuple accessing (DDTA) based join (DDTAJOIN), a technique to optimize query processing on the memory dimension table by direct dimensional tuple access. We also contribute by proposing an optimization of the predicate tree to shorten predicate operation length by pruning useless predicate processing. Our experimental results show that the DDTA-JOIN algorithm is superior to both simulated row-store main memory query processing and the open-source column-store main memory database MonetDB, thanks to the reduced join cost and simple yet efficient query processing.  相似文献   

13.
数据仓库中的多维数据模型及其对象关系的实现   总被引:1,自引:0,他引:1  
数据仓库和联机分析处理(OLAP)是当今商业数据处理领域的研究重点。传统的关系数据库技术已经很难满足联机分析处理对数据仓库的大量数据进行分析查询的要求。多维数据模型已成为数据仓库和联机分析处理的核心技术。该文设计了一种直观、有效的多维数据模型并给出了基于对象关系的实现。  相似文献   

14.
实际工程中采集和处理的数据量特别大,这对传统数据库技术提出巨大挑战。针对传统关系型数据库存储速度慢、对硬件要求高的缺点,提出一种以NoSQL数据库为基础的大数据处理方法,打破了传统数据库的关系模型,数据以一种自由的方式存储,而不依赖固定的表结构。该方法主要是将经验模态分解并与NoSQL数据库技术相结合,应用于大型结构件的变形监测中,构建出一个基于NoSQL数据库系统的大型结构件变形监测系统。仿真结果表明,该方法可以实现大型结构件变形监测数据的实时处理,在计算收敛性、算法稳定性和处理速度上都优于传统数据库技术。  相似文献   

15.
数据库性能预测具有可利用的历史数据较少和受外界不确定性因素影响较大的特点,传统的单一、静态预测模型很难满足生产实际的需要。本文重点介绍在高负载下,通过构建数据库动态预测组合模型,克服传统马尔科夫链方法的不足,可以有效预测在逻辑读剧增的情况下导致的SQL性能问题。建立灰色-马尔科夫链预测模型,预测随机时间序列数据的总体发展趋势,使用这些技术可以在Oracle数据库系统处于高负载状态下,对SQL语句执行情况做出准确的性能预测,迅速定位性能瓶颈,有效预防性能问题。  相似文献   

16.
基于深度学习的声学模型研究   总被引:1,自引:0,他引:1  
近年来,深度学习凭借其优越的性能广泛应用于图像处理、自然语言处理、语音识别等领域,它对性能的提升远超于以往的传统方法.论文采取循环神经网络(Recurrent Neural Networks,RNN)中的长短期记忆模型(Long Short Time Memory,LSTM)实现了语音识别中的声学模型构建,并增加反向时...  相似文献   

17.
分析了面向先进硬件平台上的数据库优化技术,提出了基于内存存储模型的多表连接查询处理优化技术,采用内存存储模型存储维表并对维表主键进行顺序化,从而使维表的主键与内存维表记录的内存偏移地址相一致,实现对维表记录的内存直接访问。通过列存储技术减少维表记录的访问宽度,进一步优化维表访问的cache性能。与基于SQL Server 2005的查询执行计划的连接算法、join index连接算法以及基于列存储模型的优化连接算法进行了实验比较和性能分析,结果表明:基于内存存储模型的多表连接算法在处理星型结构数据仓库多谓词、多连接的复杂查询时具有很好的性能,与join index相比不需要额外的空间开销,与列存储数据模型相比具有更好的兼容性和性能。  相似文献   

18.
首先介绍了面向对象数据模型的概念,然后指出传统E-R模型与面向对象数据模型的区别,在对二种模型客观分析的基础上提出了一种传统E-R模型到面向对象数据模型的转换方法,最后尝试使用Oracle 9i对象关系数据库实现转换后得到的数据模型。  相似文献   

19.
词义消歧是自然语言领域中重要的研究课题之一。目前,有监督词义消歧方法已经是解决该问题的有效手段。但是,由于缺乏大规模的训练语料,有监督方法还不能取得满意的效果。该文提出一种基于语言模型的词义消歧优化模型,该模型采用语言模型优化传统的有监督消歧模型,充分利用有监督和语言模型两种模型的消歧优势,共同推导歧义词的词义。该模型可以在训练语料不足的情况下,有效的提高词义消歧效果。在真实数据上表明,该方法的消歧性能超过了参加SemEval-2007:task #5评测任务的最好的有监督词义消歧系统。  相似文献   

20.
近年来随着深度学习技术的不断革新,预训练模型在自然语言处理中的应用也越来越广泛,关系抽取不再是单纯地依赖传统的流水线方法。预训练语言模型的发展已经极大地推动了关系抽取的相关研究,在很多领域已经超越了传统方法。首先简要介绍关系抽取的发展与经典预训练模型;其次总结当下常用的数据集与评测方法,并分析模型在各数据集上的表现;最后探讨关系抽取发展的挑战与未来研究趋势。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号