首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 125 毫秒
1.
在数据仓库中存在着大量的数据。联机分析处理包含着对大量数据的复杂的查询过程。在对这些数据的存储与查询中都遇到了许多困难。解决这一问题的有效办法就是先将数据划分成便于处理的数据块,再分别对每个数据块进行处理,最后将个数据块的处理结果归并在一起。对几种常用的归并算法进行了比较,并讨论了归并中的缓冲区分配问题。  相似文献   

2.
3.
目前并行数据库的研究已经进入了实际应用阶段,而数据仓库的大数据量处理更需要并行处理能力的支持。针对数据仓库的特点,提出了一种可操作的并行化数据划分方法和物理存储方案,同时对基于该种数据存储的数据操作做了详细的讨论,并对各种Join操作的具体处理方法进行了归类论述。  相似文献   

4.
数据仓库管理技术的研究   总被引:1,自引:0,他引:1  
本文研究了数据仓库管理中的一些关键技术,包括数据复制技术、故障恢复、访问控制与安全、数据增长的管理、数据库性能的管理、以及数据仓库的档次与扩充等。  相似文献   

5.
徐强 《计算机科学》2003,30(2):63-65
1 虚拟数据模型概述虚拟数据仓库技术因为其开放灵活的体系结构、以需求为驱动、无限的扩展性等优点而越来越引起人们的关注,相比传统数据仓库以供给为驱动的特点,虚拟数据仓库对有很多不同时期、不同构、复杂的数据源的大公司大企业来说有巨大的吸引力。本文在此技术的基础上,提出了一个基于查询优化的虚拟数据仓库模型,它使用多层次分布式的数据结构,在  相似文献   

6.
提出了数据仓库环境下基于知识的智能查询方法--KBIQ方法,详细介绍了该方法中的NQL语言和KBDL语言,并阐述了一个通用智能查询工具--KBIQ系统的实现。  相似文献   

7.
查询速度是联机分析处理中的一个关键性能指标,人们通过事先生成所有可能的聚集来提高查询速度,然而这样的完全物化是以存储空间为代价的.针对数据立方体数据分布特点和结合压缩技术,本文介绍如何最大化节省存储空间来进行完全物化,然后在此基础上对查询进行了研究,以达到最小存储空间以及较好的查询速度的目的.  相似文献   

8.
数据仓库技术及其应用   总被引:2,自引:0,他引:2  
本文首先对数据仓库的定义与基本概念进行了描述;然后对建立数据仓库的目的和方法作了说明,并对数据仓库的特点作了简单介绍;接着对数据仓库的国内、外发展及产品情况进行了介绍;最的对数据仓库在MPP环境的运行,以及数据仓库在特种信息领域的应用作了较为深入的探讨。  相似文献   

9.
基于数据仓库的热电厂综合查询系统的实现   总被引:1,自引:1,他引:1  
数据仓库是面向主题的、集成的、稳定的数据集合。典型的数据仓库应用系统是以数据仓库为基础,包括查询与分析工具在内的一整套技术。本文以热电生产企业为例,论述了创建热电厂数据仓库的一般方法、步骤、并介绍了数据仓库的前端访问工具--综合查询系统的设计实现。  相似文献   

10.
当海量RDF数据存储在分布式平台上时,数据划分的策略将直接影响海量数据的查询效率。为了提高分布式平台上的海量数据查询效率,提出一种基于分布式平台的有效数据划分方法。该方法根据RDF数据图的特征将数据分布在集群的各个节点上,并在此基础上对SPARQL查询语句进行分解,实现高效的分布式查询。算法在云平台上实现,并在真实的RDF数据集上对算法进行了测试。实验结果证明,与基准方法相比,该算法在查询效率上有很大的提高。  相似文献   

11.
考虑了分布式数据仓库的星型模式及数据分段的特点,在各站点对分组关键字进行编码压缩,并采用分布式聚集运算的方法,最后在请求站点生成完整的分组聚集结果,以降低站点内的排序费用,减少站点间传输的元组大小和数目,从而降低了站点内的处理代价和站点间的数据传输费用,提高了分布式数据仓库分组聚集运算的效率。  相似文献   

12.
鲍蓉 《计算机工程》2009,35(2):39-41
针对传统数据仓库系统中多维模式进化历史的挥发性问题,提出用版本元数据来记录数据仓库进化过程中的每一种多维模式状态,给出版本元数据结构,设计了跨版本透明查询系统及相应的查询算法。查询分解算法将用户基于一种模式结构提出的查询请求分解为在各个数据仓库版本上计算的子查询,集成算法将子查询结果进行必要的汇总和转换。  相似文献   

13.
以煤矿系统为背景,利用DTS工具和.NET Remote框架,分析、设计并实现了一种由数据源端发起的数据抽取方法。该方法可将分散在不同地理位置上的操作型数据源加载到数据仓库中,并且考虑了抽取过程中可能遇到的系统故障和网络故障问题,具有较高的健壮性。  相似文献   

14.
康炎丽  李丰  王蕾 《软件学报》2017,28(7):2126-2147
大数据蕴含着巨大的价值.分析类查询是获取数据价值的一种重要手段.为及时把握分析结果的变化,查询需要周期性地重复.为此,将不可避免地引入对旧数据的重复分析.目前,以重用历史数据的中间结果,优化冗余计算为核心思路的增量分析技术,存在用户透明性不佳、对历史结果存储位置的选择不够智能化等问题,对周期性增量查询的优化效果有限.本文从兼顾用户透明性和优化收益的角度出发,设计了一种以语义规则为指导的增量优化方法.该方法扩展了增量描述语法,以查询操作符的操作语义和输出语义指导对历史数据存储、合并位置的选择,再根据代价模型和物理查询任务的划分位置对选择结果进行调整,生成优化后可以在分布式计算框架(如:MapReduce)周期性调度执行的物理查询任务.本文以Apache Hive为基础实现了上述方法的原型HiveInc.实验表明,对于扩展了增量语法描述的TPC-H测试集,HiveInc相比优化前,可以获得平均2.93倍,最高5.78倍的加速;与经典优化技术IncMR,DryadInc相比,分别可以获得1.69和1.61倍的加速.  相似文献   

15.
Map/Reduce是海量离线数据分析中广泛应用的并行编程模型.Hive数据仓库基于Map/Reduce实现了查询处理引擎,然而Map/Reduce框架在处理偏斜数据时会出现工作负载分布不均的问题.均衡计算模型(computation balanced model, CBM),其核心思想是通过数据分布特征指导查询计划优化.相应研究贡献包括2部分,首先针对应用极广的GroupBy查询和Join查询建立了运行估价模型,确定了不同场景下查询计划的优化选择分支;其次基于Hive ETL机制设计了一种统计信息收集方法,解决了统计海量数据分布特征的问题.实验数据表明,通过CBM优化的 GroupBy查询耗时节省了8%~45%,Join查询耗时节省了12%~46%;集群CPU负载均衡指标优化了60%~80%,I/O负载均衡指标优化了60%~90%.实验结果证实了基于CBM模型优化的查询计划生成器能显著均衡化Hive查询运行时的集群负载,并优化了查询处理效率.  相似文献   

16.
数据仓库查询处理中的一种多表连接算法   总被引:20,自引:2,他引:20  
蒋旭东  周立柱 《软件学报》2001,12(2):190-195
在进行数据仓库的OLAP(onlineanalyticalprocessing,联机分析处理)查询处理时,经常会涉及到多表连接操作,因此,提高多表连接的性能就成了数据仓库领域的关键性问题.基于数据仓库的星型模式,给出了一种新的多表连接算法(M-Join).与传统关系数据库管理系统的多表连接查询处理相比,该算法充分考虑了数据仓库中的数据本身和多表连接的特点,采用对多个表进行一次性连接的方法,使得查询的性能有明显的改善.同时,还给出了算法的实验结果和分析.  相似文献   

17.
介绍了将数据仓库技术应用于海量气象数据的管理。气象数据仓库不仅可使气象业务人员迅速准确地获取有用的气象信息,同时还给气象科研工作者提供了气象数据挖掘和知识发现的环境,为气象服务质量的提高提供有力的支持。  相似文献   

18.
This paper presents and evaluates a simple but very effective method to implement large data warehouses on an arbitrary number of computers, achieving very high query execution performance and scalability. The data is distributed and processed in a potentially large number of autonomous computers using our technique called data warehouse striping (DWS). The major problem of DWS technique is that it would require a very expensive cluster of computers with fault tolerant capabilities to prevent a fault in a single computer to stop the whole system. In this paper, we propose a radically different approach to deal with the problem of the unavailability of one or more computers in the cluster, allowing the use of DWS with a very large number of inexpensive computers. The proposed approach is based on approximate query answering techniques that make it possible to deliver an approximate answer to the user even when one or more computers in the cluster are not available. The evaluation presented in the paper shows both analytically and experimentally that the approximate results obtained this way have a very small error that can be negligible in most of the cases.  相似文献   

19.
列存储数据仓库查询执行中重用缓冲区调度算法   总被引:1,自引:0,他引:1  
查询的中间结果重用是提高查询效率的重要手段.现有列存储系统主要关注多查询计划间的中间结果重用,忽略了单一查询计划执行过程中大量可重复访问的中间结果.单一查询中的中间结果具有确定性高、结果大小可估计的特征,非常适合作为重用的对象.为此,针对列存储数据仓库单一查询计划执行过程中的中间结果重用问题,提出了一个重用缓冲区空间的...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号