首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 437 毫秒
1.
在数据仓库以及联机分析处理等许多领域中,聚集数据的处理是一个非常重要的核心问题。本文分析了聚集数据查询的特点,引入了基于聚集数据的近似查询计算模型,并针对该计算模型的提纲构建问题,给出了一类近似查询提纲的Haar小波方法,来实现对聚集数据和聚集视图的快速查询计算。  相似文献   

2.
陈昕  陈维兴  苏锦祥 《计算机工程》2005,31(8):29-30,34
研究了聚集查询重写的特征,根据数据仓库环境下聚集查询需要快速计算的特点,给出了一个基于聚集查询重写的快速近似计算模型,并在人口统计信息系统中应用该计算模型实现快速查询计算,该近似快速计算模型可以应用于具有统计特征的数据环境,获得快速的查询计算结果。  相似文献   

3.
许多领域中大量应用所产生的数据流的处理已成为聚集数据处理的一个重要方面。文章在对数据流查询计算进行深入研究的基础上,分析了该情形下聚集查询语言与重写的特征,给出了一类有效的快速查询计算模型。该计算模型的核心是运用小波分析方法,通过建立有效的小波提纲来提高查询处理的效率。最后,在实际应用环境下对所给出的模型进行了应用分析。  相似文献   

4.
基于聚类的非清洁数据库的聚集查询处理算法   总被引:1,自引:0,他引:1  
现实数据库中的不完整数据、不一致数据、重复数据等非清洁数据为数据库的有效使用带来了影响,从包含非清洁数据的数据库中得到满足清洁度要求的统计分析结果,为数据库研究带来了新的挑战,聚集查询是统计分析的基础.面向非清洁数据,提出了有清洁度保证的聚集查询处理算法,用于处理包含group by子句的聚集查询.考虑到在非清洁数据中,同一个元组可能属于不同的分组,提出的方法是利用可重叠聚类的方法将数据库中的元组加以分组,从而得到考虑数据非清洁性的分组,以及基于这些分组计算得到的聚集结果及其以概率表达的清洁度.提出的方法适用于多种聚集函数以及包含选择条件的聚集查询.通过实验验证了方法的效率.  相似文献   

5.
增量查询技术由于能有效处理大量、快速、源源不断到达的数据流,因此备受关注。滑动窗口是动态数据流环境下的一种典型的窗口类型。该文研究了基于滑动窗口的数据流聚集查询,提出了一种新的增量聚集查询算法,采用了多种增量计算方法和查询共享技术,实现了多窗口资源共享。实验验证了该方法的有效性。  相似文献   

6.
张延松  张宇  黄伟  王珊  陈红 《软件学报》2009,20(Z1):165-175
根据OLAP查询的特点和内存数据库的性能特征提出了由多个内存数据库组成的并行OLAP查询处理系统,将OLAP应用中的多维聚集查询分布到各个计算节点并行进行聚集计算,并将聚集计算的结果进行合并输出.与其他并行处理方法相比,该算法充分利用OLAP DB结构中维表远小于事实表的特性,根据数据库中事实表的数据量和节点的数据处理能力进行水平数据库分片,并根据聚集函数的可分布计算特性提高查询处理的并行度,延迟并行查询处理中的合并过程,充分利用节点的并行处理能力,减少并行查询处理过程中的数据通信量,提高系统并行查询处理性能.该算法易于实现,具有较好的可扩展性和性能,适用于企业级海量数据处理领域的需求.  相似文献   

7.
一种适应性的流式数据聚集计算方法   总被引:2,自引:2,他引:0  
侯东风  刘青宝  张维明  邓苏 《计算机科学》2010,37(3):152-155169
针对流式数据聚集查询问题,提出了一种基于适应性层次聚集树的计算方法。适应性层次聚集树结构基于多层次时间窗口模型,将距离当前时刻较近的数据保存为细粒度数据,而相对久远的数据仅保留高层聚集信息;适应性层次聚集树中粒度的划分取决于相应时间间隔的数据密度。稀疏密度的时间间隔对应粗粒度的划分,而高密度的间隔对应细粒度的划分。并且提出了相应的构建维护以及聚集查询计算方法。实验结果表明,该方法在非均匀分布条件下的流式数据聚集计算中具有较为明显的优势。  相似文献   

8.
面对OLAP海量数据查询处理的请求与单机内存容量有限的矛盾,设计了ScaMMDBⅡ系统.ScaMMDBⅡ系统将在单一节点上进行的包含可分布式聚集函数的海量数据OLAP查询操作转换为在多个节点子CUBE上并行执行的OLAP查询以及查询结果的合并运算,以此达到简化系统复杂度和提高查询的并行执行能力的目的;除此之外, ScaMMDBⅡ通过迭代的中值计算方法还能够处理不可分布式计算的聚集函数Median.通过分而治之的思想, ScaMMDBⅡ有效地解决了容量与性能之间的矛盾,并且具有高可扩展性.  相似文献   

9.
在数据流的查询处理中,聚集查询是一种常用的查询类型.系统经常需要在同一个数据源上处理多个聚集查询,而单独地执行每个查询会导致严重的可扩展性问题和性能问题,因此实现相似查询之间的资源共享变得至关重要.针对多个具有不同时间窗口的聚集查询,本文提出了一种优化的窗口聚集算法OPWA(Optimized Paired Window Aggregation).先根据各时间窗口参数对聚集查询进行分组,使得相似查询可以同步调度;再采用paired技术对数据流进行分割.一方面减少了时间切片的数目,降低了空间的需求;另一方面同步地执行相似查询,减少了系统的计算开销.实验表明OPWA具有较好的性能.  相似文献   

10.
在联机分析处理(OLAP)中,有效地维度模型对海量数据的即席复杂分组聚集查询起着关键的作用.在偏序和映射的基础上,通过定义层次有序维,提出一种基于层次有序维的分组聚集算法.该算法利用维属性之间的聚集关系,通过约束层次链中的元素次序,实现了分组聚集计算中多表连接转换为维范围的查询,提高了连接和聚集效率.最后,实验结果验证了该算法的有效性.  相似文献   

11.
屈啸  王永利 《计算机科学》2012,39(6):170-174
随着物联网的发展,以RFID为代表的物联网传感器数据的存储、查询、处理等课题正成为研究的热点。结合数据仓库时空维度和列存储的思想,建立了一种列式RFID数据仓库,并根据RFID的时空特性,设计了一种支持连续聚集查询的多时空粒度数据结构和快速更新算法。它去除了传统聚集查询的部分冗余操作,适合处理大规模RFID数据仓库上的连续实时聚集查询。通过实验证明,该模型与算法在一些典型的物联网应用中取得了较高的效率,可广泛地适用于海量RFID数据仓库上的OLAP分析。  相似文献   

12.
Monitoring aggregate queries in real-time over distributed streaming environments appears to be a great challenge not only because of the huge data volume and high rate, but also because of the limitation of the network transmission bandwidth. Consequently, ensuring qualified approximate results with economical network consumption becomes one of the most important goals in such scenarios. In this paper, we study how to monitor aggregate queries continuously over distributed environments efficiently by disposing numerous filters at remote sites, in order to transmit only a small part of incoming data to the query site and therefore save the network resource significantly. We also show how to adjust the parameters of a filter continuously when the incoming data distribution at the corresponding remote site changes. Analysis and extensive experimental results demonstrate that our approach outperforms the existing work.  相似文献   

13.
如何快速有效地对数据立方体上的聚集查询给出近似的回答,是数据挖掘和数据仓库研究领域中的核心问题之一。现有大多数聚集查询算法在同一个数据立方体上只能支持某种特定的而非多种类型的聚集查询。本文给出了一种新的框架AdenTS,即基于密度的自适应树结构,它可以回答同一数据立方体上的各类聚集查询,也提出了一些近似和启发式技术,改善了查询结果和精度。实验结果表明,这种方法在支持的查询种类和性能上是更好的。  相似文献   

14.
We consider a workload of aggregate queries and investigate the problem of selecting materialized views that (1) provide equivalent rewritings for all the queries, and (2) are optimal, in that the cost of evaluating the query workload is minimized. We consider conjunctive views and rewritings, with or without aggregation; in each rewriting, only one view contributes to computing the aggregated query output. We look at query rewriting using existing views and at view selection. In the query-rewriting problem, we give sufficient and necessary conditions for a rewriting to exist. For view selection, we prove complexity results. Finally, we give algorithms for obtaining rewritings and selecting views.  相似文献   

15.
在连续的数据流上提供查询的应答对很多应用环境来说是一个极为重要的需求。本文主要探索了如何使用有限的内存在数据流上进行聚集SQL查询,以获得近似的结果。使用随机草图技术,计算非常小的数据流草图,以获得泉集查询的近似结果,并保证误差能在一定的范围之内。并讨论了.在草图方法中如何利用已有的直方图统计信息来提高应答的质量。其关键的思想就是对属性域进行智能化的划分,分解草图化问题,确保所获得查询的结果具有合适的近似精度。不论从理论还是实验上都可以证明草图提供的聚集查询结果比传统的直方图更有效、更精确。  相似文献   

16.
In-network data aggregation has been recently proposed as an effective means to reduce the number of messages exchanged in wireless sensor networks. Nodes of the network form an aggregation tree, in which parent nodes aggregate the values received from their children and propagate the result to their own parents. However, this schema provides little flexibility for the end-user to control the operation of the nodes in a data sensitive manner. For large sensor networks with severe energy constraints, the reduction (in the number of messages exchanged) obtained through the aggregation tree might not be sufficient. In this paper, we present new algorithms for obtaining approximate aggregate statistics from large sensor networks. The user specifies the maximum error that he is willing to tolerate and, in turn, our algorithms program the nodes in a way that seeks to minimize the number of messages exchanged in the network, while always guaranteeing that the produced estimate lies within the specified error from the exact answer. A key ingredient to our framework is the notion of the residual mode of operation that is used to eliminate messages from sibling nodes when their cumulative change to the computed aggregate is small. We introduce two new algorithms, based on potential gains, which adaptively redistribute the error thresholds to those nodes that benefit the most and try to minimize the total number of transmitted messages in the network. Our techniques significantly reduce the number of messages, often by a factor of 10 for a modest 2% relative error bound, and consistently outperform previous techniques for computing approximate aggregates, which we have adapted for sensor networks.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号