首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 255 毫秒
1.
王宏志  李建中  高宏 《软件学报》2012,23(3):539-549
非清洁数据为数据管理带来了新的挑战,当前,处理非清洁的数据清洗方法在实际应用中存在一定的局限性,因此需要在一定程度上容忍非清洁数据的存在.这样,研究管理包含非清洁数据的数据库管理技术就成为了重要的问题,其核心在于如何从包含非清洁数据的数据库中得到满足应用所要求的清洁度的查询结果.从非清洁数据处理角度出发,提出了一种非清洁数据库的数据模型.该模型提出了非清洁数据的表示方法,支持非清洁数据的数据操作,并且支持数据操作清洁度的计算,同时还讨论了查询表达式的等价转换规则和模型的初步实现.  相似文献   

2.
聚集查询是一种常用但是耗时的数据库操作.相对于准确查询,以少得多的响应时间向用户返回满足置信区间的近似结果通常是一种更好的选择.现有的近似查询方法无法在海量数据上高效地处理满足任意精度的近似聚集查询.提出一种新的算法PAA(partition-based approximate aggregation)来有效处理满足任意置信区间的近似聚集.维属性的数据空间被划分为同样大小的空间区域,每个分片维护着维属性落入对应空间区域的元组.PAA算法维护表的随机样本RS,其执行包括两个阶段.在阶段1,如果利用预构建的随机样本RS不能返回满足用户要求的近似结果,那么在阶段2,PAA算法从与查询区域相交的空间区域对应的分片集合IPS中获得更多的随机元组.PAA算法的特色在于:1)如何在不知道IPS包含的每个分片满足谓词的元组数量情况下,从IPS中获得需要的随机元组;2)如何有效减少阶段2中的随机I/O费用.实验表明,相对于现有方法,PAA算法可以获得两个数量级的加速比.  相似文献   

3.
不确定数据库中的概率阈值top-k查询是计算元组排在前k位的概率和,返回概率和不小于p的元组,但现有的查询语义没有将x-tuple内的元组进行整体处理.针对该情况,定义一种新的查询语义——概率阈值x-top-k查询,并给出查询处理算法.在该查询语义下采用动态规划方法求取x-tuple内每个元组排在前k位的概率和,对其进行聚集后做概率阈值top-k查询,并利用观察法、最大上限值等剪枝方法进行优化.实验结果表明,该算法平均扫描全体数据集中60%的数据即可返回正确结果集,证明其查询处理效率较高.  相似文献   

4.
在聚类和非一致性数据库无聚集查询基础上提出聚集查询重写方法.通过聚集值范围限定了最值和期望值,给出无连接和有连接的聚集查询重写策略.聚集重写查询通过分析聚类中可能元组和分组属性来过滤聚类,计算初始分组属性的最值和期望值.实验使用TPC-H决策支持基准进行性能研究,分析了聚类基数和数据库尺寸等因素的影响.结果显示尽管重写查询显著地比初始查询的执行时间长,但还是可以接受的,表明方法是有效的.  相似文献   

5.
对于不一致数据库上的一致性聚集查询问题,Fuxman扩展基于合取查询类C_(forest)的一阶查询重写方法并给出了查询重写算法RewriteCount和RewriteAgg来分别处理包含不同聚集函数的查询.算法产生的重写聚集查询能够使用SQL语句表达,但是其性能却不够理想.文中重点考虑在数据集成环境下如何有效地提高一致性聚集查询的整体性能,通过OR-database集成模式有效地隔离集成数据库的一致性部分和非一致新部分,并在此基础上同样针对合取查询类C_(forest)上的分组聚集查询提出了基于OR-database的一致性查询重写算法RewriteCount_OR(主要处理Count函数)和RewriteAgg_OR(主要处理Max,Min和Sum函数),后面的查询代价比较及模拟实验都表明:与Fuxman的一致性聚集查询方法相比,文中的一致性聚集查询方法在OR-database集成数据库上具有明显的性能优势.  相似文献   

6.
基于分组序号的聚集算法   总被引:4,自引:0,他引:4  
联机分析处理OLAP(online analytical processing)查询作为一种复杂查询,当使用SQL(structured query language)语句来表述时,通常都包含多表连接和分组聚集操作,因此提高多表连接和分组聚集计算的性能就成为ROLAP(relational OLAP)查询处理的关键问题.提出一种基于分组序号的聚集算法MuGA(group number based aggregation with multi-table join),该方法充分考虑数据仓库星型模式的特点,将聚集操作和新的多表连接算法MJoin(multi-table join)相结合,使用分组序号进行分组聚集计算,代替通常的排序或者哈希计算,从而有效地减少CPU运算以及磁盘存取的开销.算法的实验数据表明,提出的MuGA算法与传统的关系数据库聚集查询处理方法以及改进后的基于排序的聚集算法相比,性能都有显著提高.  相似文献   

7.
张延松  张宇  黄伟  王珊  陈红 《软件学报》2009,20(Z1):165-175
根据OLAP查询的特点和内存数据库的性能特征提出了由多个内存数据库组成的并行OLAP查询处理系统,将OLAP应用中的多维聚集查询分布到各个计算节点并行进行聚集计算,并将聚集计算的结果进行合并输出.与其他并行处理方法相比,该算法充分利用OLAP DB结构中维表远小于事实表的特性,根据数据库中事实表的数据量和节点的数据处理能力进行水平数据库分片,并根据聚集函数的可分布计算特性提高查询处理的并行度,延迟并行查询处理中的合并过程,充分利用节点的并行处理能力,减少并行查询处理过程中的数据通信量,提高系统并行查询处理性能.该算法易于实现,具有较好的可扩展性和性能,适用于企业级海量数据处理领域的需求.  相似文献   

8.
封闭数据立方体技术研究   总被引:14,自引:1,他引:14  
李盛恩  王珊 《软件学报》2004,15(8):1165-1171
数据立方体中有很多冗余信息,去除这些冗余信息不但可以节约存储空间,还可以加快计算速度.数据立方体中的元组可以划分为封闭元组和非封闭元组.对任何一个非封闭元组,一定存在一个封闭元组,它们都是从基本表的同一组元组中经过聚集运算得到的,因而具有相同的聚集函数值.去掉数据立方体中所有的非封闭元组就产生了一个封闭数据立方体.提出了封闭数据立方体的生成算法、查询算法和增量维护算法,并使用合成数据和实际数据做了一些实验.实验结果表明,封闭数据立方体技术是有效的.  相似文献   

9.
一种基于维层次编码的OLAP聚集查询算法   总被引:8,自引:2,他引:8  
联机分析处理(OLAP)查询往往需在海量数据上进行即席的复杂分组聚集查询,在其SQL语句中通常包含多表连接和分组聚集操作,因而减少多表连接和压缩关键字,以及对查询数据进行有效地分组聚集操作,成为ROLAP查询处理的关键问题。提出了一种基于维层次编码的新型预分组聚集算法DHEPGA.DHEPGA算法充分利用了编码长度较小的维层次编码及其前缀,来快速检索出与查询关键字相匹配的维层次编码,求得维层次属性的查询范围,减少了I/O开销,提高了OLAP查询效率。理论分析和实验结果表明,DHEPGA算法性能是非常有效的。  相似文献   

10.
基于非一致性关系数据库的选择连接查询技术,提出了基于非一致性数据库多个关系上的聚集查询重写方法。该聚集查询重写方法先通过查询出多关系上的一致性结果,然后进行分组聚集,返回聚集表达范围边界值。实验采用TPC-H策支持基准进行性能研究,结果表明重写查询比初始查询的执行时间要长,但还是可以接受的,因此该方法是有效的。  相似文献   

11.
王宏志  李建中  骆吉洲 《软件学报》2008,19(8):2032-2042
XML数据流的特点是所有元素和值仅允许扫描1次.针对XML数据流上的聚集问题,提出了高效的XML数据流聚集算法.这种算法不但能够有效地支持XML数据流上具有复杂结构聚集查询的处理,而且能够有效地支持具有递归结构XML数据流上的聚集查询处理.理论分析和实验结果表明,算法能够有效地处理XML数据流上的聚集查询。并且具有很好的可扩展性.  相似文献   

12.
Effective query aggregation for data services in sensor networks   总被引:1,自引:0,他引:1  
Wei  Thang Nam  Jangwon  Dong   《Computer Communications》2006,29(18):3733-3744
Providing efficient data services has been required by many sensor network applications. While most existing work in this area focuses on data aggregation, not much attention has been paid to query aggregation. For many applications, especially ones with high query rates, query aggregation is very important. In this paper, we study a query aggregation-based approach to provide efficient data services. In particular: (1) we propose a multi-layer overlay-based framework consisting of a query manager and access points (nodes), where the former provides the query aggregation plan and the latter executes the plan; (2) we design an effective query aggregation algorithm to reduce the number of duplicate/overlapping queries and save overall energy consumption in the sensor network. We also design protocols to effectively deliver aggregated queries and query results in the sensor network. Our performance evaluations show that by applying our query aggregation algorithm, the overall energy consumption can be significantly reduced and the sensor network lifetime can be prolonged correspondingly.  相似文献   

13.
胡小生  钟勇 《计算机应用》2012,32(12):3331-3334
当前排序学习算法在学习时将样本集中的所有查询及其相关文档等同对待,忽略了查询之间以及其相关文档之间的差异性,影响了排序模型的性能。对查询之间的差异进行分析,同时考虑文档排序位置造成的资料被检视概率不同的差异特性,提出了一种两层加权融合的排序方法。该方法为每一个查询及其相关文档建立一个子排序模型,在此过程中,对文档赋予非对称权重,然后通过建立新的损失函数作为优化目标,利用损失函数调节不同查询产生损失之间的权重,最终实现多查询相关排序模型的加权融合。在标准数据集LETOR OHSUMED上的实验结果表明,所提方法在排序性能上有较大提升。  相似文献   

14.
With the rapid growth of Web databases,it is necessary to extract and integrate large-scale data available in Deep Web automatically.But current Web search engines conduct page-level ranking,which are becoming inadequate for entity-oriented vertical search.In this paper,we present an entity-level ranking mechanism called LG-ERM for Deep Web queries based on local scoring and global aggregation.Unlike traditional approaches,LG-ERM considers more rank influencing factors including the uncertainty of entity...  相似文献   

15.
Online aggregation is an attractive sampling-based technology to response aggregation queries by an estimate to the final result, with the confidence interval becoming tighter over time. It has been built into a MapReduce-based cloud system for big data analytics, which allows users to monitor the query progress, and save money by killing the computation early once sufficient accuracy has been obtained. However, there are several limitations that restrict the performance of online aggregation generated from the gap between the current mechanism of MapHeduce paradigm and the requirements of online aggregation, such as: 1) the low sampling efficiency due to the lack of consideration of skewed data distribution for online aggregation in MapReduce, and 2) the large redundant I/O cost of online aggregation caused by the independent job execution mechanism of MapReduce. In this paper, we present OLACloud, a MapReduce-based cloud system to well support online aggregation for different data distributions and large-scale concurrent query processing. We propose a content-aware repartition method with a fair-allocation block placement strategy to increase the sampling efficiency and guarantee the storage and computation load balancing simultaneously. We also develop a shared sampling method to share the sampling opportunities among multiple queries to reduce redundant I/O cost. We also implement OLACloud in Hadoop, and conduct an extensive experimental study on the TPC-H benchmark for skewed data distribution. Our results demonstrate the efficiency and effectiveness of OLACloud.  相似文献   

16.
数据流历史数据的存储与聚集查询处理算法   总被引:7,自引:0,他引:7  
张冬冬  李建中  王伟平  郭龙江 《软件学报》2005,16(12):2089-2098
目前数据流的研究成果主要集中在分析处理存储于内存中的最近一段时间内的数据流数据,忽略了对数据流历史数据的分析处理与存储管理.提出了一种数据流历史数据的存储管理及聚集查询处理方法,通过对历史数据实施多层递阶抽样存储,并在内存中建立存储数据流历史数据聚集值的HDS-Tree索引,实现对无限数据流历史数据的存储管理,有效地支持各种聚集查询同时,还给出了基于HDS-Tree的聚集查询算法的时间复杂性分析和查询误差分析.理论分析与实验结果表明,该方法可以有效地用于数据流历史数据的存储与分析.  相似文献   

17.
程思瑶  姜守旭  李建中 《软件学报》2009,20(7):1800-1811
随着P2P 技术在电子商务等领域的广泛应用,对分布在P2P 网络中的数据进行聚集操作的需求越来越迫切.但是,由于P2P 网络的大规模及分散性,这种聚集操作的实现颇具挑战性.而且在很多应用中,P2P 网络中的数据往往是随时间变化的,这进一步增加了聚集操作的难度.现有P2P 网络中的聚集算法均假定网络中的数据是非时变的,如果将其直接应用在存在时变数据的P2P 网络中,则会因为其聚集时间过长而导致聚集过程中数据已经发生变化的问题.为此,提出了一种P2P 网络中基于均衡采样的时变数据近似聚集算法,理论分析和实验结果表明,该聚集算法在处理时变数据时优于已有的算法,可以有效地应用于存在时变数据的P2P 网络中.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号