首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 187 毫秒
1.
Top-k查询由于其广泛的应用而倍受欢迎.不确定数据库中通常考虑的两条生成规则是:独立和互斥,一个x-tuple是由一些互斥的元组组成的,构成一个x-tuple的各个元组称为该x-tuple的可选元组.U-kRanks查询考虑x-tuple中每个可选元组排在前k的概率,并返回最可能排在前k的k个元组.已有的Top-k语义都没有将x-tuple作为一个整体,因此,定义了一种新的Top-k查询语义,不确定x-kRanks查询 (U-x-kRanks),该Top-k语义返回最可能排在前k的k个x-tuple而非元组.新语义考虑x-tuple中的每个可选元组位于前k的概率,并将之汇集,得到整个x-tuple位于前k的概率.提出了一种基于动态规划的有效算法处理U-x-kRanks 查询,在最小的搜索空间内完成查询处理过程.不同数据集合上的综合实验显示,所提出的算法是高效的.  相似文献   

2.
在许多应用中,Skyline查询是一种十分重要的查询类型,它在潜在的巨大的数据空间中返回不被其他元组支配的用户感兴趣的元组,但是Skyline查询无法控制返回结果的数量。处理一个新的top-k Skyline查询问题,该查询返回支配分数最大的k个Skyline元组,从而控制了需要向用户返回的查询结果数量。分析发现,大多数现有算法忽略了利用支配分数作为限制Skyline查询的结果数量的度量。提出一个新的基于表扫描的RSTS(ranked Skyline with table scan)算法来有效计算海量数据上的top-k Skyline结果。RSTS算法首先对表执行预排序操作,保证预排序表的元组按照对有序列表的round-robin扫描的顺序排列。RSTS算法包括两个阶段。阶段1利用对预排序表的顺序扫描来获得候选元组。阶段2计算候选元组的支配分数并返回结果。可以证明,RSTS算法具有早结束特性,并给出其扫描深度的理论分析。提出对于候选元组的剪切操作,理论剪切效果表明,绝大多数的Skyline结果可以直接丢弃。实验结果表明,RSTS算法可以有效计算top-k Skyline结果。  相似文献   

3.
在不确定性数据集中,基于参数化排名函数的Top-k查询研究近年来备受关注。给出了一种新的解决方法,该方法将不确定性数据集中的元组建模为不确定网络,将有序元组的Top-k查询等价转化为相应样本图中边的不确定测度关系,并对样本图依据所包含边的排序位置进行分类,从而 将不确定性数据中基于参数化排名函数的Top-k查询等价转换为依Top-k值不同的有限查询。本算法避免了计算所有元组在样本图中的排名不确定测度值,提高了不确定图的Top-k查询计算效率。 理论分析和实验结果表明,提出的Top-k查询算法能够从非确定角度解决不确定性数据的Top-k查询计算问题。  相似文献   

4.
由于概率维的存在,使得准确高效地处理不确定数据的Top-k查询成为一个急需解决的难题。提出了一种利用控制关系分析(dominate relationship analysis,DRA)的不确定数据Top-k查询算法。该算法通过分析元组之间的控制关系,将那些最有可能成为Top-k查询结果的元组选择出来,这样大大减少了参加运算的元组数量,显著提升了查询效率。并且在数据库更新时,能够判断出此更新是否影响到之前得到的查询结果,从而决定是否需要重查,减少了重查的计算量。  相似文献   

5.
《计算机工程》2017,(2):79-84
现有Top-k查询算法主要运用在集中式关系型数据库中,当应用于分布式网络时会产生巨大的通信开销,导致算法效率低下。为此,提出一种改进的Top-k查询算法,利用预处理索引表对分布式网络中无关数据进行裁剪,在此基础上建立包含正确Top-k结果的候选子集并实现Top-k查询。实验结果表明,与Fagin和Naive Top-k查询算法相比,改进算法获得的查询结果更准确,运行时间更短,网络开销更小。  相似文献   

6.
Top-k查询是Web和多媒体搜索、决策支持、分布式系统等众多领域中最重要的查询之一,它返回数据集合中k个最关键的元组.大型数据集合往往包含一系列分类型属性,获取对目标属性影响最大的k个分类型属性值对于许多应用中也非常重要.研究了这个问题,正式定义了k-AKC和PKC两种查询,并设计相应的查询处理算法.实验结果表明,改良算法PKCQ+具有较佳的有效性和高效性.  相似文献   

7.
《计算机工程》2019,(6):60-66
为降低多属性不等值连接操作的计算代价,提出一种基于属性优选的不等值连接操作算法MIEJoin。按照连接属性对元组进行排序,计算各连接属性的候选集大小,在最小候选集中根据连接谓词进行筛选得到最终的结果集。在此基础上,为提升系统的缓存命中率,提出一种缓存敏感的多属性不等值连接算法CMIEJoin。基于MIEJoin算法建立元组的排列顺序数组,在内存中邻近存储连续访问的数据,以降低缓存的缺失次数并提升算法的运行效率。在TPC-H数据集上的实验结果表明,与BIEJoin算法和NLJoin算法相比,CMIEJoin算法具有较高的运行效率。  相似文献   

8.
聚集查询是一种常用但是耗时的数据库操作.相对于准确查询,以少得多的响应时间向用户返回满足置信区间的近似结果通常是一种更好的选择.现有的近似查询方法无法在海量数据上高效地处理满足任意精度的近似聚集查询.提出一种新的算法PAA(partition-based approximate aggregation)来有效处理满足任意置信区间的近似聚集.维属性的数据空间被划分为同样大小的空间区域,每个分片维护着维属性落入对应空间区域的元组.PAA算法维护表的随机样本RS,其执行包括两个阶段.在阶段1,如果利用预构建的随机样本RS不能返回满足用户要求的近似结果,那么在阶段2,PAA算法从与查询区域相交的空间区域对应的分片集合IPS中获得更多的随机元组.PAA算法的特色在于:1)如何在不知道IPS包含的每个分片满足谓词的元组数量情况下,从IPS中获得需要的随机元组;2)如何有效减少阶段2中的随机I/O费用.实验表明,相对于现有方法,PAA算法可以获得两个数量级的加速比.  相似文献   

9.
传统的数据挖掘算法在挖掘频繁项集时会产生大量的冗余项集,影响挖掘效率。为此,提出一种基于矩阵的数据流Top-k频繁项集挖掘算法。引入2个0-1矩阵,即事务矩阵和二项集矩阵。采用事务矩阵表示滑动窗口模型中的事务列表,通过计算每行的支持度得到二项集矩阵。利用二项集矩阵得到候选项集,将事务矩阵中对应的行做逻辑与运算,计算出候选项集的支持度,从而得到Top-k频繁项集。把挖掘的结果存入数据字典中,当用户查询时,能够按支持度降序输出Top-k频繁项集。实验结果表明,该算法在挖掘过程中能避免冗余项集的产生,在保证正确率的前提下具有较高的时间效率。  相似文献   

10.
应用需求的发展衍生各种查询类型,Top-k查询是交互环境下一种重要查询类型.由于数据的不确定性,传统数据上的Top-k查询技术和方法不能直接应用于不确定数据查询.在已有不确定数据上Top-k查询算法的基础上,提出基于二叉树的不确定数据上Top-k查询算法BTreeU-Topk;为了提高算法执行效率,对二叉树进行修剪操作进而提出BTreeOPTU-Topk和BTreePU-Topk算法.实验结果表明,BTreeU-Topk,BTreeOPTU-Topk以及BTreePU-Topk算法在不同数据分布以及k值增长时均优于现有算法.  相似文献   

11.
We present an approach, named MAP21, which uses standard B+ -trees to provide efficient indexing of valid time ranges. The MAP21 approach is based on mapping one dimensional ranges to one dimensional points where the lexicographical order among the ranges is preserved. The proposed approach may employ more than one tree, each indexing a disjoint subset of the indexed data. When compared to the Time Index and the B+-tree we show that MAP21's performance is comparable to or better than those, depending on the type of query. In terms of storage, MAP21's structure was less than 10 percent larger than the B+-tree's and much smaller than the Time Index's. The main contribution of this paper though, is to show that standard B +-trees, available in virtually any DBMS, can be used to provide an efficient temporal index  相似文献   

12.
Top-k查询在传统的存储确定性数据的关系型数据库中得到了广泛的应用,但是对于存储不确定性数据的数据库,Top-k查询必须结合元组的分值和不确定性来处理.已有的Top-k查询没有很好地结合元组的分值和不确定性,因此,定义一种新的针对不确定性数据的Top-k查询语义,并且实现了查询算法,在新语义下,计算第i位排名时考虑了第i-1位元组,能够更好地权衡分值和不确定性.不同数据集上的实验显示,该算法是有效的.  相似文献   

13.
Performance of B+-trees with partial expansions   总被引:1,自引:0,他引:1  
The authors mathematically analyze the behavior of B+-trees with partial expansions file structure under random insertions, focusing on the expected storage utilization and the expected cost of insertions. The model can be used for studying both the asymptotic and dynamic behavior. The accuracy of the model is confirmed by simulation. Disk space management is found to be more difficult than for standard B+-trees. Two simple space-management schemes specifically designed for handling buckets of two different sizes are investigated. It is found that an overall storage utilization of 81% can be achieved in practice  相似文献   

14.
黄玉龙  邹循进  刘奎  苏本跃 《计算机应用》2014,34(11):3112-3116
现有Top-k查询优化算法无法充分利用图形处理器(GPU)强大的并行吞吐量及时获取查询结果,为此提出了一种基于统一计算设备架构(CUDA)模型的大规模分段查询算法。通过划分查询过程以及采用分段并行处理策略,该算法可最大限度地提升查询过程中的计算和比较效率。实验结果表明,与4线程多核优化算法相比,所提算法具有明显的性能优势,当有序列表数量为6,遍历步长为120时,性能达到最优,此时比多核算法快40倍。  相似文献   

15.
针对现有的复杂事件匹配处理方法存在的匹配代价高的问题,提出了一种利用事件缓冲区(有序事件列表)进行递归遍历的复杂事件匹配算法ReCEP。不同于现有方法利用自动机在事件流上进行匹配,该算法将复杂事件查询模式中的约束条件分解为不同类型,再在有序列表上对不同约束分别进行递归校验。首先,根据查询模式将相关事件实例按照事件类型进行缓存;其次,在有序列表上对事件实例执行查询过滤操作,并给出了一种基于递归遍历的算法来确定初始事件实例并且获取候选序列;最后,对候选序列的属性约束进行进一步的校验。基于股票交易模拟数据进行的实验测试和分析的结果表明,与当前主流的匹配方法 SASE和Siddhi相比,ReCEP算法能够有效地减少查询匹配的处理时间,总体性能上均更优,查询匹配效率提升了8.64%以上。可见,所提出的复杂事件匹配方法能够有效提高复杂事件匹配的效率。  相似文献   

16.
On robustness of B-trees   总被引:1,自引:0,他引:1  
A method is presented to detect index corruption and pointer corruption in B+-trees. The method uses the semantic information of indices and requires no extra pointers to be added to the data structure. Previous research on the robustness on B-trees has considered index corruption and pointer corruption separately and required extra pointers to be added to the data structure to achieve detectability, and correctability. The proposed method can detect and identify a single semantic or structural error  相似文献   

17.
随着传感器网络、大规模实时监控等相关技术的发展和应用,出现了大量的流式数据,如何对这些数据进行查询分析是目前研究的热点.Top-k查询作为一种基础聚集查询,在很多领域起着重要作用.主要研究对于具有不同时间窗口的多个Top-k查询,如何提高资源共享的性能.提出了一种资源共享策略RS-Tpk,充分利用了Top-k查询本身的特点,通过在不同切片间进行数据传递,提高切片间资源共享的范围,降低了计算时间.详细的实验和理论分析证明了该方法的有效性.  相似文献   

18.
为了增强关系数据库中的关键字搜索查询结果,考虑了多表之间以及元组之间的语义关系,提出了一种语义评分函数.该语义评分函数不仅涵盖了当前的评分思想,并且加入新指标来衡量查询结果与查询关键字之间的相关性.基于该评分函数,提出两种以数据块为处理单位的Top-K搜索算法,分别为BA(blocking algorithm)算法和EBA(early-stopping blocking algorithm)算法.EBA在BA基础上引入了过滤域值,以便尽早终止算法的迭代次数.最后实验结果显示语义评分函数保证了搜索结果的高查准率和查全率,所提出的BA算法和EBA算法改善了现有方法的查询性能.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号