首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 46 毫秒
1.
基于数据流的滑动窗口机制的研究   总被引:2,自引:1,他引:2  
传统的关系数据库是在持久稳定的数据集合上进行数据查询,而数据流的长度是无界的,不可能将所有的数据存储下来,因此对数据流的查询处理大多采用了持续查询。对数据流进行持续查询时,往往感兴趣的不是所有的数据而是最近到达的部分数据,这样就引入滑动窗口模型。定义滑动窗口语义是数据流管理系统中一个非常基础性的工作,直接关系到数据流的存储和查询的执行效率。针对滑动窗口的模型和语义进行了研究。  相似文献   

2.
在数据流应用中,系统经常需要处理大量的滑动窗口连续查询,采用共享滑动窗口技术可以有效节省存储空间,提高系统整体的查询处理能力。但是共享滑动窗口技术会增大单个查询的响应延迟,降低单个查询的服务质量。针对这个问题,论文提出了加权共享滑动窗口的概念,并提出了三种优化的连接执行算法,优先响应重要的滑动窗口查询,从而提高了系统整体的服务质量。理论分析和实验结果表明论文提出的方法是行之有效的。  相似文献   

3.
滑动窗口是一种对最近一段时间内的数据进行挖掘的有效的技术,本文提出一种基于滑动窗口的流数据频繁项挖掘算法.算法采用了链表队列策略大大简化了算法,提高了挖掘的效率.对于给定的阈值S、误差ε和窗口长度n,算法可以检测在窗口内频度超过Sn的数据流频繁项,且使误差在εn以内.算法的空间复杂度为O(ε-1),对每个数据项的处理和查询时间均为O(1).在此基础上,我们还将该算法进行了扩展,可以通过参数的变化得到不同的流数据频繁项挖掘算法,使得算法的时间和空间复杂度之间得到调节.通过大量的实验证明,本文算法比其它类似算法具有更好的精度以及时间和空间效率.  相似文献   

4.
基于滑动窗口的聚集查询是数据流研究领域的一个热点问题。在已有的研究工作中,聚集算法都是针对立即执行的连续查询提出的,这些算法均是当数据流新到一个元组立即计算一次聚集结果。而在实际应用中,连续查询有时采取的是周期执行方式。论文针对周期执行的连续查询提出了复合滑动窗口聚集算法,即数据流新到一个元组,将它插入到基本窗口中,当基本窗口被插满时计算一次聚集结果。给出了非增量式和增量式两种算法。理论分析和实验结果表明增量式算法具有较好的性能。  相似文献   

5.
基于滑动窗口的进化数据流聚类   总被引:24,自引:0,他引:24  
常建龙  曹锋  周傲英 《软件学报》2007,18(4):905-918
提出了纳伪(false positive)和拒真(false negative)两种聚类特征指数直方图分别来支持纳伪误差和拒真误差窗口的聚类分析;然后,提出一种基于滑动窗口的数据流聚类方法.该方法在占用窗口大小的次线性内存空间前提下,及时保存最近数据记录的分布状况,从而实现对滑动窗口内的数据进行聚类.此外,它还可被扩展用于N-n窗口(滑动窗口的扩展模型)的数据聚类.实验采用KDD-CUP'99和KDD-CUP'98真实数据集以及变换高斯分布的人工数据集构造进化数据流.理论分析和  相似文献   

6.
在数据流上定义了截止期作为连续查询的实时约束,并建立了基于截止期的滑动窗口处理模型;提出了一种基于预测的截止期敏感的滑动窗口处理策略;在多滑动窗口查询处理环境中,提出了一种(k,m )截止期约束机制,在提高查询实时性的前提下,尽可能的满足不同查询对结果丢失率的不同约束。实验结果表明该处理策略能够有效提高数据流上滑动窗口查询的截止期满足率。  相似文献   

7.
挖掘滑动窗口中的数据流频繁模式   总被引:2,自引:0,他引:2  
随着数据流应用的不断增多,数据流环境下的数据挖掘技术受到了越来越多的关注.文章结合数据流的特点,提出一种新的基于滑动窗口的频繁模式挖掘算法:DSFPM.算法分块挖掘数据流,在内存中维持一个用于保存所有潜在的频繁模式信息的存储结构DSFPM-Tree,并在各个基本窗口进入滑动窗口后动态更新该存储结构.算法仅处理和保存各个基本窗口的临界频繁闭合项集,极大地提高了时间和空间效率.实验结果表明,该算法具有良好的性能.  相似文献   

8.
基于滑动窗口的数据流连续J-A查询的处理方法   总被引:3,自引:0,他引:3  
数据流滑动窗口连接聚集连续查询(简记J-A查询)是经常使用的一类查询.这类查询的直观处理方法是创建查询操作树,以流水线的方式计算查询结果.这种方法需要在主存中保存滑动窗口连接的结果,查询处理的主存空间开销为O(α×β),其中(,(为参加连接两个滑动窗口的大小.在数据流的查询处理中,内存是最重要的计算资源.提出了两种滑动窗口J-A连续查询处理算法--IC算法和TC算法,使得查询处理的空间开销降为Ο(α+β).理论分析和实验结果表明,所提出的算法具有更高的效率.  相似文献   

9.
基于滑动窗口的数据流压缩技术及连续查询处理方法   总被引:8,自引:0,他引:8  
基于滑动窗口的连续查询处理是数据流研究领域的一个热点问题.已有的研究工作均假设滑动窗口内的数据能够全部保存在主存中,若滑动窗口内的数据量超过了可用主存空间,已有的查询处理方法则无法正常工作.提出两种数据流上的滑动窗口压缩技术,有效地降低了滑动窗口的存储空间需求.同时,给出了基于压缩滑动窗口的连续查询处理算法,理论分析和实验结果表明,这些算法具有很好的性能,能够满足数据流连续查询处理的实时性要求.  相似文献   

10.
差分隐私技术作为一种有效的隐私保护机制,已被广泛应用在诸多领域。目前已有的静态数据集和动态数据集上的直方图发布方法在处理数据流滑动窗口模型时,往往只能够通过对数据直方图信息添加统一噪声的形式来实现数据保护,这导致了它们在实际应用中存在数据可用性低、时间复杂度高等问题。针对这些问题,文中通过将数据流近似计数技术综合到差分隐私保护算法中,进而提出了一种面向数据流滑动窗口模型的自适应直方图发布方法APS(Adaptive Histogram Publishing Method for Sliding Window)。APS算法首先利用数据流近似计数方法来预测下一时刻滑动窗口内数据的分布信息;然后通过比较估计值与真实值之间的差异来选取合适的发布值;最后对排序后的直方图区间进行聚类处理,并优化其桶内数据的误差。理论分析显示,APS算法能够在减少隐私预算的同时,有效地提高数据的可用性和缩短运行时间。在两种不同的真实数据集上的实验结果也验证了APS算法在数据可用性和运行时间上显著优于现有的基于分组的直方图发布算法。  相似文献   

11.
胡志冬  任永功  杨雪 《计算机科学》2013,40(9):254-256,269
对于移动计算领域的移动对象轨迹数据流的管理,最普遍采用的技术手段是采样技术,而传统的均匀采样易丢失一些关键的变化数据,造成信息丢失现象.针对这一问题,提出一种基于概率密度聚类的数据流偏倚采样算法.该算法在滑动窗口模型下,充分利用了轨迹数据流自身的分布特性,结合偏倚采样算法思想克服了均匀采样的数据丢失问题.算法首先采用基于数据存在密度的聚类技术将滑动窗口划分为强簇、弱簇和过度簇,然后针对不同的簇给予不同的采样率,进行偏倚采样,进而得到最终的数据流摘要.经过实际数据集的实验检测,证明算法较好地保证了采样质量,并具有较快的数据处理能力.  相似文献   

12.
相似性查询是一种非常重要的数据挖掘应用。由于数据流具有无限、高速等特性,传统的查询算法不能直接应用于数据流。提出了一种基于小波滑动窗口的多数据流相似性查询算法。算法首先将滑动窗口划分成若干等宽基本窗口,然后对每个基本窗口内的数据进行小波分解与系数约简,从而形成小波摘要窗口。执行相似性查询时,直接基于小波摘要进行计算,而无需数据重构。由于利用了小波分解的线性处理优点,算法具有较低的时间复杂度。最后,基于实际数据对算法进行了实验,实验结果证明了算法的有效性。  相似文献   

13.
提出了一种基于滑动窗口的数据流动态索引方法——DS-索引,采用滑动窗口保存数据流的最新数据,利用AVL树对数据流的变化区间进行索引,有效地解决了数据流的反向查询问题。  相似文献   

14.
基于滑动窗口的XML数据流聚类算法   总被引:1,自引:0,他引:1  
通过对XML数据流的聚类研究,提出一种基于滑动窗口的XML数据流聚类算法SW-XSCLS。该算法采用滑动窗口技术,以聚类特征指数直方图作为概要数据结构,能动态地淘汰“过时”的数据,较好地保存当前窗口内的数据分布状况,从而获取较高质量的聚类结果。理论分析和实验结果表明,该算法可以获得较高的聚类质量和较快的处理速度。  相似文献   

15.
skyline查询是数据挖掘一个重要的研究方向,在基于数据的决策支持等应用中有着重要的作用.由于现实应用中存在着大量的不完整数据流,但大多数现有的skyline查询算法都依赖于如下的假设:1)任意数据点的所有维度值都是已知的;2)数据集是稳定、有界的并且可以随意访问.此外,随着数据维度的增加,skyline数据点的个数会变得过多,因此引入了k-支配skyline的概念,但是不完整数据的k-支配关系并不具有传递性,现有的skyline查询算法都无法适用.基于这些问题,考虑到数据流高维、无界、顺序性的特点,并且在某些维度上可能具有缺失值的特性,提出了一种新的基于滑动窗口的不完整数据流的k-支配skyline查询算法,实验结果表明,算法不仅可以支持不完整数据流上的k-支配skyline计算,并能够保证效率和性能.  相似文献   

16.
基于滑动窗口的数据流频繁闭项集挖掘   总被引:2,自引:1,他引:1       下载免费PDF全文
李俊  杨天奇 《计算机工程》2009,35(13):37-39
针对数据流的特点,根据Moment算法提出一种基于频繁闭项集挖掘的增量式维护算法。该算法通过滑动窗口增量更新数据流中的事务,采取一种高效的项的位序列表示方法降低窗口滑动的时问和空间复杂度,应用压缩的模式树进行频繁闭项集检查,以确保挖掘结果的准确性。实验证明了该方法的有效性。  相似文献   

17.
数据流中的关联规则在预测和在线分析系统中有重要应用.现有的研究大多集中在事务数据模型上,鲜有对数据项之间的关联规则挖掘.由于数据的实时性特点,用户又往往对新产生的数据所包含的信息更感兴趣.为了实时而准确地挖掘最近一段时间内数据项间的关联规则,提出了MARSW(mining association rules on sliding window)算法,利用滑动窗口模型对数据流进行关联规则挖掘.MARSW算法在给定的误差范围内,能够有效去除历史数据的影响,并以有限的空间代价快速挖掘大量数据间存在的关联规则.大量仿真实验结果表明,MARSW算法具有较高的效率和优良的可扩展性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号