首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 31 毫秒
1.
相似性查询是一种非常重要的数据挖掘应用。由于数据流具有无限、高速等特性,传统的查询算法不能直接应用于数据流。提出了一种基于小波滑动窗口的多数据流相似性查询算法。算法首先将滑动窗口划分成若干等宽基本窗口,然后对每个基本窗口内的数据进行小波分解与系数约简,从而形成小波摘要窗口。执行相似性查询时,直接基于小波摘要进行计算,而无需数据重构。由于利用了小波分解的线性处理优点,算法具有较低的时间复杂度。最后,基于实际数据对算法进行了实验,实验结果证明了算法的有效性。  相似文献   

2.
面向轨迹数据流的KNN近似查询   总被引:1,自引:0,他引:1       下载免费PDF全文
提出一种基于滑动窗口的K-最近邻(KNN)近似查询算法。将滑动窗口内数据通过聚类划分成若干大小不一的基本窗口,针对每个基本窗口给定一个采样率,对窗口内数据进行偏倚采样,形成数据流摘要,并基于该摘要,采用计算几何平面扫描算法执行分布式最近邻查询。仿真实验结果表明该算法有效,且具有较好的可扩展性。  相似文献   

3.
基于滑动窗口的数据流压缩技术及连续查询处理方法   总被引:8,自引:0,他引:8  
基于滑动窗口的连续查询处理是数据流研究领域的一个热点问题.已有的研究工作均假设滑动窗口内的数据能够全部保存在主存中,若滑动窗口内的数据量超过了可用主存空间,已有的查询处理方法则无法正常工作.提出两种数据流上的滑动窗口压缩技术,有效地降低了滑动窗口的存储空间需求.同时,给出了基于压缩滑动窗口的连续查询处理算法,理论分析和实验结果表明,这些算法具有很好的性能,能够满足数据流连续查询处理的实时性要求.  相似文献   

4.
移动对象轨迹数据管理是移动计算领域的研究热点。通过采样技术构造数据流摘要是普通采用的方法之一。传统的均匀采样往往容易丢失某些关键变化数据。利用轨迹数据流的局部连续性特征,提出一种基于滑动窗口的偏倚采样算法。算法将滑动窗口通过聚类划分成若干大小不一的基本窗口,并针对每个基本窗口给定一个采样率,对窗口内数据进行偏倚采样,从而形成数据流摘要。算法利用了轨迹数据的内在特征,因此具有较高的采样质量。最后,基于实际数据对算法进行了实验,结果证明了算法的有效性。  相似文献   

5.
提出一种基于倾斜时间窗口的数据流偏向最近聚类算法。该算法首先通过将滑动窗口中数据等长分割形成不重叠的数据块——基本窗口,然后对每一基本窗口以Haar小波变换提取窗口数据的特征,通过改变所取各基本窗口小波变换系数个数达到保留较多最近数据细节特征的目的,即对于越近的基本窗口保留越多的小波系数而越旧的基本窗口保留越少的小波系数,最后通过定义数据流偏向最近距离,完成基于倾斜时间窗口的偏向最近聚类算法。该算法计算速度快,能高效地实现数据流偏向最近聚类分析。仿真实验验证了该算法的有效性。  相似文献   

6.
滑动窗口聚集查询在数据流管理系统中应用广泛,数据流到达高峰期,必须考虑滑动窗口聚集查询中出现的降载问题。分析了子集模型的特点和已有降载策略的不足,给出了数据流滑动窗口聚集查询降载问题的约束条件,提出了能保证子集结果产生的基于丢弃窗口更新策略的降载算法。理论分析和实验结果表明,该算法对数据流滑动窗口聚集查询降载问题的处理具有较高的有效性和实用性。  相似文献   

7.
增量查询技术由于能有效处理大量、快速、源源不断到达的数据流,因此备受关注。滑动窗口是动态数据流环境下的一种典型的窗口类型。该文研究了基于滑动窗口的数据流聚集查询,提出了一种新的增量聚集查询算法,采用了多种增量计算方法和查询共享技术,实现了多窗口资源共享。实验验证了该方法的有效性。  相似文献   

8.
数据流本质上是分布的,很多时候必须考虑通信开销.基于滑动窗口模型,考虑分布式数据流上的精确连续极值查询问题,对降低通信开销的策略进行了研究.分析了滑动窗口和极值查询的特性,提出了一种数据裁剪策略,系统只需保存少量数据即可满足极值查询的需求,并从理论上证明了该裁剪是存储最优的.远程节点在保证全局结果正确性的前提下尽量延迟数据传递,从而尽可能对局部数据流进行裁剪过滤,达到降低通信量的目的.理论分析和实验结果证明了上述方法的有效性.  相似文献   

9.
在数据流聚类算法中,滑动窗口技术可以及时淘汰历史元组、只关注近期元组,从而改善数据流的聚类效果。如果同时数据流流速无规律地随时间动态变化,原来单纯的滑动窗口技术在解决这类问题时存在缺陷,所以,在充分考虑了滑动窗口大小和数据流流速之间关系的前提下,提出了基于动态可调衰减滑动窗口的变速数据流聚类算法。该算法对历史元组和近期元组分别赋予一定的权重进行处理,然后依据数据流流速的不同函数改变窗口的大小,从而实现数据流的聚类。提出了该数据流聚类算法的数据结构——变异数据流聚类的数据结构。通过真实数据和模拟数据来构造动态变速数据流从而作为验证算法的原始数据。实验结果表明,与Clu Stream聚类算法相比,该方法具有较高的聚类质量、较小的内存开销和较少的聚类处理时间。  相似文献   

10.
数据流与存贮表的连接查询经常出现在主动式数据仓库的维护中,与传统的关系数据库的连接计算不同,数据流快速处理的要求不允许将数据流先存入磁盘再计算,而计算机内存无法存储无界增长的数据流,因此数据流查询采用先处理再存储结果的计算方式。数据流与存贮表的连接计算算法重点要解决内存开销和处理速率二个问题。MESHJOIN算法最早提出将存贮表划分为若干个数据块,将数据块交替放入内存与数据流窗口完成连接计算。在MESHJOIN算法思想的基础上将存贮表的内存数据块也划分为若干逻辑分区,每次连接计算仅替换其中的一个逻辑分区,有效地降低了数据流滑动窗口所需的I/O代价,从而提高滑动窗口的计算速率。最后通过实验对二种算法在内存开销和计算速率进行了比较。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号