共查询到19条相似文献,搜索用时 46 毫秒
1.
对分布式流数据中频繁项的发现算法进行了研究,利用一种新颖的分布式概要算法(DSA)来发现从叶子节点直至根节点的概要结构,通过在不同的分布状态下设置相应的精确梯度来最小化通信负载,并利用真实数据集验证了该结构和算法的有效性。 相似文献
2.
序列模式挖掘就是在时序数据库中挖掘相对时间或其他模式出现频率高的模式.序列模式发现是最重要的数据挖掘任务之一,并有着广阔的应用前景.针对静态数据库,序列模式挖掘已经被深入的研究.近年来,出现了一种新的数据形式:数据流.针对基于数据流的序列模式挖掘的研究还不是十分深入.提出一个有效的基于数据流的挖掘频繁序列模式的算法SSPM,利用到2个数据结构(F-list和Tatree)来处理基于数据流的序列模式挖掘的复杂性问题.SSPM的优点是可以最大限度地降低负正例的产生,实验表明SSPM具有较高的准确率. 相似文献
3.
针对Lossy Counting算法,即一个基于计数的确定性方案,提出一种新的基于权重的流数据频繁项挖掘算法(Lossy Weight),扩展了流数据频繁项的作用域.Lossy Weight算法不仅可用于传统的基于计数的频繁项挖掘,还可以挖掘出在整个流数据中所占权重比重大于门槛值的数据.实验数据分析证明该方案是有效的. 相似文献
4.
提出了一种流数据上的频繁项挖掘算法(SW-COUNT)。该算法通过数据采样技术挖掘滑动窗口下的数据流频繁项。给定的误差ε,SW-COUNT可以在O(ε-1)空间复杂度下,检测误差在εn内的数据流频繁项,对每个数据项的平均处理时间为O(1)。大量的实验证明,该算法比其他类似算法具有较好的精度质量以及时间和空间效率。 相似文献
5.
挖掘数据流的频繁项已受到广泛关注,研究者们提出了一些高效的数据流上挖掘频繁项的算法,尽管这些算法能够比较好地找到频繁项,但对频繁项支持度的估计往往存在较大误差.而新的算法REC(rotative efficient count) 除了能够保证频率超过一定阈值的数据项都能被找到,并且能够尽可能准确地返回其频率.分析和实验表明,相比当前最好的两种算法,REC算法空间在同样空间代价下,对数据项频率的估计更为准确,尤其在数据分布比较平缓时表现得尤为明显. 相似文献
6.
7.
8.
9.
现有大部分微阵列数据中频繁闭合项集的挖掘需要事先给定最小支持度,但在实际应用中该最小支持度很难确定。针对该问题,提出top-k频繁闭合项集挖掘算法,基于自顶向下宽度优先搜索策略挖掘项集长度不小于min_l的top-k频繁闭合项集,并对搜索空间进行有效修剪,从而提高搜索速度。实验结果表明,该算法的时间性能在多数情况下优于CARPENTER算法。 相似文献
10.
11.
数据流的无限性、连续性和速度快等特点;使得挖掘出所有准确的数据流频繁项通常是不可能的.算法的空间复杂度和时间复杂度通常是评价频繁项挖掘算法优劣的两个主要度量.通过引入局部性原理改进数据流近似频繁项的挖掘算法;该算法的空间复杂性为O(1/ε);数据流每个数据项的最坏处理时间是O(1/ε);其最好处理时间是O(1);输出结果的频率值误差为∑_(i=2)^j(1-μi)×ki。 相似文献
12.
一种数据流中的频繁模式挖掘算法 总被引:1,自引:0,他引:1
时序数据流的无限性、流动性和不规则性使得传统的频繁模式挖掘算法难以适用。针对时序数据流的特点,提出了一类特殊非规则数据流频繁模式挖掘的新算法。新算法采用时序数据分段的思想,逐段挖掘局部频繁模式,然后依据局部频繁模式有效地挖掘出所有的全局频繁模式。将新算法应用于电信领域的收入保障项目之中,结果表明,新算法具有良好的性能,能有效发现挖掘时序数据流中的频繁模式。 相似文献
13.
滑动窗口是一种对最近一段时间内的数据进行挖掘的有效的技术,本文提出一种基于滑动窗口的流数据频繁项挖掘算法.算法采用了链表队列策略大大简化了算法,提高了挖掘的效率.对于给定的阈值S、误差ε和窗口长度n,算法可以检测在窗口内频度超过Sn的数据流频繁项,且使误差在εn以内.算法的空间复杂度为O(ε-1),对每个数据项的处理和查询时间均为O(1).在此基础上,我们还将该算法进行了扩展,可以通过参数的变化得到不同的流数据频繁项挖掘算法,使得算法的时间和空间复杂度之间得到调节.通过大量的实验证明,本文算法比其它类似算法具有更好的精度以及时间和空间效率. 相似文献
14.
降载可以有效地解决数据流流速的突变所引发的系统的过载问题。为此,分析现有降载策略在实时性方面的不足,不仅考虑系统的处理能力,同时结合数据的处理延迟,提出基于延迟时间的降载策略(DSP)。实验结果表明,DSP可以有效地解决系统的过载,同时具有较高的实时性。 相似文献
15.
近年来,数据流挖掘越来越引起研究人员的关注,已逐渐成为许多领域有用的工具。如何利用有限的存储空间高效地挖掘出频繁模式已成为数据流挖掘的基本问题,具有很强的现实意义和理论价值。在论述数据流管理系统模型的基础上,深入分析了国内外的各种频繁模式挖掘算法,并指出这些算法的特点及其局限性。最后对未来的研究方向进行了展望。 相似文献
16.
数据流中基于计数的频繁模式挖掘 总被引:1,自引:0,他引:1
频繁项集是挖掘流数据挖掘的基本任务。许多近似算法能够有效进行频繁项挖掘,但不能有效控制内存资源消耗。文章提出并实现了0—δ算法,能够有效控制内存消耗问题。在充分的理论分析基础上,还用翔实的实验证明了新方法的有效性。 相似文献
17.
流数据连续查询及优化研究已成为当前国际数据库研究领域的一个热点。数据流的到达速率经常是不可预测的且具有很高的突发性,数据流速这种不规则的变化会引起系统负载急剧的波动。当输入速率超过系统处理能力时,系统会发生过载并且导致系统性能的恶化,降载技术是解决此问题最有效的途径之一。对降载技术中系统负载估计、降载器的最佳的放置位置、降载量的大小、降载器合并等关键问题进行了讨论。 相似文献
18.
19.
近年来,数据流挖掘越来越引起研究人员的关注,已逐渐成为许多领域有用的工具。如何利用有限的存储空间高效地挖掘出频繁模式已成为数据流挖掘的基本问题,具有很强的现实意义和理论价值。在论述数据流管理系统模型的基础上,深入分析了国内外的各种频繁模式挖掘算法,并指出这些算法的特点及其局限性。最后对未来的研究方向进行了展望。 相似文献