共查询到20条相似文献,搜索用时 359 毫秒
1.
现有的增量式挖掘算法在支持度发生变化时,需要对序列数据库进行重复挖掘,为减少由此产生的时空消耗,提出一种高效的增量式序列模式挖掘算法。算法采用频繁序列树作为序列存储结构,当序列数据库和最小支持度发生变化时,通过执行更新操作,实现频繁序列树的更新,利用深度优先遍历频繁序列树找到序列数据库中所有的序列模式。实验结果表明,与IncSpan算法和PrefixSpan算法相比,该算法的挖掘效率较高。 相似文献
2.
3.
一种基于频繁序列树的增量式序列模式挖掘算法 总被引:1,自引:0,他引:1
针对目前现有的增量式序列模式挖掘算法没有充分利用先前的挖掘结果,当数据库更新时,需要对数据库进行重复挖掘的问题。本文提出一种基于频繁序列树的增量式序列模式挖掘算法(ISFST),ISFST采用频繁序列树作为序列存储结构,当数据库发生变化时,ISFST算法分两种情况对频繁序列树进行更新操作,通过遍历频繁序列树得到满足最小支持度的所有序列模式。实验结果表明,ISFST算法在时间性能上优于PrefixSpan算法和IncSpan算法。 相似文献
4.
为了提高序列模式挖掘的FLWAP-mine算法挖掘海量数据的效率和性能,基于减少数据库访问次数原则和序列模式的Apriori性质对FLWAP-mine算法进行改进,构造FLWAP-tree过程中只扫描一次访问序列数据库,对树进行剪枝删除非频繁事件。模式挖掘过程中采取投影数据库思想,只搜索当前模式的投影树,对构造的投影树判断剪枝,去除非频繁事件,进一步缩小搜索范围。实验表明,当数据量较大或支持度阈值较小时,改进的FLWAP-mine算法比FLWAP-mine算法有更好的性能。 相似文献
5.
6.
在序列数据库更新时,现有的增量式序列模式挖掘算法只提到序列的插入操作和序列的扩展操作两种情况,没有针对序列删除操作。提出了一种基于序列树的增量式序列模式更新算法(ISPST)。当数据库更新时,ISPST算法只需要对与删除序列有关的序列构造投影数据库,实现对序列树的更新操作,通过深度优先遍历序列树得到更新后数据库中的所有序列模式。实验结果表明,当支持度发生变化时,ISPST算法在时间性能上优于PrefixSpan算法和IncSpan算法。 相似文献
7.
8.
PretixSpan算法解决了类Apriori算法的不足,但产生的投影数据库花费了较多的存储空间及扫描时间.本文基于PretixSpan算法提出PSD算法,舍弃了对非频繁项的存储及对投影序列数小于最小支持数的投影数据库的扫描,减少了不必要的存储空间,提高了查询速度.实验证明,PSD算法比PretixSpan算法具有更好的时空性能. 相似文献
9.
10.
在许多科学和商业领域,序列模式的发现技术发挥着越来越重要的作用,然而人们对于高效的基于投影树算法的并行模式关注较少。该文首先介绍了频繁序列挖掘模式的基本概念,然后基于投影树算法,提出了分布式存储并行序列挖掘算法,并对算法的性能进行了详细的分析。 相似文献
11.
使用序列模式精简基挖掘序列模式 总被引:3,自引:1,他引:3
传统的序列模式挖掘方法在挖掘由短的频繁序列模式组成的数据库时有良好的性能.但在挖掘长的序列模式或支持度阈值很低时,这些方法可能遇到固有的困难,因为产生的频繁序列模式的数量经常太大.在许多情况下,用户可能只需要那些覆盖许多短模式的长模式.此外,在很多应用中,只要得到产生的频繁序列模式的近似支持度就已足够,而不需要它们的精确支持度.介绍了能将误差控制在确定范围内的频繁序列模式精简基的概念,并开发了一个挖掘这种序列模式精简基的算法.实验结果显示计算频繁序列模式精简基是很有前途的. 相似文献
12.
《计算机应用与软件》2017,(6)
类Apriori算法在产生频繁模式时需要多次扫描数据库,并且产生大量的候选集;Free Span和Prefix Span等基于投影数据库的算法在产生频繁模式时会产生大量的投影数据库,占用很多内存空间,这些都造成了很大的冗余。针对以往序列挖掘算法存在的不足,提出一种高效的序列挖掘算法——基于位置信息的序列挖掘算法PBSMA(Position-Based Sequence Mining Algorithm)。PBSMA算法通过记录频繁子序列的位置信息来减少对数据库的扫描,利用位置信息逐渐扩大频繁模式的长度,并且借鉴关联矩阵的思想和Prefix Span算法中前缀的概念,深度优先去寻找更长的关键模式。实验结果证明,无论在时间还是空间上,PBSMA算法都比Prefix Span算法更高效。 相似文献
13.
14.
提出了一种新的多维序列模式挖掘算法,首先在序列信息中挖掘序列模式,然后针对每个序列模式,在包含此模式的所有元组中的多维信息中挖掘频繁1-项集,由得到的频繁1-项集开始,循环的由频繁(k-1)-项集(k>1)连接生成频繁k项集,从而得到所有的多维模式。该算法通过扫描不断缩小的频繁(k-1)-项集来生成频繁k项集,减少了扫描投影数据库的次数,因而减少了时间开销,实验表明该算法有较高的挖掘效率。 相似文献
15.
16.
提出了同时适用于一维和多维序列数据的统一存储结构——编码频繁模式树(CFP-tree),并通过渐进的前缀序列搜索方式来发现频繁序列模式,避免了在挖掘过程中递归地产生大量的中间子序列。实验证明,该算法在大规模数据的处理上比现有序列模式挖掘算法有更好的性能。 相似文献
17.
18.
针对带时间约束的序列模式,提出了一种改进的挖掘算法TSPM,克服了传统的序列模式挖掘方法时空开销大,结果数量巨大且缺少针对性的缺陷.算法引入图结构表示频繁2序列,仅需扫描一次数据库,即可将与挖掘任务相关的信息映射到图中,图结构的表示使得挖掘过程可以充分利用项目之间的次序关系,提高了频繁序列的生成效率.另外算法利用序列的位置信息计算支持度,降低了处理时间约束的复杂性,避免了反复测试序列包含的过程.实验证明,该算法较传统的序列模式发现算法在时间和空间性能上具有优越性。 相似文献
19.
无重复投影数据库扫描的序列模式挖掘算法 总被引:5,自引:0,他引:5
序列模式挖掘在Web点击流分析、自然灾害预测、DNA和蛋白质序列模式发现等领域有着广泛应用.基于频繁模式增长的PrefixSpan是目前性能最好的序列模式挖掘算法之一.然而在密数据集和长序列模式挖掘过程中会出现大量的重复投影数据库,使得这类算法性能下降.算法SPMDS通过对投影数据库的伪投影做单项杂凑函数,如MD5等,检查是否存在重复的投影数据库,避免大量重复数据库的扫描,并采用一些必要条件简化投影数据库的搜索,进而提高算法的性能.实验和分析都表明SPMDS性能优于PrefixSpan. 相似文献
20.
间隙约束的序列模式挖掘是一种特殊形式的序列模式挖掘方法,该方法能够揭示一定间隔下的频繁出现(发生)的子序列。但当前间隙约束的序列模式挖掘方法只关注正序列模式的挖掘,忽略了事件中的缺失行为。为解决该问题,探索了周期间隙约束的负序列模式(Negative Sequential Pattern with Periodic Gap Constraints, NSPG)挖掘方法,该方法能够更灵活地反映元素与元素之间的关系。为高效求解NSPG挖掘问题,提出了NSPG-INtree(Incomplete Nettrees)算法,该算法主要包括两个步骤:候选模式生成和支持度计算。在候选模式生成方面,为了减少候选模式的数量,该算法采用模式连接策略;在支持度计算方面,为了提高模式支持度计算效率并减少空间消耗,该算法采用不完整网树结构计算模式支持度。实验结果表明,NSPG-INtree算法不仅具有较高的挖掘效率,而且能同时挖掘间隙约束的正序列模式和负序列模式。与其他间隙约束的序列模式挖掘算法相比,NSPG-INtree能够多发现209%~352%的模式;与不同策略的对比算法相比,NSPG-INtree能够缩... 相似文献