共查询到20条相似文献,搜索用时 203 毫秒
1.
一种基于频繁序列树的增量式序列模式挖掘算法 总被引:1,自引:0,他引:1
针对目前现有的增量式序列模式挖掘算法没有充分利用先前的挖掘结果,当数据库更新时,需要对数据库进行重复挖掘的问题。本文提出一种基于频繁序列树的增量式序列模式挖掘算法(ISFST),ISFST采用频繁序列树作为序列存储结构,当数据库发生变化时,ISFST算法分两种情况对频繁序列树进行更新操作,通过遍历频繁序列树得到满足最小支持度的所有序列模式。实验结果表明,ISFST算法在时间性能上优于PrefixSpan算法和IncSpan算法。 相似文献
2.
《计算机应用与软件》2017,(6)
类Apriori算法在产生频繁模式时需要多次扫描数据库,并且产生大量的候选集;Free Span和Prefix Span等基于投影数据库的算法在产生频繁模式时会产生大量的投影数据库,占用很多内存空间,这些都造成了很大的冗余。针对以往序列挖掘算法存在的不足,提出一种高效的序列挖掘算法——基于位置信息的序列挖掘算法PBSMA(Position-Based Sequence Mining Algorithm)。PBSMA算法通过记录频繁子序列的位置信息来减少对数据库的扫描,利用位置信息逐渐扩大频繁模式的长度,并且借鉴关联矩阵的思想和Prefix Span算法中前缀的概念,深度优先去寻找更长的关键模式。实验结果证明,无论在时间还是空间上,PBSMA算法都比Prefix Span算法更高效。 相似文献
3.
4.
基于CTID序列模式的一种改进算法 总被引:2,自引:0,他引:2
提高序列模式挖掘算法效率的关键在于减少发现频繁序列的时间。文中基于CTID概念提出了一种改进的频繁序列模式挖掘算法——SPM,它充分利用频繁项集和中间挖掘结果,得到更多有效的序列模式,并简化了剪枝步骤,从而提高了算法效率。实验证明该算法可行。 相似文献
5.
《计算机应用与软件》2018,(1)
针对现有用户行为序列模式挖掘方法的单一支持度局限性问题,提出一种基于前缀树结构的多支持度序列模式挖掘方法。设计一种多支持度条件下的前缀树结构MSLP-tree,并基于此结构提出一种序列模式增长算法MSLP-growth。通过考虑各数据项不同最小支持度,获取更精确的频繁序列模式,在确保挖掘结果的准确性和完整性的前提下,大大压缩搜索空间,缩短挖掘时间。实验结果表明,相较于MS-GSP算法,MSLP-growth算法具有更高的挖掘效率和可扩展性。 相似文献
6.
提出一种基于最大频繁模式、模式相似与属性描述相结合的多维序列模式挖掘算法MSP,该算法包括3个步骤:挖掘数据集中的最大频繁模式,每个频繁模式成为一个模式类;比较数据中各序列项序列与各模式类的包含与相似关系;按照一定的规则抽取与各模式类相关的属性,给出以属性为前件、模式类为后件的多维序列规则为形式的多维序列模式挖掘结果.... 相似文献
7.
提高序列模式挖掘算法效率的关键在于减少发现频繁序列的时间.文中基于CTID概念提出了一种改进的频繁序列模式挖掘算法--SPM,它充分利用频繁项集和中间挖掘结果,得到更多有效的序列模式,并简化了剪枝步骤,从而提高了算法效率.实验证明该算法可行. 相似文献
8.
9.
10.
刘佳新 《计算机技术与发展》2012,(5)
为了减少在序列模式挖掘过程中由于重复运行挖掘算法而产生的时空消耗,提出了一种基于频繁序列树的交互式序列模式挖掘算法(ISPM). ISPM算法采用频繁序列树作为序列存储结构,频繁序列树中存储数据库中满足频繁序列树支持度阈值的所有序列模式及其支持度信息.当支持度发生变化时,通过减少本次挖掘所要构造投影数据库的频繁项的数量来缩减投影数据库的规模,从而减少时空消耗.实验结果表明,ISPM算法在时间性能上优于PrefixSpan算法和Inc-Span算法 相似文献
11.
高效用序列模式挖掘是数据挖掘领域的一项重要内容, 在生物信息学、消费行为分析等方面具有重要的应用.与传统基于频繁项模式挖掘方法不同, 高效用序列模式挖掘不仅考虑项集的内外效用, 更突出项集的时间序列含义, 计算复杂度较高.尽管已经有一定数量的算法被提出应用于解决该类问题, 挖掘算法的时空效率依然成为该领域的主要研究热点问题.鉴于此, 本文提出一个基于模式增长的高效用序列模式挖掘算法HUSP-FP.依据高效用序列项集必须满足事务效用闭包属性要求, 算法首先在去除无用项后建立全局树, 进而采用模式增长方法从全局树上获取全部高效用序列模式, 避免产生候选项集. 在实验环节与目前效率较好的HUSP-Miner、USPAN、HUS-Span三类算法进行了时空计算对比, 实验结果表明本文给出算法在较小阈值下仍能有效挖掘到相关序列模式, 并且在计算时间和空间使用效率两方面取得了较大的提高. 相似文献
12.
序列模式挖掘是数据挖掘领域的一个经典研究问题,目前的研究主要关注于频繁序列模式的挖掘。但是不频繁的序列模式,即“稀有序列模式(rare sequential pattern,RSP)”也可能蕴含着一些不寻常的规律,具有更高的挖掘价值。因此,给出了稀有序列模式挖掘的定义,并且提出了两种逐层挖掘稀有序列模式完全集的方法。为克服挖掘稀有序列模式全集时产生的组合爆炸问题,提出了一种高效的基于二分查找的算法来挖掘“最小稀有序列模式(minimal rare sequential pattern,MRSP)”全集,它包含了稀有序列模式全集的完整信息。通过实验验证了提出的算法可以有效地挖掘稀有序列模式。 相似文献
13.
针对序列模式增量式更新挖掘算法产生大量候选项集以及多次扫描数据库的问题,提出了一种有效的增量式更新算法ESPIA,该算法利用基于2-序列矩阵挖掘算法ESPE对原数据库和增加数据库一次扫描产生序列模式,通过对频繁模式和非频繁模式进行相应的剪枝减少了序列的比较和扫描次数,降低了算法时间和空间复杂度,实验证明该算法是有效和准确的。 相似文献
14.
为了研究患者在不同医院间的转诊行为模式, 可以使用序列模式挖掘算法. 类Apriori算法是序列模式挖掘中的常用算法, 但该算法存在一些不足之处, 如产生候选序列的数目较多、需要频繁扫描数据库. 针对类Apriori算法存在的不足, 本文提出了相应的改进措施, 采用新的剪枝策略并减少不必要的数据库扫描操作. 实验证明, 改进后的算法能更高效地挖掘频繁转诊序列. 相似文献
15.
CuMen:基于最大频繁序列模式的聚类算法及其在基因拼接中的应用 总被引:1,自引:0,他引:1
基因组序列拼接的主流方法是将整条序列随机打断成小片段,然后根据片段间重叠关系连接成长序列.由于较多噪音存在,算法复杂度高,加之生物数据的海量增长,序列拼接处理导致巨大的时空开销而无法完成.本文提出一种基于最大频繁序列模式的聚类算法,将整个数据集分成若干个子集,分别高效地处理,实现了一个基因拼接网格系统、透明动态的资源管理,大大扩展了基因拼接计算能力.基于最大频繁序列模式聚类算法及挖掘算法,针对生物数据的特性做出了优化. 相似文献
16.
基于时间序列的模式表示挖掘频繁子模式 总被引:1,自引:0,他引:1
论文提出了一种基于时间序列的模式表示挖掘时间序列中频繁子模式的算法(TSFSM)。时间序列的模式表示本身就具有压缩数据、保持时间序列基本形态的功能,并且具有一定的除噪能力。在时间序列的模式表示的基础上挖掘其频繁子模式,可以大大提高挖掘的效率和准确性,达到事半功倍的效果。在该算法中,还使用了一定的剪枝策略,使得算法的时间复杂度进一步降低。并且该算法计算简单,实现方便,可以支持时间序列的动态增长。 相似文献
17.
基于互关联后继树的时序模式挖掘 总被引:1,自引:0,他引:1
时间序列是现实生活中常见的数据形式之一.在时间序列中发现频繁模式是分析时间序列变化规律的一项重要任务本文提出一种基于互关联后继树模型的时间序列频繁模式发现方法.该方法依据序列重要点进行分段,引人相对斜率值并结合领域知识将序列符号化,在此基础上提出一种互关联后继树的新型挖掘算法,实现了时序频繁模式的发现理论与实验表明,该方法简单、直观、高效,具有实用价值. 相似文献
18.
最大频繁事件序列挖掘是数据挖掘中重要的研究课题之一。该文提出了一种新的挖掘用户行为模式的算法。该算法采用位图索引表的数据格式,使用一种有效的基于前缀树的频繁事件序列扩展方法,结合有效的剪枝技术,明显地加速了最大频繁事件序列的生成。 相似文献
19.