共查询到16条相似文献,搜索用时 55 毫秒
1.
事务数据库中频繁模式的挖掘研究作为关联规则等许多数据挖掘问题的核心工作,已经研究了许多年。然而,频繁模式挖掘算法经常产生大量的模式和规则,不但降低了算法的执行效率,同时也使用户从频繁模式产生有用的规则变得很困难。针对这个问题,最近的研究主要集中于两点,一种方法是允许用户附加约束来引导挖掘的过程,通过把约束条件下推到挖掘的底层来缩小模式搜索的空问,提高性能;另一种方法是仅挖掘闭合模式,只产生大于其超集支持度的频繁模式。两种方式都可以大量缩小结果集合的大小,使结果集合更容易被用户理解和使用。那么,把这两种方式相结合,挖掘满足用户约束的闭合频繁模式,理论上来说应该更为高效,更方便理解和使用。基于以上的考虑,做了一些细致的研究,把用户约束分类,并主要讨论了结合项约束的闭合模式生成问题。 相似文献
2.
3.
挖掘最大频繁模式的新方法 总被引:11,自引:0,他引:11
由于其内在的计算复杂性,挖掘密集型数据集的频繁模式完全集非常困难,解决方案之一是挖掘最大频繁模式集.该文在频繁模式完全集挖掘算法Opportune Project基础上,提出了挖掘最大频繁模式的新算法MOP.它采用宽度与深度优先相结合的混合搜索策略,能恰当地选择不同的支持集表示和投影方法,将闭合性剪裁和一般性剪裁相结合,并适时前窥,实现搜索与剪裁效率最优化.实验表明,MOP效率是MaxMiner的2~8倍,比MAFIA高2个数量级以上. 相似文献
4.
5.
频繁模式挖掘是最基本的数据挖掘问题,由于内在复杂性,提高挖掘算法性能一直是个难题.耶是通过数据库混合投影来挖掘频繁模式完全集的全新算法.HP混合投影思想是:任意数据集都不能简单地归入某个单一特性类别,挖掘过程应根据局部数据子集的特性变化动态地调整频繁模式树构造策略、事务子集表示形式、投影方法.HP提出基于树表示的虚拟投影与基于数组表示的非过滤投影,较好地解决了提高时间效率与节省内存空间的矛盾.实验表明,HP时间效率比Apriori,FP—Growth和H-Mine高出1~3个数量级,并且空间可伸缩性也大大优于这些算法. 相似文献
6.
基于滑动窗口的数据流闭合频繁模式的挖掘 总被引:12,自引:1,他引:11
频繁闭合模式集惟一确定频繁模式完全集并且数量小得多,然而,如何挖掘滑动窗口中的频繁闭合模式集是一个很大的挑战.根据数据流的特点,提出了一种发现滑动窗口中频繁闭合模式的新方法DS_CFI. DS_CFI算法将滑动窗口分割为若干个基本窗口,以基本窗口为更新单位,利用已有的频繁闭合模式挖掘算法计算每个基本窗口的潜在频繁闭合项集,将它们及其子集存储到一种新的数据结构DSCFI_tree中,DSCFI_tree能够增量更新,利用DSCFI_tree可以快速地挖掘滑动窗口中的所有频繁闭合模式.最后,通过实验验证了这种方法的有效性. 相似文献
7.
用挖掘频繁闭合模式集代替挖掘频繁模式集是近年来提出的一个重要策略。根据数据流的特点,提出了一种基于滑动窗口的频繁闭合模式的新方法DSFC_Mine。该算法以滑动窗口中的基本窗口为更新单位,利用改进的CHARM算法计算每个基本窗口的潜在频繁闭合项集,将它们存储到一种新的数据结构中,利用该数据结构可以快速地挖掘滑动窗口中的所有频繁闭合项集。实验验证了该算法在时间上和空间上的可行性和有效性。 相似文献
8.
9.
适合于高效更新的关联规则挖掘算法 总被引:6,自引:0,他引:6
周海岩 《小型微型计算机系统》2004,25(4):634-637
实用的关联规则挖掘算法,为了发现事先未知的关联规则,用户需要通过对最小支持度和最小可信度这两个阈值的不断调整来逐步聚焦到那些真正令其感兴趣的关联规则上去,这将是一个动态的交互过程,因此,迫切需要高效的更新算法来满足用户对较快的响应时间的需求,基于这种思想,并深入分析了已有的诸关联规则挖掘与更新算法且指出其共同存在的问题与不足,在此基础上,提出一种当数据库数据不变时,仅扫描数据库一次,即可反复调整最小支持度和最小可信度进行关联规则挖掘与更新的高效、实用的算法,特别在对关联规则进行更新时,该算法对最初和前次挖掘过程中所得到的信息加以充分的利用,从而对关联规则进行更新时算法的执行效率得到进一步的提高,并对算法进行了分析与讨论. 相似文献
10.
基于FP-tree的最大频繁模式挖掘算法 总被引:11,自引:0,他引:11
在FP-tree结构的基础上提出了最大频繁模式挖掘算法FP-Max。算法FP-Max只需要两次数据库扫描,挖掘过程不会产生候选项集。实验表明.算法FP-Max在挖掘密集型数据集方面是高效的。 相似文献
11.
由于微阵列数据集行(样本)少列(基因)多的特征,使得采用传统列枚举方法对其进行频繁闭合模式挖掘较为困难.基于行枚举方法,提出超链接结构HT-struct,并基于该结构提出频繁闭合模式挖掘新算法HTCLOSE.算法采用深度优先搜索策略,结合高效的修剪技术和巧妙的链表组织技术,在时间和空间上均得到了优化.实验表明,HTCLOSE算法通常快于行枚举算法CARPENTER. 相似文献
12.
CBC-DS: 基于频繁闭模式的数据流分类算法 总被引:2,自引:0,他引:2
基于关联规则的分类算法通常根据频繁模式生成类关联规则,但频繁模式挖掘易遭受组合爆炸问题,影响算法效率.并且数据流的出现也对分类算法提出了新的挑战.相对于频繁模式,频繁闭模式的数目较少,挖掘频繁闭模式的算法通常具有较高的效率.为此,提出了一种高效的基于频繁闭模式的数据流分类算法—CBC-DS.主要贡献在于:1)提出了一种基于逆文法顺序FP-Tree的频繁闭项集单遍挖掘过程,用于挖掘类关联规则,该过程采用了一种混合项顺序搜索策略以满足数据流挖掘的单遍性需求,并采用位图技术提高效率;2)提出了“自支持度”概念,用于筛选规则以提高算法分类精度.实验表明,位图技术能够提高算法速度2倍以上,利用自支持度能够提高算法平均精度0.5%左右;最终CBC-DS算法的平均分类精度比经典算法CMAR高1%左右,并且CBC-DS算法的规则挖掘速度远快于CMAR算法. 相似文献
13.
提出了一种基于堆栈的频繁闭项集挖掘算法SBFCI(Stack Based Frequent Closed Itemsets Generation),该算法采用栈技术避免了以往基于FP—tree的算法需对每个后缀模式递归构造FP—tree,并在上挖掘的弊端。从而大幅缩减了生成频繁闭项集的时间与空间开销。 相似文献
14.
挖掘频繁模式是数据挖掘领域一个重要且基础的问题.频繁封闭项集挖掘可以提供完全的无冗余的频繁模式.随着生物信息学的兴起,产生了一类具有较多列数的特殊数据集,这种高维数据集对以前的频繁封闭模式挖掘算法提出了新的挑战.对高维数据的频繁封闭模式挖掘算法进行了综述,按照算法的特性对这些算法进行了分类,比较了基于行计数的两类挖掘算... 相似文献
15.
基于改进FP-树的最大模式挖掘算法 总被引:2,自引:0,他引:2
频繁模式挖掘是数据挖掘领域中的一个非常重要的分支,但是由于其内在的计算复杂性,挖掘密集型数据的频繁模式完全集非常困难而且数量往往大得惊人,难以理解和应用。最大频繁模式(最大模式)压缩隐含了所有的频繁模式,存储所占用的空间远远小于完全集,因而最大模式挖掘具有十分重要的意义。该文改进了传统的FP-树结构并提出了一种有效的基于改进FP-树的最大模式挖掘算法IFP-M ax;通过引入后缀子树的概念,算法在挖掘过程中不用生成最大频繁模式候选集,从而大大提高了算法的时间效率和空间可伸缩性。实验表明,IFP-M ax的挖掘速度比M AFIA和GenM ax大约快一个数量级。 相似文献
16.
频繁闭项集惟一确定频繁项集且规模小得多,但挖掘频繁闭项集仍是很费时的.为提高挖掘效率,提出了一种改进的频繁闭项集挖掘算法DCI-Closed-Index. 该算法用“索引数组”来组织数据,通过为每个项目增加包含索引,找到频繁共同出现的项集.利用二进制位图技术,给出了一个求包含索引的快速算法.然后根据项目在包含索引中出现的频率由高到低进行排序,并利用包含索引作为启发信息,合并同时出现且支持度相等的频繁项,得到初始生成子,从而大大缩小了搜索空间.同时利用索引数组对每一个生成子的前序集和后序集进行约简,得到新的、较小的约简前序集和约简后序集.并证明了约简前序集和后序集与原来的前序集和后序集的功能是一样的.从而减少了候选生成子的集合包含判断的操作.实验结果表明,该算法的性能优于其他主流算法. 相似文献