共查询到19条相似文献,搜索用时 46 毫秒
1.
对于传统的FP-Growth算法而言,当事务数据库D很大时,构造基于内存的FP树可能是不现实的.针对此问题,提出了一种基于样本事务数据库的SFP算法.该方法对事务数据库D进行随机抽样,得到样本数据库S,此时以比指定的支持度min_sup小的支持度(min_sup')在S中挖掘频繁项集L',根据求得的频繁项集L',在剩余的数据库D-S中求得L'中各事务的支持数,这在大多数情况下就可以求得所有的频繁项集,但是有时可能会漏掉一些.这时可以对D进行二次扫描以发现漏掉的频繁项集.该算法大多数情况下只需要对数据库进行一次扫描,最坏情况下也只需要对数据库进行二次扫描.当把效率放在首位时,比如计算密集事务数据库的频繁项集时,SFP算法尤其合适. 相似文献
2.
关联规则挖掘算法介绍 总被引:2,自引:0,他引:2
数据挖掘是一个多学科交叉融合而形成的新兴的学科,它利用各种分析工具在海量数据中发现模型和数据间的关系。而在大规模事务数据库中,挖掘关联规则是数据挖掘领域的一个非常重要的研究课题。文中介绍了关联规则挖掘的研究情况,描述了经典Apfiofi算法的实现,并对该算法进行了分析和评价,指出了其不足和原因。描述了FP树挖掘最大频繁项集的算法,通过实例对该算法进行了性能评估,并得到结论:数据库中潜在的最大频繁模式越多,运行时间越长。 相似文献
3.
关联规则挖掘算法介绍 总被引:6,自引:0,他引:6
数据挖掘是一个多学科交叉融合而形成的新兴的学科,它利用各种分析工具在海量数据中发现模型和数据间的关系。而在大规模事务数据库中,挖掘关联规则是数据挖掘领域的一个非常重要的研究课题。文中介绍了关联规则挖掘的研究情况,描述了经典Apriori算法的实现,并对该算法进行了分析和评价,指出了其不足和原因。描述了FP树挖掘最大频繁项集的算法,通过实例对该算法进行了性能评估,并得到结论:数据库中潜在的最大频繁模式越多,运行时间越长。 相似文献
4.
5.
频繁项集挖掘是关联规则挖掘的核心部分,目前大多数关于关联规则挖掘的研究都集中于如何提高频繁项集挖掘的效率,然而在实际应用中,决策者面对的是最终从频繁项集中生成的规则集,因此优化规则的生成过程及生成规则同样值得重视。本文提出频繁项集的子集树这一模式来生成关联规则,不仅简化规则的生成过程还可缩小决策者面对的规则集,更便于规则的增量更新。 相似文献
6.
基于Apriori 分类事务库关联规则算法 总被引:2,自引:1,他引:2
Apriori 算法是通过定义的事务库来生成频繁项集,确定各数据之间的关联规则。在实际应用中生成事务库时常常会出现同一项目中重复类型的事务库,而同一项目的事务之间的支持度为零。因此,事务库的定义方法是直接影响生成关联规则的生成速度与效率,针对这一问题,本文提出并实现了一种基于Apriori 分类事务库的关联规则算法。该方法改变了传统Apriori 算法中所有事务统一定义的方法,对不同项目的事务进行分类定义,通过这种的实现,不但减少了计算机的大量运算,而且提高了关联规则的生成速度。 相似文献
7.
8.
FP-growth算法用于关联规则挖掘分成两个阶段:构建频繁模式树和进行频繁模式挖掘;对这两个阶段分别进行改进,若项头表中存在同频度的频繁项,在构建FP-tree的过程动态调整其位置,构建压缩的最优化FP-tree,提出了IMFP-tree算法。在进行频繁模式挖掘阶段,提出CFP-mine算法,CFP-mine算法采用一种新方法构建条件模式基,且采用组合方式挖掘频繁项集,有别于传统FP-growth算法的挖掘过程,理论上证明和实验验证本算法的正确性和高效性。 相似文献
9.
高效的关联规则挖掘算法 总被引:2,自引:0,他引:2
针对Apriori算法多次扫描数据库且生成的候选项集数量大的缺陷,提出了一种数据库优化策略,并结合修剪频繁集和连接优化策略,得到一种新的关联规则挖掘算法-NApriori算法.该算法减小了数据库的规模以及候选项集的数目,避免了连接过程中相同项目的重复比较.实验表明此方法比Apriori算法有更好的性能. 相似文献
10.
生成关联规则算法FAS,能够迅速区分某频繁项集的所有关联规则的前件和后件,生成给定频繁项目集的关联规则。基于FAS算法,设计并实现了一个基于最近挖掘结果的数据挖掘系统AR—Miner。该系统主要包括数据预处理、频繁集初始计算、频繁集更新计算、频繁集选择、关联规则生成五部分,不仅实现了关联规则挖掘的可视化和生成结果按“支持度一可信度”形式的可视化,还为基于频繁集的交互式挖掘提供了方便、友好的界面。 相似文献
11.
挖掘频繁项集是许多数据挖掘任务中的关键问题,也是关联规则挖掘算法的核心,提高频繁项集的生成效率一直是近几年数据挖掘领域研究的热点之一.在对关联规则挖 掘中基于Apriori算法的改进算法进行深入分析和研究后,本文根据Apriori算法的不足,提出了一种改进策略,从而得到一种优化的Apriori算法.最后,对频繁项集挖掘算法的发展方向进行了初步的探讨. 相似文献
12.
13.
分布式数据库多层关联规则挖掘算法研究 总被引:1,自引:0,他引:1
对分布式数据库多层关联规则挖掘的理论和方法进行了研究,提出了一种基于频繁模式树FP-tree(Freguent Pattern tree)的快速挖掘算法DMAML_FPT(Distributed Mining Algorithm of Multiple Level based on FP-tree)。与类Apriori算法相比较,该算法最多只需扫描数据库三遍,不需产生和传输大量的候选项集,减少了数据通信量,从而提高了数据挖掘的效率。 实验结果表明算法DMAML_FPT是可行和有效的。 相似文献
14.
基于关系数据库的关联规则的形式化开采 总被引:1,自引:0,他引:1
从研究关联规则概念入手,探讨了项目、项目集合和交易数据库等概念在关系数据库中的具体含义,提出了一种全面的、易于理解和使用的关联规则形式化描述方法,并给出了开采关系型数据库中关联规则的一般过程,这为关系型数据库中关联规则开采系统的设计奠定了基础,对系统设计者有一定的指导意义。 相似文献
15.
传统的关联规则挖掘是单向的,不能确定相互依赖的规则,找到的规则不一定是有意义的,甚至是错误的。鉴于此,本文在分析的基础上,提出双向关联规则挖掘算法。并根据其相关性找出对我们有意义的规则。 相似文献
16.
17.
针对数据库数据同时删减和增加,文章分阶段解决了关联规则的维护更新问题,其中通过改进PFUP算法,解决了频繁新项集的问题。 相似文献
18.
现有的传感器网络数据处理系统只能向用户提供简单的查询操作,如何高效地处理传感器网络的海量数据流,从中获取有用的知识成为新的挑战.提出一种基于传感器网络特性的分布式关联规则挖掘算法,采用树型通信结构,各个传感器通过改进的单一数据流频繁项集挖掘算法找出本地的局部频繁项集,并逐层上传、合并,最后由sink节点将所有子节点的局部频繁项集合并成全局的频繁项集,并产生相应的关联规则.实验证明该算法占用较少的计算时间和内存. 相似文献
19.
基于概念格的关联规则挖掘方法 总被引:3,自引:0,他引:3
对概念格在关联规则挖掘中的应用进行了研究.通过将概念格的外延和内涵分别与事务数据库中的事务和特征相对应,可以从概念格上产生频繁项集,进而挖掘关联规则.提出了一种基于概念格的关联规则挖掘方法,在背景中对象约简的基础上,构造出对象约简后的概念格,从新的概念格中先产生基本规则集,再根据用户给出的支持度阈值从基本规则集中挖掘出对用户有意义的规则,并给出了算法描述.该方法求出的关联规则和利用Apriori算法求出的结果是一致的. 相似文献