共查询到20条相似文献,搜索用时 109 毫秒
1.
数据库的更新会引起数据库中的关联规则的更新,找出更新后的所有的频繁项目集,也就能生成更新后的关联规则,因此关联规则的更新就转化为频繁项目集的更新。UWEP算法 利用以前的挖掘结果来减少挖掘新的频繁项目集的开销,采用了一些优化技术来减少数据库的扫描次数和候选项目集的数量,但UWEP算法只能处理增加新事务的情况。本文提出 的UWEP2算法是UWEP算法的扩展,能处理数据库中事务的增加、删除、修改等情况。我们将它与另一种更新频繁项目集的算法FUP2比较,实验显示,UWEP2算法比FUP2算法生成的候选项目集要少,性能要高。 相似文献
2.
由候选项集C2生成频繁2-项集L2是关联规则Apriori算法的一个瓶颈。直接哈希修剪(DHP)算法利用一个生成的Hash表H2删减C2中无用的候选项集,以此提高L2的生成效率。但传统DHP算法是一个串行算法,不能有效处理较大规模数据。针对这一问题,提出DHP的并行化算法——H_DHP。首先,对DHP算法并行化策略的可行性进行了理论分析与证明;其次,基于Hadoop平台,把Hash表H2的生成以及频繁项集L1、L3~Lk的生成方法进行了并行实现,并借助Hbase数据库生成关联规则。仿真实验结果表明:与传统DHP算法相比,H_DHP算法在数据的处理时间效率、处理数据集的规模大小,以及加速比和可扩展性等方面都有较好的性能。 相似文献
3.
为了提高经典关联规则Apriori算法的挖掘效率,针对Apriori算法的瓶颈问题,提出了一种链式结构存储频繁项目集并生成最大频繁项目集的关联规则算法.该算法采用比特向量方式存储事务,生成频繁项目集的同时,把包含此频繁项目的事务作为链表连接到频繁项目之后,生成最大频繁项目集.该算法能够减小扫描事物数据库的次数和生成候选项目集的数量,从而减少了生成最大频繁项目集的时间,实验结果表明,该算法提高了运算效率. 相似文献
4.
基于二分搜索的最大频繁项目集求解算法改进 总被引:1,自引:0,他引:1
针对Apriori算法的两个性能瓶颈以及New_Apriori算法中不可忽略的问题,提出新的算法TBapriori。该算法通过二分搜索方法改变由低维到高维或者从高维到低维的搜索策略,直接从1-频繁项目集查找最大频繁项目集,减少了扫描数据库的次数及生成候选集的数量,从而减少发现最大频繁项目集的时间,实验结果表明该算法提高了运算效率。 相似文献
5.
基于项目序列集操作的关联规则挖掘算法 总被引:29,自引:0,他引:29
最大频繁项目序列集的生成是影响关联规则挖掘的关键问题,传统的算法是通过对事务数据库的多次扫描实现的,最新的研究已经开始通过减少事务数据库的扫描次数进而减少挖掘过程的I/O代价来获得更高的效率,随着计算机性能的提高,探索合适的数据结构来支持基于一次事务数据库扫描的高效算法成为可能,该文首先给出项目序列集和它的基本操作的严格定义,然后在此基础上提出了一个称为ISS-DM的最大频繁项目序列集生成算法。ISS-DM算法是通过对事务数据库的一次扫描而逐步演化成最大频繁项目序列集的,最后作者对这一算法的时间和空间效率进行了理论分析和实验验证。 相似文献
6.
7.
基于关联图的关联规则挖掘算法研究 总被引:15,自引:0,他引:15
在挖掘关联规则的过程中 ,一个关键的步骤是产生频繁项目集 .本文给出一种基于关联图的关联规则挖掘算法 ,并将它与性能比较好的关联规则挖掘算法 DHP进行了比较 ,结果表明 ,本文的算法优于 DHP算法 相似文献
8.
关联规则是数据挖掘的重要内容之一。为了高效、快速地从事务数据库中挖掘出频繁项目集,针对数据挖掘的经典关联规则Apriori算法的瓶颈问题提出了改进的方法。通过对基于数组的Apriori算法的改进,只扫描一次数据库,在生成候选频繁项目集前进行判断,减少非频繁的候选的项目集的生成,并通过减少数组数据的扫描和不断压缩数组,提高了算法的运行效率,节约了开销。 相似文献
9.
10.
11.
为了进一步降低扫描数据库的次数和减轻内存负担,从而更好地提高挖掘频繁项集的效率,一种基于Apriori的优化算法(M-Apriori)被提出. 该方法通过构建频繁状态矩阵来存放项集的频繁状态,构建事务布尔矩阵来存放事务与项集的关系,此算法只需在初始化阶段扫描一次数据库产生初始的频繁状态矩阵和事务布尔矩阵,并在此基础上直接递推产生所有的频繁项集. 实验证明,与Apriori算法相比,M-Apriori算法具有更好的性能与效率. 相似文献
12.
一种基于散列技术和事务压缩的关联规则挖掘算法 总被引:6,自引:0,他引:6
文章以DHP算法为基础,在产生频繁项集时考虑了一种可以直接删除非频繁项集的散列函数,并压缩了文中提出的几种冗余事务,提出TFDHP算法,其性能优于传统的Apriori算法和DHP算法。 相似文献
13.
基于属性分组的高效挖掘关联规则算法 总被引:6,自引:0,他引:6
挖掘频繁项集在数据挖掘中有着重要的作用。目前,关于频繁项集的挖掘问题已经提出了一些算法,虽然实现了一次扫描数据库即可以发现所有的频繁项集,但是当属性数目很多时,算法的执行效率下降很快。论文首次提出了利用属性分组作为挖掘关联规则的工具,给出了基于属性分组的频繁项集挖掘算法,用矩阵来存储数据库属性间的信息并提取频繁项集,而且不产生候选项集。经实验验证该算法是快速有效的。 相似文献
14.
Apriori算法在搜索频繁项集过程中,通常需要对数据库进行多次的重复扫描和产生大量无用的候选集,针对此问题提出一种基于矩阵约简的Apriori改进算法。该算法只需扫描一次数据库,将数据库信息转换成布尔矩阵,根据频繁k-项集的性质推出的结论来约简数据结构,有效地降低无效候选项集的生成规模。通过对已有算法的对比,验证该算法能有效地提高挖掘频繁项集的效 相似文献
15.
16.
17.
18.
基于FP-tree的最大频繁模式挖掘算法 总被引:11,自引:0,他引:11
在FP-tree结构的基础上提出了最大频繁模式挖掘算法FP-Max。算法FP-Max只需要两次数据库扫描,挖掘过程不会产生候选项集。实验表明.算法FP-Max在挖掘密集型数据集方面是高效的。 相似文献
19.
一种基于人工免疫的新的频繁项挖掘算法 总被引:1,自引:0,他引:1
以往算法的研究主要围绕着减少候选项目集进而减少事务数据库的扫描次数的角度,先求出候选项集,再计算候选项集的支持度求得频繁项集。本文改变过去求频繁项集的角度,从新的角度来看频繁项目集的定义,同时结合人工免疫的特点,设计一个基于人工免疫的新频繁项集挖掘算法。本文详细介绍了算法设计等。新算法的复杂度与支持度,数据库总容量有关。验证实验的结果与其他算法相比较证明了该算法的可行性、有效性和完备性。 相似文献
20.
关联规则的发现是数据挖掘的一个重要方面,产生频繁项集是其中一个关键步骤。提出了一种基于十字链表快速挖掘频繁项集的算法,该算法只需扫描一次数据库,充分利用已有信息产生频繁项集,无需存储候选项集。通过与其它一些算法比较,说明该算法有更好的性能。 相似文献