共查询到19条相似文献,搜索用时 171 毫秒
1.
为了提高经典关联规则Apriori算法的挖掘效率,针对Apriori算法的瓶颈问题,提出了一种链式结构存储频繁项目集并生成最大频繁项目集的关联规则算法.该算法采用比特向量方式存储事务,生成频繁项目集的同时,把包含此频繁项目的事务作为链表连接到频繁项目之后,生成最大频繁项目集.该算法能够减小扫描事物数据库的次数和生成候选项目集的数量,从而减少了生成最大频繁项目集的时间,实验结果表明,该算法提高了运算效率. 相似文献
2.
关联规则挖掘是数据挖掘的一个重要研究方向,其算法主要有Apriori算法和FP—growth算法,它们需要多次扫描事务数据库,严重影响算法的效率。为了减少扫描事务数据库的次数,本文提出一种基于线性链表(LinearLinker)的LL算法,它只需扫描事务数据库一次,把事务数据库转换为线性链表LL,进而对LL进行关联规则挖掘。实验表明,LL算法的时间开销明显优于Apriori算法和FP—growth算法,且LL算法通过定义备用候选频繁项目集,有效地支持了关联规则的更新挖掘。 相似文献
3.
针对Apriori算法的主要问题,提出了关联规则挖掘的两种改进算法:高维分解法通过遍历事务数据库形成高维频繁项目集和关联规则,然后直接分解高维关联规则得到低维关联规则;前缀广义链表法先通过对事务数据库的遍历形成前缀链表,然后再次扫描事务数据库,遍历其前缀链表,根据判断每个事务是否与其中的一条路径完全或部分重合而找到关联规则。这两种算法均能极大地减少事务数据库的遍历和大规模候选序列集的产生,提高挖掘算法的效率,使得关联规则的产生简单化。 相似文献
4.
常睿 《计算机光盘软件与应用》2012,(19):19-20,23
针对Apriori算法的缺陷,引入一种新结构—链表数组来压缩存放数据的相关信息,并结合修剪频繁集和连接优化策略,得到一种新的关联规则挖掘算法FAA算法。该算法只须扫描两遍数据库,优化了连接操作,提高了候选项集的支持事务计数的效率,减少了候选项集的数目,较好地提高了算法的效率。实验结果表明FAA算法是可行有效的。 相似文献
5.
刘玉文 《计算机应用与软件》2012,29(5):267-269
在关联规则挖掘中,主要的问题是如何高效地产生频繁项集。对近年来一些基于十字链表的Apriori算法进行研究和分析,发现它们的候选频繁项集生成方法有很大的改进空间。提出一个基于十字链表的改进算法,优化候选频繁项集的生成方法,减少对事务数据库的扫描,大大提高了挖掘效率。 相似文献
6.
7.
一种改进的新Apriori算法 总被引:5,自引:0,他引:5
本文分析了Apriori算法的时间复杂性和空间复杂性,利用十字链表来等价代替事务数据库的数组表示,从而使得:一方面,连接操作的次数减少一半,缩短了算法的运行时间;另一方面,挖掘过程中不必保留候选频繁项目集,节省了大量空间开销。实验表明,改进后新算法的性能具有可比性。 相似文献
8.
基于前缀项集的Apriori算法改进 总被引:1,自引:0,他引:1
《计算机应用与软件》2017,(2)
关联规则的挖掘是数据挖掘中一个重要内容,主要目的是找到事务数据库中的有趣的模式。Apriori算法是关联规则挖掘的最经典算法之一,但是它本身存在着效率上的瓶颈。在深入了解Apriori算法前提下,提出基于前缀项集的候选集存储结构,并利用哈希表在快速查找上的优势,大大提高了经典Apriori算法在连接步骤和剪枝步骤中的效率。实验证明改进后的Apriori算法在一定支持度下比经典Apriori算法有着更大的效率优势,并且支持度越小时提升效率越大。 相似文献
9.
Apriori算法是关联规则挖掘中最经典的算法之一,其核心问题是频繁项集的获取。针对经典Apriori算法存在的需多次遍历事务数据库及需产生候选项集等问题,首先通过转换存储结构、消除候选集产生过程等方法对Apriori算法进行优化,同时,随着大数据时代的到来,数据量与日俱增,传统算法面临巨大挑战,因此,又将优化的Apriori与Spark相结合,充分利用Spark的内存计算、弹性分布式数据集等优势,提出了IABS(Improved Apriori algorithm based on Spark)。通过与已有的同类算法进行比较,IABS的数据可扩展性和节点可扩展性得以验证,并且在多种数据集上平均获得了23.88%的性能提升,尤其随着数据量的增长,性能提升更加明显。 相似文献
10.
为了解决Apriori算法中生成候选二项集不能剪枝、多次扫描数据库中对计算支持度不产生作用的项等缺点,提出了使用矩阵直接生成频繁二项集及候选三项集,使用链表删除对计算支持度不产生作用的数据的方法。通过设置不同的最小支持度将两个算法的运行时间进行对比,根据结果分析证明改进后的算法比Apriori算法执行效率高。 相似文献
11.
12.
13.
在所有的关联规则的挖掘算法中Apriori算法是最为经典的一个,但Apriofi算法有两个缺陷,即要扫描多次数据库以及生成大量的候选集。本文提出一种利用对项进行编码的方法对该算法进行改进,通过对项编码来减少扫描数据库次数并通过删除项来减少生成候选集的数量,从而提高算法的效率。相同条件下的实验结果表明,该优化后的算法能有效地提高关联规则挖掘的效率。 相似文献
14.
发现频繁项集是关联规则挖掘的主要途径,也是关联规则挖掘算法研究的重点。关联规则挖掘的经典Apriori算法及其改进算法大致可以归为基于SQL和基于内存两类。为了提高挖掘效率,在仔细分析了基于内存算法存在效率瓶颈的基础上,提出了一种发现频繁项集的改进算法。该算法使用了一种快速产生和验证候选项集的方法,提高了生成项目集的速度。实验结果显示该算法能有效提高挖掘效率。 相似文献
15.
Apriori算法是一种找频繁项集的基本算法,它常常被用于单维关联规则的数据挖掘,本文结合数据立方体技术对Apriori算法做了一些变形,给出了一种适用于维间关联规则挖掘的算法,并将此算法结合Apriori算法,在教学管理系统中挖掘出混合维间的关联规则。 相似文献
16.
捕要:Apriori算法在关联规则挖掘过程中需要多次扫描事务数据库,产生大量候选项目集,导致计算量过大。为解决该问题,提出一种基于频繁2项集支持矩阵的Apriori改进算法,通过分析频繁k+1项集的生成机制,将支持矩阵与频繁2项集矩阵相结合实现快速剪枝,并大幅减少频繁k项集验证的计算量。实验结果表明,与Apriori算法和ABTM算法相比,改进算法明显提高了频繁项集的挖掘效率。 相似文献
17.
Apriori算法是一种找频繁项集的基本算法,它常常被用于单维关联规则的数据挖掘,本文结合数据立方体技术对Apriori算法做了一些变形,给出了一种适用于维间关联规则挖掘的算法,并将此算法结合Apriori算法,在教学管理系统中挖掘出混合维间的关联规则. 相似文献
18.
提出一种不产生候选项目集的加权频繁模式挖掘算法。对每个项目集权重进行归一化操作,避免加权支持率大于1,证明该算法满足加权向下封闭性。在此基础上,构建基于加权Fp树的剪枝策略。实例分析和实验结果表明,该算法能减少加权频繁项目集生成过程中的计算量,提高加权频繁项目集的生成效率。 相似文献