首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 109 毫秒
1.
探讨了Apriori算法的改进问题,提出了一种适用于中小数据集的关联规则挖掘算法。该算法主要特点是简单、清晰、高效。一方面充分使用了内存的高效存贮,另一方面使用了位运算快速进行计数,同时简化了Apriori算法中频繁项集的计算,大大的减少了中间变量及其存贮的时间和空间,提高了关联规则挖掘的速度和效率。  相似文献   

2.
Apriori算法是关联规则挖掘的经典算法。但在面对海量数据集时,由于过多的磁盘读写操作,使算法的效率大大降低。本文提出了一种将数据集根据处理计算机的内存进行分割,使分割后的每一部分数据集能直接放入内存中,用Apriori算法找到局部的关联规则,再在所有找到的局部关联的基础上,使用遗传算法寻找全局关联规则的方法。由于大大减少了磁盘操作,在处理海量数据集时本方法效率优于传统Apriori算法。  相似文献   

3.
王明  宋顺林 《计算机应用》2010,30(9):2332-2334
发现频繁项集是关联规则挖掘的主要途径,也是关联规则挖掘算法研究的重点。关联规则挖掘的经典Apriori算法及其改进算法大致可以归为基于SQL和基于内存两类。为了提高挖掘效率,在仔细分析了基于内存算法存在效率瓶颈的基础上,提出了一种发现频繁项集的改进算法。该算法使用了一种快速产生和验证候选项集的方法,提高了生成项目集的速度。实验结果显示该算法能有效提高挖掘效率。  相似文献   

4.
一种基于向量的关联规则挖掘算法改进   总被引:1,自引:0,他引:1  
通过对Apriori算法思想和传统的向量挖掘算法进行分析,提出一种基于向量运算的关联规则改进算法.该算法采用树形数据结构,克服了Apriori算法需多次扫描数据库这一缺点,并通过向量计算来避免生成候选项集,经过实验证明提高了关联规则挖掘的效率.  相似文献   

5.
一种基于矩阵的多值关联规则的挖掘算法   总被引:2,自引:0,他引:2  
关联规则是数据挖掘研究的主要模式之一,其中布尔型关联规则的挖掘已经有比较成熟的系统和方法,而多值关联规则的挖掘则不然。本文提出的QARMM算法利用矩阵存储数据,将频繁项目集的产生过程转化为项目集的关系矩阵中向量的运算过程,同时克服了SLIG算法和矩阵算法不能挖掘多值关联规则的弱点,只需运行一次便可挖掘出所有关联规则。实验证明,在等价的数据集上挖掘关联规则,QARMM算法比Apriori算法具有更高的效率。  相似文献   

6.
Apriori算法是数据挖掘领域挖掘关联规则频繁项目集的经典算法,但该算法存在产生大量的候选项目集及需要多次扫描数据库的缺陷。为此提出一种新的挖掘关联规则频繁项目集算法( CApriori算法):利用分解事务矩阵来压缩存放数据库的相关信息,进而对分解事务矩阵进行关联规则挖掘;优化了由频繁k -1项目集生成频繁k项目集的连接过程;提出了一种不需要扫描数据库,利用行集“与运算”快速计算支持数的方法,改进算法挖掘所有的频繁项目集只需扫描数据库两次。实验结果表明,改进算法在最小支持度较小时效率高于Apriori算法。  相似文献   

7.
数据挖掘中的关联规则挖掘能够发现大量数据中项集之间有趣的关联或相关联系,特别是随着大量数据不停地收集和存储,从数据库中挖掘关联规则就越来越有其必要性。通过对关联规则挖掘技术及其相关算法Apriori进行分析,发现该技术存在的问题。Apriori算法是关联规则挖掘中的经典算法。对Apriori算法做了改进。借助0—1矩阵给出了计算项集的支持度计数的更快方法,同时还简化了Apriori算法中的连接和剪枝操作,从而在时间和空间上提高了Apriori算法的效率。  相似文献   

8.
一种改进的Apriori算法   总被引:4,自引:2,他引:4  
数据挖掘中的关联规则挖掘能够发现大量数据中项集之间有趣的关联或相关联系,特别是随着大量数据不停地收集和存储,从数据库中挖掘关联规则就越来越有其必要性.通过对关联规则挖掘技术及其相关算法Apaod进行分析,发现该技术存在的问题.Apriori算法是关联规则挖掘中的经典算法.对Apriori算法做了改进.借助0-1矩阵给出了计算项集的支持度计数的更快方法,同时还简化了Apriori算法中的连接和剪枝操作,从而在时间和空间上提高了Apriori算法的效率.  相似文献   

9.
基于Apriori算法的改进算法   总被引:2,自引:0,他引:2  
关联规则挖掘是数据挖掘研究的一项重要内容.为了快速挖掘关联规则,分析了挖掘关联规则的Apriori算法,并在此基础上给出了一种改进的算法:NApriori算法,利用频繁1项集重新组织事务数据库来挖掘关联规则,此方法仅需扫描数据库2次,且避免了Apriori算法繁琐的连接和删除步骤,实验结果表明此方法比Apriori算法有更好的性能.  相似文献   

10.
基于Apriori&Fp—growth的频繁项集发现算法   总被引:6,自引:3,他引:3  
关联规则挖掘是数据挖掘中功能之一,而高效的关联规则挖掘算法研究引起了许多科研人员的兴趣.其中频繁项集的发现是关联规则挖掘算法中占比重最高、代价最大的步骤.从分析Apriori算法与Fp-growth算法性能的优缺点的基础上,提出了一种新的频繁项集发现算法:FA算法,该算法吸取了Apriori算法与Fp-growth算法的优点,通过实验表明该算法有较高的性能,且内存开销较少.  相似文献   

11.
为了提高经典关联规则Apriori算法的挖掘效率,针对Apriori算法的瓶颈问题,提出了一种链式结构存储频繁项目集并生成最大频繁项目集的关联规则算法.该算法采用比特向量方式存储事务,生成频繁项目集的同时,把包含此频繁项目的事务作为链表连接到频繁项目之后,生成最大频繁项目集.该算法能够减小扫描事物数据库的次数和生成候选项目集的数量,从而减少了生成最大频繁项目集的时间,实验结果表明,该算法提高了运算效率.  相似文献   

12.
改进关联规则算法在高校教学管理中的应用   总被引:1,自引:0,他引:1       下载免费PDF全文
在分析基于位向量和无向图Apriori的基础上,提出一种改进的关联规则算法VGApriori。该算法将事务数据库的多次扫描和支持度计算转化为位向量的计算,将频繁项集的挖掘转换为无向图的完全子图挖掘,进一步缩减候选项集,提高频繁项集的发现效率。该算法在高校教学管理系统应用中取得较好的效果。  相似文献   

13.
生成频繁项集的逻辑"与"运算算法   总被引:4,自引:0,他引:4  
徐健辉 《计算机应用》2004,24(11):88-90
关联规则挖掘中,往往需要生成频繁集,一般需要大量的系统资源,为降低这一开销,将位运算算法应用到频繁集的生成逻辑运算中。将连接、剪枝等转换成整形数组按位“与”运算进行,即高速的数字运算代替了低速的比较查找运算。算法从最大项集开始查找,与Apriori及一般传统的查找算法方向相反,在事务项集较多,频繁项集可能是大项集时,可以缩短查找时间。  相似文献   

14.
介绍关联规则挖掘中的经典算法——Apriori算法的关键思想。针对传统Apriori算法效率上的不足,提出一种改进的Apriori算 法——Ec-Apriori算法。该算法采用划分的方法,按照频繁1-项集支持度对数据库进行划分,在各自独立的子数据库上运用等价类的方法生成候选集,优化连接操作,同时利用位对象操作简化支持度的计算,较好地提高了算法效率。实验结果表明,改进后的算法具有较好的有效性。  相似文献   

15.
王红梅  胡明 《计算机应用》2013,33(11):3045-3048
Apriori算法是频繁项集挖掘的经典算法。针对Apriori算法的剪枝操作和多次扫描数据集的缺点,提出了基于散列的频繁项集分组(HFG)算法。证明了2-项集剪枝性质,采用散列技术存储频繁2-项集,将Apriori算法剪枝操作的时间复杂度从O(k×|Lk|)降低到O(1);定义了首项的子项集概念,将数据集划分为以Ii为首项的数据子集并采用分组索引表存储,在求以Ii为首项的频繁项集时,只扫描以Ii为首项的数据子集,减少了对数据集扫描的时间代价。实验结果表明,由于HFG算法的剪枝操作产生了累积效益,以及分组扫描排除了无效的项集和元组,使得HFG算法在时间性能方面与Apriori算法相比有较大提高。  相似文献   

16.
通过对Apriori算法的研究和分析,结合算法存在的缺陷,利用"桶"技术及压缩组合项集技术,对频繁项集提出了前缀概念,并提出了基于前缀的频繁项集挖掘算法。该算法将具有同一前缀的频繁项集的子集合作为一个节点,由频繁k-项集的子集合直接产生候选(k+1)-项集,从而省略了连接步中判断I1、I2是否能连接。同时,该算法使得整个程序中节点数目减少,这样不仅减少了内存消耗,而且提高了查找Ck和Lk的速度,尤其便于大型数据库的分布式处理。经实验证实,改进后的算法是可行的。  相似文献   

17.
Apriori算法是关联规则挖掘中最经典的算法之一,其核心问题是频繁项集的获取。针对经典Apriori算法存在的需多次遍历事务数据库及需产生候选项集等问题,首先通过转换存储结构、消除候选集产生过程等方法对Apriori算法进行优化,同时,随着大数据时代的到来,数据量与日俱增,传统算法面临巨大挑战,因此,又将优化的Apriori与Spark相结合,充分利用Spark的内存计算、弹性分布式数据集等优势,提出了IABS(Improved Apriori algorithm based on Spark)。通过与已有的同类算法进行比较,IABS的数据可扩展性和节点可扩展性得以验证,并且在多种数据集上平均获得了23.88%的性能提升,尤其随着数据量的增长,性能提升更加明显。  相似文献   

18.
一种基于关联规则Apriori算法的改进研究   总被引:1,自引:0,他引:1  
介绍Apriori算法的原理和基础,并对制约Apriori算法效率的瓶颈问题提出一种改进策略,针对该算法的两个缺陷,多次扫描事务数据库并产生大量的候选集,提出一种0-1矩阵的改进算法改变由低维频繁项目集到高维频繁项目集的多次连接运算。此改进算法大大减少了访问数据库的次数,提高系统的运行效率,同时还减少大量的候选集的产生,节约存储空间。  相似文献   

19.
关联规则挖掘的矩阵算法   总被引:19,自引:0,他引:19  
关联挖掘作法中的Apriori算法提供了一种根据查找频繁项集来发现数据集中的关联规则的方法,这种算法思路简单易于实现;但在由低次频繁项集生成高次频繁项集时需反复查找数据库,在效率上存在一定的欠缺,在寻找高次频繁项集时尤为明显,文章提出了一种新的关联规则挖掘算法:矩阵算法。同Apriori算法相比较,该算法能直接查找高次频繁项集,可以有效地屏蔽Aptiori算法性能瓶颈试验结果表明,当频繁项级较高时该算法比Apriori具有更高的执行效率和性能,并具有良好的可行性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号