共查询到20条相似文献,搜索用时 109 毫秒
1.
一种提高Apriori算法效率的方法 总被引:8,自引:2,他引:8
Apriori算法是关联规则挖掘中的经典算法。在Apriori算法中,需要大量进行两个操作:判断两个k-项集是否前k-1项相同且最后一项不同;判断一个项集是否为另一个项集的子集。利用Apriori算法中项集之间都是有序的这一特点可以减少以上两个操作的执行次数,从而达到对Apriori算法进行优化的目的。实验结果表明,经过优化了的Apriori算法在运行效率上有一定的提高。 相似文献
2.
挖掘关联规则中Apriori算法的改进 总被引:24,自引:0,他引:24
马盈仓 《计算机应用与软件》2004,21(11):82-84
本文基于对挖掘关联规则中Apriori算法的研究,给出两种改进的算法。 相似文献
3.
4.
本文对关联规则挖掘问题进行了介绍,并对其作了形式化描述;对Apriori算法进行了分析,针对该算法的缺点,提出改进算法apriori.new。改进的算法避免了模式匹配,减小了访问数据库的次数,从而提高了挖掘速度。 相似文献
5.
为了提供一种更加准确高效的关联规则算法,在传统的Apriori算法的基础上引入分而治之的理念和加权的思想.先把数据库分成互不相交的块,根据需求分析从每一个块中产生用户感兴趣的子集,把所有的子集合并成挖掘对象,再利用普通的关联规则算法产生频繁项集,最后在该项集的基础上产生加权频繁项集.该算法基本上克服了传统Apriori算法的缺点,从而大大地提高了运算效率,最大限度解决了"项集生成瓶颈"问题,并且使得生成的关联规则更加科学、准确. 相似文献
6.
挖掘关联规则是数据挖掘中一个重要的课题,产生频繁项集是其中的一个关键步骤.文章提出了一种基于矩阵压缩的Apriori优化算法,并将该算法与Apriori算法进行了比较.实验表明与Apriori算法相比,新算法的效率较好. 相似文献
7.
关联规则挖掘Apriori算法的研究与改进 总被引:7,自引:1,他引:6
关联规则挖掘是数据挖掘研究领域中的一个重要任务,旨在挖掘事务数据库中有趣的关联.Apriori算法是关联规则挖掘中的经典算法.然而Apriori算法存在着产生候选项目集效率低和频繁扫描数据等缺点.对Apriori算法的原理及效率进行分析,指出了一些不足,并且提出了改进的Apriori_LB算法.该算法基于新的数据结构,改进了产生候选项集的连接方法.在详细阐述了Apriori_LB算法后,对Apriori算法和Apriori_LB算法进行了分析和比较,实验结果表明改进的Apriori_LB算法优于Apriori算法,特别是对最小支持度较小或者项数较少的事务数据库进行挖掘时,效果更加显著. 相似文献
8.
一种新的高效Apriori算法 总被引:6,自引:2,他引:6
Apriori算法是关联规则挖掘中的经典算法。本文针对Apriori算法的瓶颈提出一种使用先验算法产生频繁2项目集。并给出了一种简单有效的逐步缩减交易数据库的方法,加快了频繁k项目集的验证速度。新算法减小了存储空间,并显著提高了Apriori算法的效率,并改进了数据挖掘算法的性能。 相似文献
9.
关联规则Apriori算法 总被引:1,自引:0,他引:1
李金忠 《电脑编程技巧与维护》2008,(6):35-37
阐述了关联规则的基本概念、Apriori算法及其实验结果分析,并描述了Apriori算法的性能瓶颈与改进策略。 相似文献
10.
关联挖掘的目的是从大量数据中发现对用户有用、新颖、重要的关联规则。传统的关联挖掘算法会产生大量对用户而言显而易见的平凡规则,使那些真正对用户有用的新颖规则被淹没,而一些针对新颖性的改进算法往往又存在先验知识表达复杂且工作量极大的问题。在本文中,我们运用简单的分类树,引入“新颖度”的概念,对Apriori算法进行改进,得到了基于“新颖度”的关联挖掘算法,此算法既充分考虑了挖掘过程中得新颖性问题,又克服了先验知识表达过于复杂的困难。 相似文献
11.
提高频繁项集挖掘算法的效率是关联规则挖掘研究的一个重要内容。通过对不产生候选项频繁项集挖掘算法的分析,从子集的划分和局部频繁项集挖掘出发,提出了一种提高频繁项集挖掘算法效率的实现方法。实验表明,该方法对提高频繁项集挖掘算法的效率是有效的。 相似文献
12.
基于频繁项集特性的Apriori算法的改进 总被引:3,自引:0,他引:3
Apriori算法是关联规则中一种重要算法.Apriori算法在求出频繁项集的过程中,需要扫描事务项集里的数据.由于事务项集里只是部分数据有用,所以改进算法,缩小所需扫描的事务项集大小,并提出了一种简单的数据结构--树型结构来存储事务项集数据,使得算法在数据集量巨大时,性能得到有效提高,并用实例验证了这些改进能够正确、有效、快速地实现该算法. 相似文献
13.
Web使用挖掘中Apriori算法的改进研究 总被引:1,自引:0,他引:1
分析了挖掘频繁访问模式的过程和当前Apriori算法的缺陷,提出了一种Apriori算法的改进算法:BI_Apriori算法.改进的算法采用不规则数组来保存项集信息,有效省去了扫描数据库所耗费的大量时间.将项集有序性引入到该数组上,减少了候选项集的个数.并采用二进制来表示1阶频繁访问模式,提高了模式匹配和连接的效率.试验结果表明,该改进算法能更有效地发现各种长度不同的访问模式. 相似文献
14.
基于频繁项集挖掘算法的改进与研究 总被引:2,自引:1,他引:1
关联规则挖掘是数据挖掘领域中重要的研究内容,频繁项集挖掘又是关联规则挖掘中的关键问题之一。针对已有的频繁项集挖掘算法存在的问题,通过对Apriori算法的分析,提出了Inter-Apriori频繁项集挖掘算法。该算法使用交集策略减少扫描数据库的次数,从而使算法达到较高的效率。实验结果表明,Inter-Apriori算法是Apriori算法效率的2~4倍。 相似文献
15.
基于Hash表的关联规则挖掘算法的改进 总被引:1,自引:0,他引:1
经典的Apriori算法在大项目集的挖掘过程中因为重复搜索导致效率低下。提出一种改进的Hash表结构应用于DHP算法中的项目集存放,定义新的Hash函数确定项目集的存放地址,并基于新的Hash表结构,以并行挖掘的方式优化关联规则算法的剪枝过程。实验结果表明,与Apriori算法相比,文中的方法可以更好地节省存储空间,提高挖掘效率。 相似文献
16.
经典的Apriori算法在大项目集的挖掘过程中因为重复搜索导致效率低下。提出一种改进的Hash表结构应用于DHP算法中的项目集存放,定义新的Hash函数确定项目集的存放地址,并基于新的Hash表结构,以并行挖掘的方式优化关联规则算法的剪枝过程。实验结果表明,与Apriori算法相比,文中的方法可以更好地节省存储空间,提高挖掘效率。 相似文献
17.
18.
现有的数据挖掘方法大致有两类:有候选项集和无候选项集,有候选项集的挖掘以Apriori算法为代表,其特点是产生大量的候选项集,重复多次扫描数据库,挖掘效率低,不适合大型数据库的挖掘。无候选项集的挖掘以FP-T方法为代表,但它不能同时挖掘多概念层的关联规则,对具有超大项ID的大型数据库,无法生成“树”结构,使用也受到限制。该文将FP-T原理引入多层关联规则的并发挖掘,通过构建一个特殊节点链的指针表,可实现超大规模数据库的并发、多层挖掘。对实现物流系统信息自动化及其它数据挖掘应用领域都具有极其重要的指导意义。 相似文献
19.
Apriori算法是解决频繁项集挖掘最常用的算法之一,但多轮迭代扫描完整数据集的计算方式,严重影响算法效率且难以并行化处理。随着数据规模的持续增大,这一问题日益严重。针对这一问题,提出了一种基于项编码和Spark计算框架的Apriori并行化处理方法——IEBDA算法,利用项编码完整保存项集信息,在不重复扫描完整数据集的情况下完成频繁项集挖掘,同时利用Spark的广播变量实现并行化处理。与其他分布式Apriori算法在不同规模的数据集上进行性能比较,发现IEBDA算法从第一轮迭代后加速效果明显。结果表明,该算法可以提高大数据环境下的多轮迭代的频繁项集挖掘效率。 相似文献
20.
基于Apriori算法的改进算法 总被引:2,自引:0,他引:2
关联规则挖掘是数据挖掘研究的一项重要内容.为了快速挖掘关联规则,分析了挖掘关联规则的Apriori算法,并在此基础上给出了一种改进的算法:NApriori算法,利用频繁1项集重新组织事务数据库来挖掘关联规则,此方法仅需扫描数据库2次,且避免了Apriori算法繁琐的连接和删除步骤,实验结果表明此方法比Apriori算法有更好的性能. 相似文献