首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 187 毫秒
1.
快速关联规则挖掘算法   总被引:13,自引:2,他引:13  
关联规则挖掘是数据挖掘及知识发现领域的重要研究内容之一,其核心任务是挖掘数据库中的频繁项集。Apriori及其改良算法是频繁项集挖掘的有效算法。在类Apriori的算法中,它们都采用哈希树来存储频繁项集的候补项集以便快速计算其支持度。该文在仔细分析这些算法所存在的效率瓶颈的基础上,提出了另一个有效的改进算法。所提算法通过利用一个一维数组替代已有算法中的复杂的哈希树来达到改善它们效率瓶颈的目的。通过多个实验评估,该文所提算法的挖掘效率很高,比Apriori及其改良算法要快2到5倍。  相似文献   

2.
基于矩阵的关联规则挖掘算法   总被引:9,自引:0,他引:9  
文章通过对Apriori算法的思想和性能的分析,提出一种基于矩阵的关联规则挖掘算法。新算法直接通过对布尔矩阵的列向量进行对位“与”运算产生频繁项集,有效地解决了Apriori算法迭代产生频繁项集的瓶颈问题。试验结果表明,新算法比Apriori算法具有更高的效率和性能。  相似文献   

3.
一种基于散列技术和事务压缩的关联规则挖掘算法   总被引:6,自引:0,他引:6  
黄传明 《计算机工程》2003,29(22):117-118
文章以DHP算法为基础,在产生频繁项集时考虑了一种可以直接删除非频繁项集的散列函数,并压缩了文中提出的几种冗余事务,提出TFDHP算法,其性能优于传统的Apriori算法和DHP算法。  相似文献   

4.
针对Apriori算法中I/O负载大和减枝过程中生成大量中间结果两个性能瓶颈问题,提出了一种事务矩阵和项集矩阵的Apriori改进算法.算法的基本思想是:扫描数据库生成事务矩阵,通过事务矩阵和项集矩阵之间的运算代替Apriori算法中的数据库扫描得到频繁项集,减少I/O负载,加快候选项集的验证速度;通过对频繁项集矩阵的操作,减少生成候选频繁项集的数目,避免Apriori算法减枝步骤中对候选项集的分解和判断.通过仿真验证了改进算法的有效性.  相似文献   

5.
一种基于单事务项集组合的频繁项集挖掘算法   总被引:2,自引:0,他引:2  
曾波 《计算机科学》2008,35(1):196-197
Apriori是挖掘频繁项集的基本算法,目前该算法及其优化变种都没有解决候选项及重复扫描事务数据库的问题.文章通过对Apriori及其优化算法的深入探究,提出了一种基于单事务组合项集的挖掘算法,该算法在一个事务内部对"数据项"进行组合,在事务数据库中对所有相同"项集"进行计数.不经过迭代过程,不产生候选项集,所有频繁项集的挖掘过程只需对事务数据库一次扫描,提高了频繁项集挖掘效率.  相似文献   

6.
挖掘频繁项集是许多数据挖掘任务中的关键问题,也是关联规则挖掘算法的核心,提高频繁项集的生成效率一直是近几年数据挖掘领域研究的热点之一.在对关联规则挖 掘中基于Apriori算法的改进算法进行深入分析和研究后,本文根据Apriori算法的不足,提出了一种改进策略,从而得到一种优化的Apriori算法.最后,对频繁项集挖掘算法的发展方向进行了初步的探讨.  相似文献   

7.
发现频繁项集是关联规则挖掘应用的关键,针对采用Apriori类的候选项目集生成-检验方法导致候选项目集产生的代价很高问题,该文提出一种基于散列的快速AprioriTid改进算法,在AprioriTid算法的基础上采用基于候选项Lk地址的哈希映射方法,提高了算法的执行效率。  相似文献   

8.
改进的频繁项集挖掘算法   总被引:1,自引:0,他引:1       下载免费PDF全文
频繁项集挖掘是数据挖掘中的一个重要研究课题。在分析Apriori算法与FP-growth 算法特点的基础上,提出了一种改进的频繁项集挖掘算法,即索引生成频繁项集算法IGFA。IGFA算法基于Apriori算法并通过 “索引二元组”生成候选集,减免了候选集的大量冗余,实验及结果分析表明该算法有效提高了频繁项集的挖掘效率。  相似文献   

9.
纪怀猛 《计算机工程》2013,(11):183-186
捕要:Apriori算法在关联规则挖掘过程中需要多次扫描事务数据库,产生大量候选项目集,导致计算量过大。为解决该问题,提出一种基于频繁2项集支持矩阵的Apriori改进算法,通过分析频繁k+1项集的生成机制,将支持矩阵与频繁2项集矩阵相结合实现快速剪枝,并大幅减少频繁k项集验证的计算量。实验结果表明,与Apriori算法和ABTM算法相比,改进算法明显提高了频繁项集的挖掘效率。  相似文献   

10.
一种基于无向项集图的频繁项集挖掘算法   总被引:2,自引:0,他引:2  
分析了Apriori算法关于发现频繁项集的方法及其效率,提出了一种基于无向项集图的频繁项集挖掘优化算法。该算法只需要扫描数据库一次,不产生候选项目集,也不使用逐层迭代的方法,大大提高了频繁项集的发现效率。  相似文献   

11.
经典的Apriori算法在大项目集的挖掘过程中因为重复搜索导致效率低下。提出一种改进的Hash表结构应用于DHP算法中的项目集存放,定义新的Hash函数确定项目集的存放地址,并基于新的Hash表结构,以并行挖掘的方式优化关联规则算法的剪枝过程。实验结果表明,与Apriori算法相比,文中的方法可以更好地节省存储空间,提高挖掘效率。  相似文献   

12.
基于Hash表的关联规则挖掘算法的改进   总被引:1,自引:0,他引:1  
经典的Apriori算法在大项目集的挖掘过程中因为重复搜索导致效率低下。提出一种改进的Hash表结构应用于DHP算法中的项目集存放,定义新的Hash函数确定项目集的存放地址,并基于新的Hash表结构,以并行挖掘的方式优化关联规则算法的剪枝过程。实验结果表明,与Apriori算法相比,文中的方法可以更好地节省存储空间,提高挖掘效率。  相似文献   

13.
Apriori算法是解决频繁项集挖掘最常用的算法之一,但多轮迭代扫描完整数据集的计算方式,严重影响算法效率且难以并行化处理。随着数据规模的持续增大,这一问题日益严重。针对这一问题,提出了一种基于项编码和Spark计算框架的Apriori并行化处理方法——IEBDA算法,利用项编码完整保存项集信息,在不重复扫描完整数据集的情况下完成频繁项集挖掘,同时利用Spark的广播变量实现并行化处理。与其他分布式Apriori算法在不同规模的数据集上进行性能比较,发现IEBDA算法从第一轮迭代后加速效果明显。结果表明,该算法可以提高大数据环境下的多轮迭代的频繁项集挖掘效率。  相似文献   

14.
为了提高经典关联规则Apriori算法的挖掘效率,针对Apriori算法的瓶颈问题,提出了一种链式结构存储频繁项目集并生成最大频繁项目集的关联规则算法.该算法采用比特向量方式存储事务,生成频繁项目集的同时,把包含此频繁项目的事务作为链表连接到频繁项目之后,生成最大频繁项目集.该算法能够减小扫描事物数据库的次数和生成候选项目集的数量,从而减少了生成最大频繁项目集的时间,实验结果表明,该算法提高了运算效率.  相似文献   

15.
基于频繁项集挖掘算法的改进与研究   总被引:2,自引:1,他引:1  
关联规则挖掘是数据挖掘领域中重要的研究内容,频繁项集挖掘又是关联规则挖掘中的关键问题之一。针对已有的频繁项集挖掘算法存在的问题,通过对Apriori算法的分析,提出了Inter-Apriori频繁项集挖掘算法。该算法使用交集策略减少扫描数据库的次数,从而使算法达到较高的效率。实验结果表明,Inter-Apriori算法是Apriori算法效率的2~4倍。  相似文献   

16.
关联规则挖掘的矩阵算法   总被引:19,自引:0,他引:19  
关联挖掘作法中的Apriori算法提供了一种根据查找频繁项集来发现数据集中的关联规则的方法,这种算法思路简单易于实现;但在由低次频繁项集生成高次频繁项集时需反复查找数据库,在效率上存在一定的欠缺,在寻找高次频繁项集时尤为明显,文章提出了一种新的关联规则挖掘算法:矩阵算法。同Apriori算法相比较,该算法能直接查找高次频繁项集,可以有效地屏蔽Aptiori算法性能瓶颈试验结果表明,当频繁项级较高时该算法比Apriori具有更高的执行效率和性能,并具有良好的可行性。  相似文献   

17.
基于频繁项集特性的Apriori算法的改进   总被引:3,自引:0,他引:3  
高宏宾  潘谷  黄义明 《计算机工程与设计》2007,28(10):2273-2275,2378
Apriori算法是关联规则中一种重要算法.Apriori算法在求出频繁项集的过程中,需要扫描事务项集里的数据.由于事务项集里只是部分数据有用,所以改进算法,缩小所需扫描的事务项集大小,并提出了一种简单的数据结构--树型结构来存储事务项集数据,使得算法在数据集量巨大时,性能得到有效提高,并用实例验证了这些改进能够正确、有效、快速地实现该算法.  相似文献   

18.
基于HMT和哈希树的Apriori并行算法研究   总被引:1,自引:0,他引:1  
为了进一步提高基于HMT和哈希树的Apriori算法的性能,提出了一种基于独立内存并行环境的并行化方案,充分利用空闲的计算资源来提高关联规则数据挖掘的效率.将原始数据集平均分配到并行环境中的各个子计算节点中,在各个子计算节点中并行地进行关联规则支持度计数,并从各个子计算节点中收集合并支持度计数的结果,得到目标频繁项集,进而实现Apriori算法的并行化.实验结果表明,该并行化方案可以很好地提高原算法的效率.  相似文献   

19.
基于Apriori的加权频繁项集挖掘算法存在扫描数据集次数多的问题。为此,提出一种基于动态项集计数的加权频繁项集算法。该算法采用权值键树的数据结构和动态项集计数的方法,满足向下闭合特性,并且动态生成候选频繁项集,从而减少扫描数据集的次数。实验结果证明,该算法生成的加权频繁项集具有较高的效率和时间性能。  相似文献   

20.
用VB对基于Apriori算法的数据挖掘的实现   总被引:4,自引:0,他引:4  
于卫红 《计算机工程》2004,30(2):196-196,F003
Apriori算法是一种最有影响的挖掘关联规则频繁项集的算法。文章以100期彩票的开奖结果作为挖掘对象,利用该算法从中找出相对频繁出现的数字组合,并用VB进行了程序实现。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号