首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 281 毫秒
1.
本文在对关联规则挖掘中Apriori算法的深入研究和分析的基础上,发现并指出了该算法存在的不足,改进了在由K阶频繁项集生成K+1阶候选项集时的连接和剪枝策略及对事务数据库的处理方式,它在时间和空间上提高了Apriori算法的效率。根据改进后的算法提出了入侵检测方法,该方法实现了规则库的自动更新,极大地提高了系统的安全性和可靠性。实验结果表明,该方法明显提高了频繁项目集的生成效率,入侵检测系统知识规则库的生成效率也得到改善。  相似文献   

2.
关联规则挖掘中Apriori算法的研究与改进   总被引:5,自引:0,他引:5  
崔贯勋  李梁  王柯柯  苟光磊  邹航 《计算机应用》2010,30(11):2952-2955
经典的产生频繁项目集的Apriori算法存在多次扫描数据库可能产生大量候选及反复对候选项集和事务进行模式匹配的缺陷,导致了算法的效率较低。为此,对Apriori算法进行以下3方面的改进:改进由k阶频繁项集生成k+1阶候选频繁项集时的连接和剪枝策略;改进对事务的处理方式,减少Apriori算法中的模式匹配所需的时间开销;改进首次对数据库的处理方法,使得整个算法只扫描一次数据库,并由此提出了改进算法。实验结果表明,改进算法在性能上得到了明显提高。  相似文献   

3.
根据Apriori算法的原理,提出一种具有跳跃式前进与回退补齐的改进算法J_Apriori。计算频繁K项集后,求出未剪枝的候选2K项集。在满足跳跃式前进策略的条件下先求出频繁2K项集,则2K项集的所有(K+1)至(2K-1)项子集不需要再扫描庞大的数据集,可以直接加入到频繁项集中,然后再回退补齐那些不是2K项集的子集的频繁项集。改进的算法减少了扫描数据集的次数。实验表明改进的算法有效地提高了Apriori算法的效率。  相似文献   

4.
高效的关联规则挖掘算法   总被引:2,自引:0,他引:2  
针对Apriori算法多次扫描数据库且生成的候选项集数量大的缺陷,提出了一种数据库优化策略,并结合修剪频繁集和连接优化策略,得到一种新的关联规则挖掘算法-NApriori算法.该算法减小了数据库的规模以及候选项集的数目,避免了连接过程中相同项目的重复比较.实验表明此方法比Apriori算法有更好的性能.  相似文献   

5.
关联规则反映了大量数据中项集间的相互依存性和关联性。Apriori算法是关联规则挖掘中的经典算法,目前已有很多的改进版本,但大多存在多次扫描数据库,项集生成瓶颈和模式匹配频繁的问题,算法效率比较低。本文深入的分析研究关联规则Apriori算法,改进候选频繁项目集的连接和剪枝策略,改进对事务的处理方式,减少模式匹配所需的时间开销,并给出了改进算法。  相似文献   

6.
关联规则挖掘Apriori算法的研究与改进   总被引:7,自引:1,他引:6  
关联规则挖掘是数据挖掘研究领域中的一个重要任务,旨在挖掘事务数据库中有趣的关联.Apriori算法是关联规则挖掘中的经典算法.然而Apriori算法存在着产生候选项目集效率低和频繁扫描数据等缺点.对Apriori算法的原理及效率进行分析,指出了一些不足,并且提出了改进的Apriori_LB算法.该算法基于新的数据结构,改进了产生候选项集的连接方法.在详细阐述了Apriori_LB算法后,对Apriori算法和Apriori_LB算法进行了分析和比较,实验结果表明改进的Apriori_LB算法优于Apriori算法,特别是对最小支持度较小或者项数较少的事务数据库进行挖掘时,效果更加显著.  相似文献   

7.
一种结合完全连接的改进Apriori算法   总被引:4,自引:0,他引:4  
骆嘉伟  王艳  杨涛  吴君浩 《计算机应用》2006,26(5):1174-1177
基于Apriori算法原理,提出一种有效的完全连接条件,在频繁2k-项集的集合L2k进行自身Apriori连接得频繁(2k+1)-项集的同时,自身完全连接产生未剪枝的候选4k-项集;对频繁(2k+1)-项集的集合L2k+1,直接对其项集进行完全连接产生未剪枝的候选(4k+2)-项集。改进的算法减少了连接的比较次数、迭代运算次数。实验表明该算法在保证无遗漏的情况下有效地提高了Apriori算法的挖掘速度。  相似文献   

8.
一种基于单事务项集组合的频繁项集挖掘算法   总被引:2,自引:0,他引:2  
曾波 《计算机科学》2008,35(1):196-197
Apriori是挖掘频繁项集的基本算法,目前该算法及其优化变种都没有解决候选项及重复扫描事务数据库的问题.文章通过对Apriori及其优化算法的深入探究,提出了一种基于单事务组合项集的挖掘算法,该算法在一个事务内部对"数据项"进行组合,在事务数据库中对所有相同"项集"进行计数.不经过迭代过程,不产生候选项集,所有频繁项集的挖掘过程只需对事务数据库一次扫描,提高了频繁项集挖掘效率.  相似文献   

9.
针对经典Apriori算法运行效率瓶颈问题,结合位集合占用内存空间少、逻辑运算快的特点,提出一种基于位集合的改进算法ABS.该算法通过一次数据库扫描,构建事务集位集合;采用位集合逻辑“与”运算和位统计操作确定频繁项集;改进连接和剪枝策略,采用位集合的逻辑“或”运算,统计运算结果重复出现次数,生成候选项集.挖掘实例数据库Northwind的频繁项集,对比Apriori算法,改进算法运行时间明显减少.该算法避免了数据库的重复扫描和繁琐的连接减枝操作,进一步提高了Apriori算法的运行效率.  相似文献   

10.
基于改进Apriori算法的关联规则挖掘研究   总被引:2,自引:2,他引:2  
关联规则挖掘研究是数据挖掘研究的一项重要的内容。经典的关联规则提取算法——Apriori算法及其改进算法存在着一些不足,一是会产生大量的候选项目集,二是在扫描数据库时需要很大的I/O负载。通过对关联规则产生过程的实际实验分析发现,可以采取利用频繁k-1项集Lk-1对候选k项集Ck进行预先剪枝、及在扫描数据库过程中忽略对频繁项集的产生无贡献的交易记录的方法来改进关联规则提取的效率。  相似文献   

11.
基于数组的关联规则挖掘算法   总被引:12,自引:0,他引:12  
孟祥萍  钱进  刘大有 《计算机工程》2003,29(15):98-99,109
提高频繁项集挖掘算法的效率是关联规则挖掘研究的一个重点领域。文章提出了基于数组的关联规则挖掘算法,只需要扫描数据库1次,通过不断减少数据库中的事务个数,并且利用一维数组对候选2-项集进行计数来提高挖掘效率。实验表明,该文所提出的算法效率比经典Apriori算法快2~3倍。  相似文献   

12.
基于日历的时序关联规则挖掘算法   总被引:2,自引:0,他引:2  
崔晓军  薛永生 《计算机应用》2006,26(8):1898-1899
以日历格作为框架来研究时序关联规则,提出了一个有效的挖掘算法。在用户指定的日历模式下,首先通过一次扫描产生所有的频繁2项集及相应的1*日历模式,在此基础上产生k*日历模式,并利用聚集性质产生候选K项集及相应的日历模式,最后扫描事务数据库产生所有的频繁项集及其日历模式。实验证明,该算法具有较好的性能。  相似文献   

13.
Apriori算法中频繁项集挖掘实现研究   总被引:3,自引:0,他引:3  
在数据挖掘中,关联规则是发现知识的一种有效方法,而频繁项集的挖掘是关联规则中发现强规则的基础,其中连接与剪枝是逐层迭代求解k-项频繁集的核心算法。因此,文中主要介绍了基于连接与剪枝挖掘频繁项集的实现过程,并通过挖掘对传统购物篮数据中的频繁项集进行了验证,结果是一致的。算法的有效性也为进一步挖掘关联规则中的强规则提供了基础。  相似文献   

14.
王红梅  胡明 《计算机应用》2013,33(11):3045-3048
Apriori算法是频繁项集挖掘的经典算法。针对Apriori算法的剪枝操作和多次扫描数据集的缺点,提出了基于散列的频繁项集分组(HFG)算法。证明了2-项集剪枝性质,采用散列技术存储频繁2-项集,将Apriori算法剪枝操作的时间复杂度从O(k×|Lk|)降低到O(1);定义了首项的子项集概念,将数据集划分为以Ii为首项的数据子集并采用分组索引表存储,在求以Ii为首项的频繁项集时,只扫描以Ii为首项的数据子集,减少了对数据集扫描的时间代价。实验结果表明,由于HFG算法的剪枝操作产生了累积效益,以及分组扫描排除了无效的项集和元组,使得HFG算法在时间性能方面与Apriori算法相比有较大提高。  相似文献   

15.
基于子规则的关联规则生成算法   总被引:4,自引:0,他引:4  
关联规则是数据挖掘中重要的课题之一。传统的由频繁项目集产生关联规则的方法由于要考虑频繁项目集的每一个非空子集,当频繁项目集的长度较长时代价较大。文中提出用K项子频繁项目集导出关联规则以后得到的有用信息以指导K 1项父频繁项目集产生强关联规则,由于利用了前面已有的有用信息,当频繁模式长度很长时,或者可信度较高时,效率尤其显著。  相似文献   

16.
传统的数据挖掘算法在挖掘频繁项集时会产生大量的冗余项集,影响挖掘效率。为此,提出一种基于矩阵的数据流Top-k频繁项集挖掘算法。引入2个0-1矩阵,即事务矩阵和二项集矩阵。采用事务矩阵表示滑动窗口模型中的事务列表,通过计算每行的支持度得到二项集矩阵。利用二项集矩阵得到候选项集,将事务矩阵中对应的行做逻辑与运算,计算出候选项集的支持度,从而得到Top-k频繁项集。把挖掘的结果存入数据字典中,当用户查询时,能够按支持度降序输出Top-k频繁项集。实验结果表明,该算法在挖掘过程中能避免冗余项集的产生,在保证正确率的前提下具有较高的时间效率。  相似文献   

17.
介绍关联规则挖掘中的经典算法——Apriori算法的关键思想。针对传统Apriori算法效率上的不足,提出一种改进的Apriori算 法——Ec-Apriori算法。该算法采用划分的方法,按照频繁1-项集支持度对数据库进行划分,在各自独立的子数据库上运用等价类的方法生成候选集,优化连接操作,同时利用位对象操作简化支持度的计算,较好地提高了算法效率。实验结果表明,改进后的算法具有较好的有效性。  相似文献   

18.
该文在对关联规则挖掘中Apriori算法的深入研究和分析的基础上,发现并指出了该算法存在的不足,并对其进行以下三方面改进:改善候选项集支持度的计算方法;缩小候选项集的生成规模;减少对数据库的扫描次数。实验结果表明,改进算法性能得到了明显提高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号