首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
如何在海量数据集中提高频繁项集的挖掘效率是目前研究的热点.随着数据量的不断增长,使用传统算法产生频繁项集的计算代价依然很高.为此,提出一种基于Spark的频繁项集快速挖掘算法(fast mining algorithm of frequent itemset based on spark,Fmafibs),利用位运算速度快的特点,设计了一种新颖的模式增长策略.该算法首先采用位串表达项集,利用位运算来快速生成候选项集;其次,针对超长位串计算效率低的问题,考虑将事务垂直分组处理,将同一事务不同组之间的频繁项集通过连接获得候选项集,最后进行聚合筛选得到最终频繁项集.算法在Spark环境下,以频繁项集挖掘领域基准数据集进行实验验证.实验结果表明所提方法在保证挖掘结果准确的同时,有效地提高了挖掘效率.  相似文献   

2.
基于向量的数据流滑动窗口中最大频繁项集挖掘*   总被引:1,自引:1,他引:0  
针对相关算法在挖掘数据流最大频繁项集时所存在的问题,提出了一种基于向量的数据流滑动窗口中最大频繁项集挖掘算法。该算法首先用向量作为概要数据结构,采用定量更新滑动窗口策略解决时间粒度问题;其次通过位运算产生频繁项集,利用矩阵和数组存储辅助信息,深度优先搜索产生最大频繁项集时利用剪枝策略进一步减少挖掘时间;最后用索引链表存储挖掘结果以提高超集检测效率。理论分析和实验结果验证了该算法的有效性。  相似文献   

3.
一种基于矩阵的频繁项集更新算法*   总被引:2,自引:0,他引:2  
针对相关算法在处理频繁项集更新时所存在的问题,提出了一种基于矩阵的频繁项集更新算法。该算法首先以时间为基准将更新后的数据库分为原数据库和新增数据库,分别将它们转换为0-1矩阵,通过矩阵裁剪、位运算产生新增频繁项集,并利用已有频繁项集更新原有频繁项集。实验仿真结果不但证明了该算法的可行性和高效性,而且还证明了它适合大型、稠密性数据库的频繁项集更新。  相似文献   

4.
基于倒排索引位运算的深度优先频繁项集挖掘   总被引:1,自引:0,他引:1  
频繁项集挖掘是关联规则挖掘中的关键任务,非常耗费时间.为提高频繁项集的产生效率,提出一种基于倒排索引位运算的深度优先频繁项集挖掘算法(DF-FIMBII).该算法以二进制数组存储项目到事务的倒排索引,通过位运算计算两个项目的支持计数,并采用深度优先搜索策略递归地挖掘不同的k-频繁项集.在chess、mushroom、pumb_star、T40I10D100K等数据集上,对DF-FIMBII、Apriori、ECLAT、BitTableFI、Index-BitTableFI等算法进行了实验比较.实验结果表明,在数据规模不是非常巨大和支持度较小的情况下,无论数据集的稠密程度如何,DF-FIMBII均具有较好的时间优越性.  相似文献   

5.
针对经典Apriori算法运行效率瓶颈问题,结合位集合占用内存空间少、逻辑运算快的特点,提出一种基于位集合的改进算法ABS.该算法通过一次数据库扫描,构建事务集位集合;采用位集合逻辑“与”运算和位统计操作确定频繁项集;改进连接和剪枝策略,采用位集合的逻辑“或”运算,统计运算结果重复出现次数,生成候选项集.挖掘实例数据库Northwind的频繁项集,对比Apriori算法,改进算法运行时间明显减少.该算法避免了数据库的重复扫描和繁琐的连接减枝操作,进一步提高了Apriori算法的运行效率.  相似文献   

6.
基于矩阵的关联规则挖掘算法   总被引:9,自引:0,他引:9  
文章通过对Apriori算法的思想和性能的分析,提出一种基于矩阵的关联规则挖掘算法。新算法直接通过对布尔矩阵的列向量进行对位“与”运算产生频繁项集,有效地解决了Apriori算法迭代产生频繁项集的瓶颈问题。试验结果表明,新算法比Apriori算法具有更高的效率和性能。  相似文献   

7.
针对Apriori算法的不足,提出基于项数布尔矩阵的改进算法MPIN_Apriori。改进算法运用分治思想将数据集分段处理,使用事务项数进行矩阵压缩并利用向量交运算和先验剪枝直接生成局部频繁k-项集,最终合并为全局频繁k-项集。该算法从根本上改进了Apriori算法频繁迭代的流程,避免了连接运算而且极大减轻了内存负担。实验结果表明在进行大型数据库频繁项集挖掘时其效率明显高于Apriori算法,而且对分布式数据挖掘有参考价值。  相似文献   

8.
针对目前时态关联规则研究中存在的挖掘效率不高、规则可解释性低、未考虑项集时间关联关系等问题,在原有相关研究的基础上,提出一种新的基于频繁项集树的时态关联规则挖掘算法.通过对时间序列数据进行降维离散化处理,采用向量运算生成频繁项集,提高频繁项集挖掘效率.考虑到项集之间的时态关系以及树结构的优势,提出一种新的频繁项集树结构挖掘时态关联规则,其挖掘频繁项集与树结构构建同时进行,无需产生候选项集,提高了规则挖掘效率.实验表明,对比于其他算法,所提出算法在挖掘效率和规则解释性方面效果更好,具有较好的应用前景.  相似文献   

9.
提高频繁项集挖掘算法的效率是关联规则挖掘研究的一个重要内容。通过对不产生候选项频繁项集挖掘算法的分析,从子集的划分和局部频繁项集挖掘出发,提出了一种提高频繁项集挖掘算法效率的实现方法。实验表明,该方法对提高频繁项集挖掘算法的效率是有效的。  相似文献   

10.
基于矩阵的改进的Apriori算法   总被引:4,自引:0,他引:4  
针对Apriori算法的不足之处,提出了基于矩阵的算法,该算法首先将事务数据库用矩阵表示出来,并对矩阵进行处理,找出包含最多项的频繁K-项集,最后再利用矩阵找出从频繁2-项集到频繁K-1项集的所有频繁项集.通过一个实例表明了该算法的具体实现过程,并与其它算法进行比较,阐述了该算法的优缺点.该算法不但充分利用了矩阵这一工具,用"与运算"的方法代替了到数据库中去查找的算法,而且大大减少了候选频繁项集的产生,从而节省了计算频繁项集的时间,提高了计算的效率.  相似文献   

11.
通过对Apriori算法的核心思想进行研究分析,结合Apriori性质,对Apriori中连接的步骤进行了改进.通过该方法,可以有效地减少连接步产生的大量无用项集并减少判断项集子集是否是频繁项集的次数.  相似文献   

12.
一种基于关联规则Apriori算法的改进研究   总被引:1,自引:0,他引:1  
介绍Apriori算法的原理和基础,并对制约Apriori算法效率的瓶颈问题提出一种改进策略,针对该算法的两个缺陷,多次扫描事务数据库并产生大量的候选集,提出一种0-1矩阵的改进算法改变由低维频繁项目集到高维频繁项目集的多次连接运算。此改进算法大大减少了访问数据库的次数,提高系统的运行效率,同时还减少大量的候选集的产生,节约存储空间。  相似文献   

13.
针对Apriori算法存在的不足,提出了一种新的优化Apriori的方法。该方法通过优化频繁项集修剪策略,减少无效候选项集的产生;优化连接策略,减少连接次数,避免相同项目的多次重复比较;结合事务数据库逐步压缩技术,减少对无用事务的扫描次数。实验结果表明,经过优化的Apriori算法具有更好的运行效率。  相似文献   

14.
挖掘关联规则中Apriori算法的研究   总被引:55,自引:0,他引:55  
文章是基于大型销售数据库研究了关联规则挖掘问题 .分析和探讨了 Apriori算法 ,并给出了该算法的实现思想 ,同时通过例子说明算法的执行过程  相似文献   

15.
在关联规则挖掘算法中,Apriori由于多次对数据库进行扫描会产生较多的候选集,在多次扫描数据库的情况下容易产生I/O开销问题,并引起数据挖掘效率低.矩阵关联规则在数据挖掘过程中没有删除非频繁项集,致使存在较多的无效扫描,对于挖掘效率的提高也不明显.该文提出了一种改进的矩阵和排序索引关联规则数据挖掘算法,首先,删除不需...  相似文献   

16.
基于Apriori挖掘算法的改进研究   总被引:1,自引:0,他引:1  
Apriori频繁集算法是比较经典的一种数据挖掘算法,本文针对Apriori算法的瓶颈,提出了一种Apriori_New算法,它通过迅速减小数据库规模从而较大地提高了挖掘效率,当原始数据库规模较大时,此算法效果尤为显著。  相似文献   

17.
关联规则挖掘算法的改进   总被引:2,自引:1,他引:2  
为了提供一种更加准确高效的关联规则算法,在传统的Apriori算法的基础上引入分而治之的理念和加权的思想。先把数据库分成互不相交的块,根据需求分析从每一个块中产生用户感兴趣的子集,把所有的子集合并成挖掘对象,再利用普通的关联规则算法产生频繁项集,最后在该项集的基础上产生加权频繁项集。该算法基本上克服了传统Apriori算法的缺点,从而大大地提高了运算效率,最大限度解决了“项集生成瓶颈”问题,并且使得生成的关联规则更加科学、准确。  相似文献   

18.
Apriori算法的三种优化方法   总被引:35,自引:3,他引:35  
通过对Apriori算法的思想和性能的分析,认为Apriori算法存在以下三点不足:(1)由K阶频繁集生成K+1阶候选频繁集时,在K+1阶候选频繁集中过滤掉非频繁集的策略值得进一步改进;(2)连接程序中相同的项目重复比较太多,因而其效率值得进一步改进;(3)在回扫数据库时有许多不必比较的项目或事务重复比较。根据上述三点不足,提出了相应的三种优化策略来优化Apriori算法,得到一效率较高的改进Apriori算法。  相似文献   

19.
数据挖掘中的关联规则挖掘能够发现大量数据中项集之间有趣的关联或相关联系,特别是随着大量数据不停地收集和存储,从数据库中挖掘关联规则就越来越有其必要性。通过对关联规则挖掘技术及其相关算法Apriori进行分析,发现该技术存在的问题。Apriori算法是关联规则挖掘中的经典算法。对Apriori算法做了改进。借助0—1矩阵给出了计算项集的支持度计数的更快方法,同时还简化了Apriori算法中的连接和剪枝操作,从而在时间和空间上提高了Apriori算法的效率。  相似文献   

20.
赵艳芹  孙昌立 《计算机应用》2009,29(5):1477-1479
针对Apriori关联规则算法需要多次扫描事务数据库及产生的候选集庞大的瓶颈问题,提出一种不产生候选项目集,即可产生项目集的新算法,对数据的处理次数大大减少,提高了挖掘效率。并结合在儿童培训机构客户关系管理(CRM)中客户选择的培训内容的具体应用分析,阐明了基于Apriori改进算法的CRM数据挖掘对于儿童培训机构增强竞争优势的重要意义。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号