首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 171 毫秒
1.
挖掘频繁项集是许多数据挖掘任务中的关键问题,也是关联规则挖掘算法的核心,提高频繁项集的生成效率一直是近几年数据挖掘领域研究的热点之一.在对关联规则挖 掘中基于Apriori算法的改进算法进行深入分析和研究后,本文根据Apriori算法的不足,提出了一种改进策略,从而得到一种优化的Apriori算法.最后,对频繁项集挖掘算法的发展方向进行了初步的探讨.  相似文献   

2.
频繁项集挖掘算法研究   总被引:2,自引:0,他引:2  
频繁项集挖掘是许多数据挖掘任务中的关键问题,也是关联规则挖掘算法的核心,所以提高频繁项集的生成效率一直是近几年数据挖掘领域研究的热点之一.本文以频繁项集挖掘算法的搜索方式和计数方式为主线,分析频繁项集挖掘中的代表性算法及其中的关键技术和方法,对近年来相关研究的新进展做了介绍和评述,并指出了未来的研究方向.  相似文献   

3.
李广璞  黄妙华 《计算机科学》2018,45(Z11):1-11, 26
关联分析作为数据挖掘的主要研究模块之一,主要用于发现隐藏在大型数据集中的强关联特征。而多数关联规则挖掘任务可分为频繁模式(频繁项集、频繁序列、频繁子图)的产生和规则的产生。前者发现数据集中满足最小支持度阈值的项集、序列与子图;后者从上一步发现的频繁模式中提取高置信度的规则。频繁项集挖掘是许多数据挖掘任务中的关键问题,也是关联规则挖掘算法的核心。十几年来,学者们致力于提高频繁项集的生成效率,从不同的角度进行改进以提高算法效率,大量的高效可伸缩性算法被提出。文中对频繁项集挖掘进行深入分析,对完全频繁项集、闭频繁项集、极大频繁项集的典型算法进行介绍和评述,最后对频繁项集挖掘算法的研究方向进行简要分析。  相似文献   

4.
如何有效地约简频繁项集的数量是目前数据挖掘研究的热点。对频繁项集进行聚类是该问题的解决方法之一。由于生成子是全体频繁项集的无损精简表示,故对生成子进行聚类与对全体频繁项集进行聚类具有相同的效果。提出了一种基于生成子的频繁项集聚类算法。首先,利用最小描述长度原理,讨论了选择生成子进行聚类的合理性;其次,给出了生成子的剪枝策略及挖掘算法;最后,在一种新的项集相似性的度量标准的基础上,给生成子的聚类算法。实验结果表明,该方法可有效地减少项集的数量,并具有较高的挖掘效率。  相似文献   

5.
改进的频繁项集挖掘算法   总被引:1,自引:0,他引:1       下载免费PDF全文
频繁项集挖掘是数据挖掘中的一个重要研究课题。在分析Apriori算法与FP-growth 算法特点的基础上,提出了一种改进的频繁项集挖掘算法,即索引生成频繁项集算法IGFA。IGFA算法基于Apriori算法并通过 “索引二元组”生成候选集,减免了候选集的大量冗余,实验及结果分析表明该算法有效提高了频繁项集的挖掘效率。  相似文献   

6.
提高频繁项集挖掘算法的效率是关联规则挖掘研究的一个重要内容。通过对不产生候选项频繁项集挖掘算法的分析,从子集的划分和局部频繁项集挖掘出发,提出了一种提高频繁项集挖掘算法效率的实现方法。实验表明,该方法对提高频繁项集挖掘算法的效率是有效的。  相似文献   

7.
基于频繁项集挖掘算法的改进与研究   总被引:2,自引:1,他引:1  
关联规则挖掘是数据挖掘领域中重要的研究内容,频繁项集挖掘又是关联规则挖掘中的关键问题之一。针对已有的频繁项集挖掘算法存在的问题,通过对Apriori算法的分析,提出了Inter-Apriori频繁项集挖掘算法。该算法使用交集策略减少扫描数据库的次数,从而使算法达到较高的效率。实验结果表明,Inter-Apriori算法是Apriori算法效率的2~4倍。  相似文献   

8.
频繁项集挖掘算法   总被引:14,自引:1,他引:14  
数据挖掘在最近几年里已被数据库界所广泛研究,而搜索频繁项集是诸如关联规则挖掘,序列模式挖掘等数据挖掘问题中的关键步骤。本文描述了频繁项集挖掘问题的特点,并根据搜索策略对已有各种频繁项集挖掘算法进行了分析和比较。  相似文献   

9.
传统的数据挖掘算法在面向大规模高维数据的挖掘过程中,存在数据特征捕捉准确率低、节点负载不均衡、数据交互频繁、频繁项集紧凑化程度低等问题。提出基于MapReduce的并行挖掘算法PARDG-MR,结合高维数据特征,设计基于维度粒化算法和负载均衡算法的DGPL策略,并对数据进行预处理,以解决高维复杂数据特征属性捕捉困难及数据划分中节点负载不均衡的问题。通过构建基于PJPFP-Tree树的频繁项集并行挖掘策略PARM,实现频繁项集的并行化分组过程,从而提高数据处理的运行效率。在此基础上,提出基于剪枝前缀推论的整合节点剪枝算法PJPFP,提高频繁项集挖掘过程中的剪枝效率,增强频繁项集的紧凑化程度。在Webdocs、NDC、Gisette 3个数据集上的实验结果表明,相比PFP-growth、PWARM、MRPrePost算法,该算法的运行时间平均缩短了约20%,能够有效提高数据挖掘效率且降低内存空间。  相似文献   

10.
随着数据集规模的不断增大,提高频繁项集的挖掘效率成为数据挖掘领域的研究重点。频繁项集的增量更新挖掘算法因其可以利用已挖掘发现的信息提高对新数据集的挖掘效率,成为重要的研究方向。但现有频繁项集增量更新算法大多基于APRIORI算法框架,性能提高有限。最近出现的建立在FP‐T REE等树形结构上的增量更新算法又往往存在树形结构调整困难、已发现频繁项集及树形结构保存效率较低等问题,算法性能有待进一步地提高。对此,通过分析增量挖掘过程中的关键信息,提出了一种基于磁盘存储1项集计数的增量FP_GROWTH算法(IU_FPGROWTH_1COUNTING)。该算法无需保存临时树形结构及临时挖掘结果,可以在原数据集及支持度均发生变化时,减少FP_GROWT H算法对数据集的扫描,提高频繁项集的挖掘效率。在生成以及真实数据集上进行了验证实验以及性能分析,结果表明IU_FPGROWTH_1COUNTING是一种有效的频繁项集增量更新挖掘算法。  相似文献   

11.
尹远  张昌  文凯  郑云俊 《计算机应用》2018,38(12):3438-3443
在数据挖掘中,通过挖掘最大频繁项集来代替挖掘频繁项集可以大大地提升系统的运行效率。针对现有的最大频繁项集挖掘算法的运行时间消耗仍然很大的问题,提出了一种基于DiffNodeset结构的最大频繁项集挖掘(DNMFIM)算法。首先,采用了一种新的数据结构DiffNodeset来实现求交集以及支持度的快速计算;其次,引入一种新的线性复杂度的连接方法来降低两个DiffNodeset在连接过程中的复杂度,避免了多次的无效计算;然后,将集合枚举树作为搜索空间,同时采用多种优化剪枝策略来缩小搜索空间;最后,再结合最大频繁项集挖掘算法(MAFIA)中所使用的超集检测技术来有效地提高算法的准确性。实验结果表明,DNMFIM算法在时间效率方面性能优于MAFIA与基于N-list的MAFIA(NB-MAFIA),该算法在不同类型数据集中进行最大频繁项集挖掘时均有良好的效果。  相似文献   

12.
张月琴  陈东 《计算机工程》2010,36(22):86-87
提出基于事务矩阵挖掘最大频繁项集的方法AFMI,该方法采取迭代精简事务矩阵的方式求解所有事务中的最大频繁项集,从精简后的事务向量交集的子集中搜索最大频繁项集,并运用逻辑运算和剪枝方法提高挖掘效率。基于AFMI方法,研究挖掘滑动窗口数据流最大频繁项集算法AFMI+,该算法可使用户周期性地挖掘当前窗口中的最大频繁项集。实验结果表明,AFMI和AFMI+算法均具有较好的性能。  相似文献   

13.
频繁项集挖掘算法综述   总被引:4,自引:0,他引:4  
该文基于频繁项集挖掘算法的研究现状,采用自底向上遍历搜索、自顶向下遍历搜索和混合遍历搜索的分类方法,对现有的频繁项集挖掘算法进行归纳分类,分析和比较了各类别中具有代表性的挖掘算法,总结每种算法各方面的特性.同时,对一些特殊的频繁项集挖掘算法也作了简单介绍.旨在使读者全面掌握频繁项集挖掘算法目前的研究水平,便于研究者对已有的算法进行改进,提出具有更好性能的新的分类算法,也便于使用者在应用时对算法的选择和使用.  相似文献   

14.
一种挖掘最大频繁项集的深度优先算法   总被引:7,自引:0,他引:7  
最大频繁项集挖掘是许多数据挖掘应用中的重要问题.提出一种新的深度优先搜索最大频繁项集的算法.该算法采用位图数据格式,结合了流行的各种有效剪枝技术,并使用局部最大频繁项集来进行高效的超集存在判断,明显地加速了最大频繁项集的生成,从而降低了CPU时间.  相似文献   

15.
目前提出的频繁项目集挖掘算法大多基于Apriori算法思想,但这类算法会产生巨大的候选集并且重复扫描数据库.本文针对这一问题,给出了一种基于FC-tree的频繁闭项目集挖掘算法Max-FCIA,该算法将频繁项目集存储在哈希表中,节省了程序的搜索时间.此外,利用广度优先搜索和有效的剪枝策略,大大限制了候选项目集的生成,缩小了搜索空间从而提高了程序的性能.实验结果表明该算法是快速有效的.  相似文献   

16.
近几年来,不确定数据广泛出现在传感器网络、Web应用等领域中。不确定数据挖掘已经成为了新的研究热点,主要包括聚类、分类、频繁项集挖掘、孤立点检测等方面,其中频繁项集挖掘是重点研究的问题之一。综述了传统的频繁项集挖掘的两类基本算法,分析了在此基础上提出的适用于不确定数据以及不确定数据流的频繁项集挖掘的方法,并探讨了今后可能的研究方向。  相似文献   

17.
方刚  应宏  熊江  吴元斌 《计算机工程》2010,36(19):87-89
针对现有挖掘算法不能有效提取空间拓扑关联的问题,提出一种交替搜索空间拓扑关联的挖掘算法,适合在海量空间数据中挖掘空间拓扑关联规则。该算法从候选数字区间的两端,用数字递增和递减2种方式产生候选频繁项,实现交替搜索空间拓扑关联规则。在计算支持数时用数字特征减少被扫描的事务数,达到提高挖掘效率的目的。实验结果表明,在空间数据中挖掘空间拓扑关联规则时,该算法比现有算法更快速、有效。  相似文献   

18.
数据流中基于矩阵的频繁项集挖掘   总被引:3,自引:0,他引:3  
挖掘频繁项集是挖掘数据流的基本任务。许多近似算法能够有效地对数据流进行频繁项挖掘,但不能有效地控制内存资源消耗和挖掘运行时间。为了提高数据流频繁项集挖掘的时空效率,通过引入矩阵作为概要数据结构,提出了一种新的数据流频繁项集挖掘算法。最后通过实验证明了该算法的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号