首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
频繁项集的挖掘受到大量候选频繁项集和较高计算花费的限制,只挖掘最大长度频繁项集已满足很多应用。提出一种基于有序FP-tree结构挖掘最大长度频繁项集的算法。即对有序FP-tree的头表进行改造,增加一个max-level域,记录该项在有序FP-tree中的最大高度。挖掘时仅对max-level 大于等于已有最大长度频繁项集长度的项进行遍历,不产生条件模式基,无需递归构造条件FP-tree,且计算出最大长度频繁项集的支持度。实验结果表明该算法挖掘效率高、速度快。  相似文献   

2.
目前已提出了许多基于Apriori算法思想的频繁项目集挖掘算法,这些算法可以有效地挖掘出事务数据库中的短频繁项目集,但对于长频繁项目集的挖掘而言,其性能将明显下降.为此,提出了一种频繁闭项目集挖掘算法MFCIA,该算法可以有效地挖掘出事务数据库中所有的频繁项目集,并对其更新问题进行了研究,提出了一种相应的频繁闭项目集增量式更新算法UMFCIA,该算法将充分利用先前的挖掘结果来节省发现新的频繁闭项目集的时间开销.实验结果表明算法MFCIA是有效可行的.  相似文献   

3.
针对现有的基于垂直格式挖掘频繁项集采用正交的方式两两进行比较耗费大量时间和产生的Tid集可能很大浪费存储空间的问题,提出了一种基于三角矩阵和差集的垂直数据格式挖掘频繁项集的挖掘算法。该算法利用差集解决了对稠密数据集进行频繁项集挖掘时的Tid集可能很大的问题,并且利用一种前提方法判断是否有必要连接产生候选频繁k+1项集,减少时间的开销,而且在存储上用三角矩阵的数据结构可以进一步节省存储空间。实验结果表明,本算法大大减少挖掘频繁项集时间和空间内存的开销。  相似文献   

4.
李广璞  黄妙华 《计算机科学》2018,45(Z11):1-11, 26
关联分析作为数据挖掘的主要研究模块之一,主要用于发现隐藏在大型数据集中的强关联特征。而多数关联规则挖掘任务可分为频繁模式(频繁项集、频繁序列、频繁子图)的产生和规则的产生。前者发现数据集中满足最小支持度阈值的项集、序列与子图;后者从上一步发现的频繁模式中提取高置信度的规则。频繁项集挖掘是许多数据挖掘任务中的关键问题,也是关联规则挖掘算法的核心。十几年来,学者们致力于提高频繁项集的生成效率,从不同的角度进行改进以提高算法效率,大量的高效可伸缩性算法被提出。文中对频繁项集挖掘进行深入分析,对完全频繁项集、闭频繁项集、极大频繁项集的典型算法进行介绍和评述,最后对频繁项集挖掘算法的研究方向进行简要分析。  相似文献   

5.
在理解现有的最大长度频繁项集挖掘问题的定义,探索最大长度频繁项集的几个具体应用后,提出了一种新的基于FP-tree(Frequent Pattern tree)结构的最大长度频繁项集挖掘方法——MLFI算法。该算法仅对初始的FP-tree实现遍历操作,从而完成对最大长度频繁项集的挖掘。在算法整个执行过程中,仅用到了一棵初始的FP-tree。理论分析和实验证明,该算法加快了挖掘速度,提高了挖掘效率。  相似文献   

6.
为了提高经典关联规则Apriori算法的挖掘效率,针对Apriori算法的瓶颈问题,提出了一种链式结构存储频繁项目集并生成最大频繁项目集的关联规则算法.该算法采用比特向量方式存储事务,生成频繁项目集的同时,把包含此频繁项目的事务作为链表连接到频繁项目之后,生成最大频繁项目集.该算法能够减小扫描事物数据库的次数和生成候选项目集的数量,从而减少了生成最大频繁项目集的时间,实验结果表明,该算法提高了运算效率.  相似文献   

7.
数据挖掘中的关联分析技术旨在发现大量数据项集之间有趣的关联关系,其核心问题是寻找频繁项集。针对传统的基于矩阵的关联挖掘算法中矩阵规模和事务数据库大小相关,在处理超大型事务数据库时,仍会存在内存瓶颈的问题,提出了一个矩阵规模和事务数据库大小无关、通过矩阵约束预挖掘后验证的频繁项集发现算法。实验结果显示,该算法提高了频繁项集的挖掘速度。  相似文献   

8.
姜玉泉 《计算机工程与应用》2003,39(24):187-188,201
发现最大频繁项目集是多种数据挖掘应用中的关键问题,目前已经提出了许多算法用于发现最大频繁项目集,而对最大频繁项目集维护问题的研究工作却不多,因此,迫切需要设计高效的算法来更新、维护和管理已挖掘出来的最大频繁项目集,为此,该文提出了一种快速的增量式更新最大频繁项目集算法IUAFI,并举例说明了算法的执行过程。  相似文献   

9.
 Apriori算法在搜索频繁项集过程中,通常需要对数据库进行多次的重复扫描和产生大量无用的候选集,针对此问题提出一种基于矩阵约简的Apriori改进算法。该算法只需扫描一次数据库,将数据库信息转换成布尔矩阵,根据频繁k-项集的性质推出的结论来约简数据结构,有效地降低无效候选项集的生成规模。通过对已有算法的对比,验证该算法能有效地提高挖掘频繁项集的效  相似文献   

10.
挖掘频繁项集是挖掘数据流的基本任务.许多近似算法能够对数据流进行频繁项集的挖掘,但不能有效控制内存资源消耗和挖掘运行时间.为了提高数据流挖掘的效率,通过挖掘数据流中的频繁闭项集来减少挖掘结果项集的数量,并借鉴Relim算法和Manku算法,引入事务链表组作为概要数据结构,提出了一种新的数据流频繁闭项集的挖掘算法.最后通过实验,证明了该算法的有效性.  相似文献   

11.
数据挖掘中关联规则的一种高效Apriori算法   总被引:21,自引:0,他引:21  
在数据挖掘中关联规则的频繁项集计算时,通过一种改进的Apriori算法,即用升序替代原来的按字母次序对项集进行排序,可大大精简候选频繁集,而且能保持频繁集的完整性,减少计算开销。  相似文献   

12.
在数据挖掘研究中,频繁闭项目集挖掘成为重要的研究方向.目前已有的频繁闭项目集挖掘算法主要针对单机环境,有关分布式环境下的全局频繁闭项目集挖掘算法的研究尚不多见.针对无共享体系结构数据水平分布的情况,提出了一种分布式快速挖掘全局频繁闭项目集增量式更新算法,算法通过对各节点候选频繁项目集进行预处理,有效地降低网络通信量,提高全局频繁闭项目集挖掘算法的效率,该算法充分利用前次挖掘结果来发现新的全局频繁闭项目集,具有较高的效率.理论分析和实验结果表明算法是有效的.  相似文献   

13.
快速挖掘分布式数据库全局最大频繁项集   总被引:1,自引:0,他引:1  
何波 《控制与决策》2011,26(8):1214-1218
提出一种快速挖掘分布式数据库全局最大频繁项集算法(FMMH).FMMFI算法首先设置了中心节点,并以各个节点构建局部FP-tree,采用挖掘最大频繁项目集算法(DMHA)快速挖掘局部最大频繁项集;然后与中心节点交互以实现数据汇总:最终获得全局最大频繁项集.FMMFI算法采用自上而下的剪枝策略,能大幅减少候选项集,降低通信量.理论分析和实验结果表明,FMMFI算法是有效的.  相似文献   

14.
目前提出的频繁项目集挖掘算法大多基于Apriori算法思想,但这类算法会产生巨大的候选集并且重复扫描数据库.本文针对这一问题,给出了一种基于FC-tree的频繁闭项目集挖掘算法Max-FCIA,该算法将频繁项目集存储在哈希表中,节省了程序的搜索时间.此外,利用广度优先搜索和有效的剪枝策略,大大限制了候选项目集的生成,缩小了搜索空间从而提高了程序的性能.实验结果表明该算法是快速有效的.  相似文献   

15.
数据流中基于矩阵的频繁项集挖掘   总被引:3,自引:0,他引:3       下载免费PDF全文
挖掘频繁项集是挖掘数据流的基本任务。许多近似算法能够有效地对数据流进行频繁项挖掘,但不能有效地控制内存资源消耗和挖掘运行时间。为了提高数据流频繁项集挖掘的时空效率,通过引入矩阵作为概要数据结构,提出了一种新的数据流频繁项集挖掘算法。最后通过实验证明了该算法的有效性。  相似文献   

16.
王斌  房新秀  吕瑞瑞  马俊杰 《计算机应用研究》2020,37(7):1989-1992,2010
针对基于WN-list 加权频繁项集挖掘算法(NFWI)中挖掘加权频繁项集(FWI)效率低的问题,提出了一种基于WNegNodeset结构的加权频繁项集挖掘算法(NegNFWI)。该算法首先采用了新的数据结构WNegNodeset,它是NegNodeset的扩展,该数据结构采用了一种新的基于集合位图表示的位图加权树(BMW-tree)节点编码模型,通过按位运算符快速提取WNegNodeset的节点集,避免了大量的交集运算;其次采用了差集策略快速计算项集的加权支持度,从而减少了计算量;最后通过仿真实验验证了算法的有效性和可行性。  相似文献   

17.
基于排序矩阵和树的关联规则挖掘算法   总被引:6,自引:0,他引:6  
最大频繁项集的生成是影响关联规则挖掘的关键问题,Apriori算法从大量的候选频繁项集产生频繁项集的过程是非常耗时的过程。本文提出了一种新的算法,该算法结合项集的有序特性构造矩阵,使生成树的每一层结点从左往右按支持度大小升序排列,这样得到的候选频繁项集的集合是最小的,大大减少了候选频繁项集的数量,而且能保持频繁项集的完整性,从而节约了计算开销,提高了算法的效率。  相似文献   

18.
快速更新频繁项集   总被引:52,自引:3,他引:52  
发现频繁项集是数据挖掘应用中的关键问题,发现过程的高花费要求对增量数据挖掘算法进行深入研究,首先分析并指出了增量式更新频繁项集算法的技术难点-寻找新的有效频繁项集,其次提出了一种快速的增量式更新频繁项集算法FUFIA,最后对该算法进行了分析和讨论。  相似文献   

19.
基于改进FP-树的最大项目集挖掘算法*   总被引:1,自引:0,他引:1  
挖掘最大频繁项目集是多种数据挖掘应用中的关键问题。FP-growth算法是目前最有效的频繁模式挖掘算法之一,其在挖掘最大项目集时要递归生成大量的条件FP-树,存在时空效率不高的问题。于是结合改进的FP-树,提出了一种快速挖掘最大项目集的算法。该算法利用改进的FP-树是单向的且每个节点只保留指向父节点的指针,可以节约大量的存储空间;同时引入项目序列集和它的基本操作,使挖掘最大频繁项目集时不生成含大量候选项目的集合或条件FP-树,可以快速地挖掘出所有的最大频繁项目集。实例分析证明所提出的算法是可行的。  相似文献   

20.
频繁闭项目集挖掘是数据挖掘研究中的一个重要研究课题.目前已有的频繁闭项目集挖掘算法主要针对单机环境,有关分布式环境下的全局频繁闭项目集挖掘算法的研究尚不多见.为此,本文提出了一种快速挖掘全局频繁闭项目集算法,并对其更新问题进行了研究;提出了一种相应的频繁闭项目集增量式更新算法,该算法将充分利用先前的挖掘结果来节省发现新的全局频繁闭项目集的时间开销.实验结果表明算法是有效的.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号