首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 171 毫秒
1.
基于关联图的频繁闭模式挖掘   总被引:1,自引:1,他引:0  
将关联图的数据挖掘思想应用到频繁闭模式的挖掘中,使用位向量的技术简化项集支持度的计算,构造关联图表示项集间的频繁关系.在此基础上,提出一种频繁闭模式挖掘算法,针对频繁闭模式的特点,结合剪枝策略、子集检测策略、搜索策略等技术手段,优化算法性能.实验结果表明,该算法在时间性能上优于经典的频繁闭模式算法CLOSET.  相似文献   

2.
在频繁模式挖掘(FPM)的研究中,为了在海量数据流中有效地挖掘子树结构的频繁模式,根据数据流和子树模式的特点,提出了一种基于数据流的频繁标记闭子树挖掘(SFCLTreeMiner)算法. 该算法首次对动态数据流中频繁标记闭子树的挖掘进行研究,给出了在数据流中标记闭子树集合添加、删除的批量挖掘方法,并结合时间衰减模型,有效保证了结果的时效性. 实验结果表明,该算法在挖掘性能,如挖掘时间和内存占用等方面,比类似算法有较大提高.  相似文献   

3.
在事件序列上挖掘频繁闭情节时,为避免维护频繁情节集,加快挖掘进度,提出基于双向扩展的频繁闭情节挖掘算法BIDEFCE.该算法基于非重叠的最小发生的支持度定义和深度优先搜索策略,在生成新频繁情节的同时,采用向前和向后扩展检查,尽早判断并淘汰非闭情节,将待定情节加入频繁闭情节超集FCE中.然后再对FCE中的情节进行闭合性检查,保留真正的闭情节.该算法避免维护频繁情节集,只需维护频繁闭情节超集,节省存储空间,提高运行效率.实验证实BIDEFCE算法在事件序列上能有效挖掘频繁闭情节.  相似文献   

4.
一种多重最小支持度关联规则挖掘算法   总被引:5,自引:0,他引:5  
针对单一最小支持度挖掘关联规则不能反应不同数据项出现频度与性质的问题,提出了一个基于频繁模式树的多重支持度关联规则挖掘算法MSDMFIA(Multiple minimum Supports for Discover Maximum Fre-quent Item sets Algorithm),根据不同数据项的特点定义多重支持度,通过挖掘数据库中的最大频繁项目集,计算最大频繁候选项目集在数据库中的支持度来发现关联规则.该算法可以解决关联规则挖掘中经常出现的稀少数据项问题,并解决了传统的关联规则挖掘算法中的生成频繁候选集和多次扫描数据库的性能瓶颈.实验结果表明,本文提出的算法在功能和性能方面均优于已有算法.  相似文献   

5.
最频繁项集挖掘决定了文本关联规则挖掘算法的性能,是文本关联规则挖掘中研究的重点和难点。该文分析了当前最频繁项集挖掘方面的不足,改进了传统的倒排表,结合最小支持度阈值动态调整策略,提出了一个新的基于改进的倒排表和集合理论的Top-N最频繁项集挖掘算法。同样,给出了几个命题和推论,并把它们用于该文算法以提高性能,实验结果表明,所提算法的规则有效率和时间性能优于NApriori算法和IntvMatrix算法。  相似文献   

6.
关联规则是数据挖掘研究的一个重要课题 ,而最大频繁项集的生成是影响关联规则挖掘的关键问题 .在已有的频繁集发现算法中 ,DLG算法通过减少事务数据库的扫描次数 ,进而有效减少挖掘过程的I/O代价 .在阐述DLG算法的实现原理与执行过程的基础上 ,为进一步减少候选项集的数量 ,提出一种改进算法DLG .其主要思想是在关联图构造阶段 ,统计每一个频繁项目的入度 ,以此作为剪枝的依据 .性能分析和比较试验的结果表明该算法性能优良  相似文献   

7.
关联规则挖掘算法是通信网告警相关性分析中的重要方法。在处理数量庞大的告警数据库时,算法的效率显得至关重要,而经典的FP-growth算法会产生大量的条件模式树,加权算法MINWAL (O)则需要多次扫描数据库,使得在通信网环境下挖掘关联规则的难度非常大。该文提出了一种高效的基于加权频繁模式树的通信网告警关联规则挖掘算法,算法性能测试表明,该算法与已有的加权关联规则挖掘算法相比较,节约了大量的存储空间,提高了算法的挖掘速度,对通信网的故障诊断和故障定位有着积极的意义。  相似文献   

8.
关联规则是数据挖掘研究的一个重要课题,而最大频繁项集的生成是影响关联规则挖掘的关键问题。在已有的频繁集发现算法中,DLG算法通过减少事务数据库的扫描次数,进而有效减少挖掘过程的I/O代价,在阐述DLG算法的实现原理与执行过程的基础上,为进一步减少候选项集的数量,提出一种改进算法DLG,其主要思想是在关联图构造阶段,统计每一个频繁项目的入度,以此作为剪枝的依据,性能分析和比较试验的结果表明该算法性能优良。  相似文献   

9.
一种基于FP-Growth的改进算法   总被引:1,自引:0,他引:1  
关联规则挖掘由于表达形式简洁、易于解释和理解已成为数据挖掘中的研究热点,对关联规则的研究具有重要的理论价值和现实意义。文章分析频繁项集挖掘算法FP—growth算法,针对算法中存在的效率瓶颈问题,提出了一个改进的挖掘算法。改进后的算法通过投影统计的方法直接得到频繁1-项集的条件模式基,从而减少了FP-growth算法中构造FP—tree和搜索的开销。通过分析,说明改进的算法具有良好的性能。  相似文献   

10.
为减少高昂的计算代价 ,用挖掘最大频繁模式集代替挖掘频繁模式集是近年来提出的一个重要研究策略。由最大频繁模式集可求出所有频繁模式 ,但数量上却可以小几个数量级 ,从而可大大减少计算代价。通过对最大频繁模式挖掘的问题描述 ,以及关键问题的分析 ,针对频繁模式树 (FP- tree)和最大频繁模式的特点 ,给出了基于频繁模式树的最大频繁模式挖掘算法 (MMFP) ,采取先挖掘候选最大频繁模式再判断子集的方法 ,经示例分析表明该算法是有效的。提出的单路径修剪和项目修剪等修剪方法大大减少了侯选最大频繁模式的个数 ,对算法的性能提高起到了关键作用。  相似文献   

11.
频繁模式挖掘中基于FP-growth的算法需要扫描两次事务数据库,预先给定支持度,且不支持时间敏感型数据。本文提出了一种基于频繁模式有向无环图的数据流频繁模式挖掘算法,它根据事务到来的时间给每个事务一个序号,每个事务中的数据项在存储前按数据项的顺序进行调整,频繁模式有向无环图的构建遵循这个顺序并用序号来记录事务与数据项的包含关系,模式增长过程只需要增加有向边上的序号。通过逆向遍历带有相同序号的有向边,产生条件模式基,根据动态定义的阈值抽取条件模式基信息,一次扫描数据库得到频繁模式。实验结果表明,本文算法的执行效率优于FP-growth算法,且存储节点的数目明显减少。  相似文献   

12.
为了进一步提高频繁项集挖掘算法的可扩展性,对频繁项集的搜索空间以及FP-tree的操作方法进行了研究.提出了通过FP-tree的操作实现频繁项集快速挖掘的相关性质和新的搜索策略,在此基础上提出了基于FP-tree的频繁项集挖掘的改进算法.算法运用递增构建候选项集模式树的策略缩小搜索空间,运用FP-tree的部分遍历操作简化搜索过程.在多个标准测试数据集上的实验结果表明,该算法的执行时间比同类算法减少了一个数量级,且占用较少的内存空间,因此该算法对于提高频繁项集和频繁闭项集的挖掘效率具有明显的效果.  相似文献   

13.
为进一步解决对大型数据库进行关联规则挖掘时产生的CPU时间开销大和I/O操作频繁问题,给出一种改进的关联规则挖掘算法(ARMAC).该算法引入有向无环图和tidlist结构用以提高频繁项目集的计算效率,并将数据库划分为内存可以满足要求的若干部分,解决了对大型数据库挖掘时磁盘操作频繁的问题,从而有效地适用于大型数据库的关联规则挖掘.该算法吸取连续关联规则挖掘(CARMA)算法的优势,只需扫描两次数据库便可完成挖掘过程.实验结果表明:该算法在大型事务数据库中具有更高的执行效率.  相似文献   

14.
针对SFP算法在其构造频繁模式树时需扫描数据库两次,算法效率较低的问题,首先提出了一种局部重构树结构OFP,该结构在构造频繁模式时只需要扫描一次数据库即可获取所需信息,同时采用了基于Hash表的辅助存储结构来改进唯一标号图,节省了子图重构时间。然后基于OFP树结构,提出了一种改进的高效频繁模式挖掘算法OSFP。实验结果表明,OSFP算法在内存占用和执行时间上均优于SFP算法。  相似文献   

15.
基于Apriori数据挖掘算法研究   总被引:3,自引:0,他引:3  
关联规则是从数据集中识别出频繁出现的属性值集,然后利用这些频繁集创建描述关联关系的规则过程.在分析经典关联规则挖掘算法的基础上,讨论了经典的Apriori算法,并提出改进的Apriori关联规则算法,对算法进行了实验数据的算法性能分析及运行时间对比.结果表明,改进的算法在运行速度和挖掘性能上都较经典的Apriori算法都有显著提高.  相似文献   

16.
由频繁项集产生的关联规则往往不能保证规则前、后件中的项是正相关的,因此可能产生无意义的关联规则;当这些关联规则用于分类时,会产生大量无用分类规则,增加了时间开销.因此,基于数学期望提出了正相关的频繁项集的分类算法.该算法在挖掘正相关频繁项集时,利用置信度进行规则选取,生成正相关关联规则组成的分类器对数据集进行分类.实验表明,这种分类算法可以大幅度减少所产生的频繁项集数量,分类准确率达到C4.5和CMAR的水平,且显著减少了算法的时间.  相似文献   

17.
传统的基于支持度—置信度框架的关联规则挖掘方法可能会产生大量不相关的、甚至是误导的关联规则,同时也不能区分正负关联规则。在充分考虑用户感兴趣模式的基础上,采用一阶谓词逻辑作为用户感兴趣的背景知识表示技术,提出了一种基于背景知识的包含正负项目集的频繁模式树,给出了针对正负项目集的约束频繁模式树的构造算法NCFP-Construct,从而提高了关联规则挖掘的效率和针对性,实验结果显示该方法是有效的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号