首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 296 毫秒
1.
基于关联图的频繁闭模式挖掘   总被引:1,自引:1,他引:0  
将关联图的数据挖掘思想应用到频繁闭模式的挖掘中,使用位向量的技术简化项集支持度的计算,构造关联图表示项集间的频繁关系.在此基础上,提出一种频繁闭模式挖掘算法,针对频繁闭模式的特点,结合剪枝策略、子集检测策略、搜索策略等技术手段,优化算法性能.实验结果表明,该算法在时间性能上优于经典的频繁闭模式算法CLOSET.  相似文献   

2.
王璇 《丹东纺专学报》2011,(2):154-158,163
将关联图的数据挖掘思想应用到频繁闭模式的挖掘中,使用位向量的技术简化项集支持度的计算,构造关联图表示项集间的频繁关系。在此基础上,提出一种频繁闭模式挖掘算法,针对频繁闭模式的特点,结合剪枝策略、子集检测策略、搜索策略等技术手段,优化算法性能。实验结果表明,该算法在时间性能上优于经典的频繁闭模式算法CLOSET。  相似文献   

3.
在频繁模式挖掘(FPM)的研究中,为了在海量数据流中有效地挖掘子树结构的频繁模式,根据数据流和子树模式的特点,提出了一种基于数据流的频繁标记闭子树挖掘(SFCLTreeMiner)算法. 该算法首次对动态数据流中频繁标记闭子树的挖掘进行研究,给出了在数据流中标记闭子树集合添加、删除的批量挖掘方法,并结合时间衰减模型,有效保证了结果的时效性. 实验结果表明,该算法在挖掘性能,如挖掘时间和内存占用等方面,比类似算法有较大提高.  相似文献   

4.
在关联规划挖掘理论研究上,首次给出了项目序列集格空间,并且探讨了在这个空间上的基本操作算子、基于项目序列集格空间及其操作,建立了关联规则挖掘模型.在关联规则挖掘算法方面,设计了基于项目序列集操作理论的关联规则挖掘算法SIS,该算法执行时间整体上优于Apriori算法,而且随着数据量的增大,该算法执行时间的增长幅度也小于Apriori算法.  相似文献   

5.
在许多场合挖掘频繁闭合序列时,输入串数据库呈现实时动态增长的特点.分析Bide算法,给出并证明了闭合序列前缀中任意一个项目的后向扩展事件(BEE)项目交集随前缀的生长单调不增的定理,据此对BEE累计操作进行了优化,使其性能平均提高了48%.定义了闭合序列树作为频繁闭合序列的表示形式,并阐述了它的3个性质.分析发现,当新增输入串不同时包含前缀串和频繁项目时,两次连续挖掘的结果是相同的,给出了相应的定理和证明,据此实现了增量式频繁闭合序列挖掘算法BideInc.实验验证了BideInc算法的正确性,使用该算法后挖掘性能平均提高了47%.  相似文献   

6.
通过对Apriori算法的频繁项目集的分析研究,给出了基于图的频繁项集挖掘算法.该算法在求频繁K-项集的过程中只需一次扫描数据库,避免了Apriori算法需多次扫描数据库的不足。同时,由于在有向图中利用有限节点之间的路径求频繁K-项集,该算法减少了Apriori算法中需多次进行连接运算的不足。  相似文献   

7.
挖掘告警序列间关联规则的算法都受到最小支持度的限制,仅能够得到频繁告警序列间的关联规则. 对此,提出了一种以高相关度、高置信度为条件,通过聚类找到特征相同的网元告警群,然后基于相关度统计的挖掘算法. 实验结果表明,该算法可以高效、准确地挖掘出电信网络告警数据库中频繁和非频繁告警序列间的关联规则.  相似文献   

8.
为了进一步提高频繁项集挖掘算法的可扩展性,对频繁项集的搜索空间以及FP-tree的操作方法进行了研究.提出了通过FP-tree的操作实现频繁项集快速挖掘的相关性质和新的搜索策略,在此基础上提出了基于FP-tree的频繁项集挖掘的改进算法.算法运用递增构建候选项集模式树的策略缩小搜索空间,运用FP-tree的部分遍历操作简化搜索过程.在多个标准测试数据集上的实验结果表明,该算法的执行时间比同类算法减少了一个数量级,且占用较少的内存空间,因此该算法对于提高频繁项集和频繁闭项集的挖掘效率具有明显的效果.  相似文献   

9.
为了解决大规模环境下的细粒度访问控制问题,挖掘出易于人工阅读、契合主体行为模式、精确完备的基于属性的访问控制(ABAC)策略,从而为安全管理员进行策略构建、维护和优化提供有力支撑,提出基于日志的富语义ABAC策略挖掘方法. 该方法基于频繁模式挖掘算法,从访问日志和属性数据中挖掘契合主体行为模式的ABAC策略. 对策略进行正确性和语义质量分析获得富语义ABAC策略集. 通过交叉验证方法对策略集的精确性和完备性进行验证,算法在公开数据集上的F1得分为0.8375,在手写数据集上的F1得分为0.9394. 在手写数据集上的验证表明,算法可以在较小训练集上得到比现有算法更高质量的策略集,所得授权规则在易读性方面有所提升.  相似文献   

10.
频繁项集挖掘是关联规则挖掘的重要内容,而现有的频繁项集挖掘算法在数据库扫描和复杂数据结构构建方面消耗过多的时间,效率较低。为克服现有频繁项集挖掘算法的不足,提出了基于随机相遇的频繁项集挖掘算法。在随机相遇过程中,不断从原始事务集中随机挑选两条事务,将其交集作为新事务集中的元素,通过计算新事务集中最小支持度与原事务集中最小支持度的关系,将在原事务集上的频繁项集挖掘转化为在新事务集上的频繁项集挖掘,算法的时间复杂度和空间复杂度大大降低。由于随机样本蕴含原始数据集的主要统计特性,新事务集具有原事务集的统计特性,通过调整参数,算法在新事物集上挖掘结果的准确度可以得到保证。并利用一个零售超市的交易数据对该算法的有效性进行了测试。测试结果表明,该算法能将挖掘速度提升数十倍,同时挖掘结果的准确度和其它算法相差不大。  相似文献   

11.
为了挖掘到有价值的信息,需要挖掘多维数据流上的频繁项目集,因此引入多维项目和多维项目集的概念表示多维数据流上的项目.设计了一种紧凑、压缩的数据结构MaxFP-Tree用于维护多维项目集,并在MaxFP-Tree的基础上设计了挖掘多维数据流上最大频集的增量式更新算法.实验结果表明,设计的挖掘多维数据流中最大频集的模型和算法是高效的.  相似文献   

12.
大数据环境下频繁项集挖掘的研究   总被引:1,自引:0,他引:1  
多种频繁项集挖掘(FIM)方法组合用来对大数据进行挖掘会暴露很多问题。针对暴露的问题,在MapReduce平台上对两种频繁项集挖掘算法进行了研究。采用两种新的大数据集挖掘方法:Dist-Eclat和BigFIM,前者侧重于速度,利用基于k-FIs的简易负荷平衡方案来解决问题。而后者通过先验变体对k-FIs进行挖掘后将找出的频繁项集分配给映射程序,通过优化后在真正大的数据集上运行。最后通过实验证明该方法时间复杂度较低,数据量越大优势将越明显,扩展效果越好。  相似文献   

13.
序列挖掘算法产生冗余序列,造成其运行时间过长.对此,提出了一种新的闭合序列挖掘算法——时序关系下的闭合序列模式挖掘算法.依据闭合序列模式的性质,通过比较频繁序列与每个1-项频繁序列之间的时序关系,推断频繁序列模式是否可扩展.基于IBM公司的合成数据,将其与闭合序列模式挖掘算法进行比较,实验结果表明,这种新的闭合序列挖掘算法可以有效降低运行时间且不易受到属性值个数的影响.  相似文献   

14.
一种多重最小支持度关联规则挖掘算法   总被引:5,自引:0,他引:5  
针对单一最小支持度挖掘关联规则不能反应不同数据项出现频度与性质的问题,提出了一个基于频繁模式树的多重支持度关联规则挖掘算法MSDMFIA(Multiple minimum Supports for Discover Maximum Fre-quent Item sets Algorithm),根据不同数据项的特点定义多重支持度,通过挖掘数据库中的最大频繁项目集,计算最大频繁候选项目集在数据库中的支持度来发现关联规则.该算法可以解决关联规则挖掘中经常出现的稀少数据项问题,并解决了传统的关联规则挖掘算法中的生成频繁候选集和多次扫描数据库的性能瓶颈.实验结果表明,本文提出的算法在功能和性能方面均优于已有算法.  相似文献   

15.
针对频繁项集挖掘算法中多次扫描数据库、生成大量无效频繁项集的问题,提出一种基于倒排索引和二维数组的挖掘算法。通过一次扫描数据库建立包含事务的倒排索引,解决多次扫描数据库的问题。在二维数组存储候选频繁项集时,引入标志位约束,避免产生大量无效的频繁项集。与其他算法在不同规模的数据集上进行性能比较,发现算法在数据集超过25万时执行效率优于其他算法。通过实验验证了所提出算法的高效性和可行性。  相似文献   

16.
在对Apriori算法的特性进行详细的介绍和总结的基础上,提出一种新的不产生候选项集的,以及只进行少量数据库扫描的挖掘频繁项集的算法SI-tree(Supper-Item Tree),该算法通过搜索数据库和一次性地找出当前项的所有超集来查找频繁项集.最后通过实验对2种算法进行了比较.  相似文献   

17.
序列模式挖掘算法多是利用了关联规则挖掘中的 Apriori特性 .利用灰关联方法对原始序列 进行净化处理 ,从而减少挖掘算法中的噪声数据 . 其理论依据在于 ,如果一个序列是频繁的 ,那么该序列的时间间隔也必然是频繁的. 利用了灰关联分析方法找出两个项之间的频繁时间间隔 ,再利用该间隔扫描事务序列数据库 ,从而最终找出频繁序列 .  相似文献   

18.
与布尔型数据的频繁模式挖掘相比,时间序列的频繁模式挖掘是一个相对复杂的问题,目前对此类问题还缺少深入的研究.通过对小波滤波的研究,提出了一种时间序列的频繁模式挖掘算法,Frequent-Wavelet算法.该算法的特点是采用多孔平滑滤波器组对时间序列做低通平滑处理,用得到的多个尺度序列表示原序列,较好地解决了时间序列的平凡相似问题和时间轴伸缩问题.实验表明,Frequent-Wavelet算法对于时间序列的频繁模式挖掘具有较好的效果.  相似文献   

19.
基于FP-Growth算法在不产生侯选项集的情况下产生所有的频繁项集的思想上提出一种多维关联规则挖掘方法。该方法以数据立方体下的多维数据为研究对象,通过挖掘频繁谓词集发现多维关联规则,并通过理论和实例验证的方法证明了该方法的可行性。  相似文献   

20.
一种序列模式的概念及挖掘算法   总被引:2,自引:1,他引:1  
介绍了一种时间序列模式的形式和概念,讨论了其相关的挖掘算法,将时间序列模式既用于具有时间关系的购买行为的分析,以揭示购买行为后面一种序列关系信息,又用于其他有时间关联的事件分析,挖掘算法由以下几部分构成:建立频繁物品集,进行数据处理和转换,并生成修选子序列,通过验证后,得到长度为2,3,…的序列集合,从中选出独立最大序列即为所求,通过实例指出了该算法和传统的Aprioriall算法的不同之处。结果表明,这种序列模式在网络通信、气象分析等领域具有广阔的应用前景。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号