首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
关联规则挖掘是数据挖掘的一项重要技术,它主要是通过频繁闭项集挖掘得到关联规则。因此,频繁项集挖掘算法的性能对关联规则挖掘算法起到了决定性的作用。基于数据流的频繁闭项集挖掘能针对数据流有效地挖掘频繁闭项集,本文主要分析基于数据流的频繁闭项集挖掘算法及其在关联规则挖掘中的应用。  相似文献   

2.
数据流中频繁闭项集的近似挖掘算法   总被引:4,自引:0,他引:4       下载免费PDF全文
刘旭  毛国君  孙岳  刘椿年 《电子学报》2007,35(5):900-905
在数据流中挖掘频繁项集得到了广泛的研究,传统的研究方法大多关注于在数据流中挖掘全部频繁项集.由于挖掘全部频繁项集存在数据和模式冗余问题,所以对算法的时间和空间效率都具有更大的挑战性.因此,近年来人们开始关注在数据流中挖掘频繁闭项集,其中一个典型的工作就是Moment算法.本文提出了一种数据流中频繁闭项集的近似挖掘算法A-Moment.它采用衰减窗口机制、近似计数估计方法和分布式更新信息策略来解决Moment算法中过度依赖于窗口和执行效率低等问题.实验表明,该算法在保证挖掘精度的前提下,可以比Moment获得更好的效率.  相似文献   

3.
一种频繁项目集的快速挖掘算法   总被引:2,自引:2,他引:0  
关联规则是当前数据挖掘研究的主要领域之一,发现频繁项目集是关联规则数据挖掘中的关键问题。文章提出了一种快速挖掘频繁项目集的新方法FMFI(Fast Mining Frequent Itemsets)。针对关联规则下频繁项目集的特性,该算法摆脱了传统的自底向上的搜索策略,而采取了自底向上和自顶向下相结合的双向搜索方式,从而降低了扫描数据库的次数,提高了挖掘效率。  相似文献   

4.
对关联规则挖掘Apriori算法的进一步改进   总被引:4,自引:0,他引:4  
本文对关联规则挖掘问题进行了介绍。并在分析研究了关联规则挖掘Apriori算法厦其若干改进算法的基础上,对Apriori算法做了进一步地改进,提出了RIAprlori算法。改进后的算法采用事务压缩的方法时事务集进行了更大幅度的压缩。减小了不必要的开销,从而提高了挖掘速度。  相似文献   

5.
关联规则的研究是数据挖掘中的重要问题,如何高效地发现频繁项集是关联规则研究中的关键问题.根据数据库事务的统计性规律,在最大频繁项集发现算法Apriori及其变种算法的基础上,提出一种新的基于层次的最大频繁项集的发现算法.首先从整体上判断候选集的频繁性,然后在发现最大频繁项集的过程中,通过引入整体性策略、排序策略、最小策略有效地减少了候选集与数据库事务之间的比较次数.实验结果表明,采用该算法处理数据库事务数量大的最大频繁项集的发现任务,其效率相比Apriori算法有显著的提高.  相似文献   

6.
关联规则的研究是数据挖掘中的重要问题,如何高效地发现频繁项集是关联规则研究中的关键问题。根据数据库事务的统计性规律,在最大频繁项集发现算法Apriori及其变种算法的基础上,提出一种新的基于层次的最大频繁项集的发现算法。首先从整体上判断候选集的频繁性,然后在发现最大频繁项集的过程中,通过引入整体性策略、排序策略、最小策略有效地减少了候选集与数据库事务之间的比较次数。实验结果表明,采用该算法处理数据库事务数量大的最大频繁项集的发现任务.其效率相比Aoriori算法有显著的提高。  相似文献   

7.
最大频繁项集的高效挖掘   总被引:11,自引:5,他引:6  
提出了一种基于布尔矩阵的最大频繁项集挖掘算法MBA(Mining Boolean Array for maximal frequent itemsets),通过将FP-tree映射成布尔矩阵和权值表,运用布尔逻辑运算进行矩阵投影操作得到最大频繁项集。运算效率得到很大提高。  相似文献   

8.
为了观察网络用户浏览行为以研究用户偏爱的浏览模式集和个人兴趣,本文采用频繁链表结合存取树的增量式结构,使用捕获的网络用户浏览轨迹构建、更新该结构并使用同类合并的思想挖掘该结构以获得用户偏爱浏览模式集。实验通过对比本算法与GSP算法在同一测试集上的更新和挖掘情况,证明本算法在准确度和效率上都大幅领先。同时,该算法也为后续的长期观察研究提供了理论基础。  相似文献   

9.
基于频繁集的多层次交互式关联规则挖掘   总被引:2,自引:1,他引:1  
文章研究了一种知识发现与数据挖掘中关联规则的发现方法,针对现有大型超市销售事务数据库,提出了一种新的多层次信息获得取方法。运用关联规则挖掘所产生的频繁集对数据压缩表示,并给出了按用户的实际需求交互式挖掘感兴趣关联规则的算法。该算法在挖掘速度和效率上有较大提高。  相似文献   

10.
刘波  潘久辉 《电子学报》2007,35(8):1612-1616
关联规则挖掘是数据挖掘领域中重要的研究分支,频繁项集或频繁谓词集的计算是其中的关键问题.本文针对包括多值属性的关系数据库,以多维关联规则挖掘为目标,研究频繁谓词集的计算方法,提出了MPG算法及IMPG增量算法.MPG算法通过构建频繁模式图MP-graph,按照深度优先搜索方法,动态挖掘频繁谓词集,只需扫描数据库一次.此外,该方法至多增加一次数据库扫描,就能扩展为IMPG算法,进行增量关联规则挖掘.文章分析了算法时间和空间性能,用实验说明了算法的有效性.  相似文献   

11.
频繁项集快速挖掘及更新算法   总被引:2,自引:0,他引:2  
为了克服Apriori发现频繁项集存在的问题,提出了一种基于三维项集矩阵和向量(TIMV)的频繁项集挖掘算法.该算法摆脱了Apriori框架的束缚,仅需扫描数据库一次,不产生候选项目集.当事务数据库和最小支持度发生变化时,该算法只需重新遍历一次项集矩阵,即可得到新的频繁项集.实验结果表明,算法能有效提高频繁项目集的挖掘和更新效率.  相似文献   

12.
提出了一种基于布尔矩阵的最大频繁项集挖掘算法,通过将FP-tree映射成布尔矩阵和权值表,运用布尔逻辑运算进行矩阵投影操作得到最大频繁项集,算法在挖掘过程中不用生成最大频繁候选项集,从而大大提高了算法的时间效率和空间可伸缩性。  相似文献   

13.
频繁闭合模式集可惟一确定频繁模式完全集且数据量要小几个数量级。根据分布式数据流的特点,提出了一种挖掘频繁闭合项集的算法,该算法采用K叉树形结构,以叶子节点接收各条数据流,创建DSFCI_tree结构来存贮各条数据流中的每段闭合模式,然后逐层往上合并更新,从而在根节点可得整个分布式数据流的频繁闭合模式。  相似文献   

14.
提出一种基于极大完全子图的最大频繁项集并行挖掘算法PMFIM,通过遍历由频繁2-项集构成的用邻-接矩阵表示的图,寻找图的极大完全子图,从而由极大完全子图顶点序列实现对项集的划分,即挖掘子任务的划分.在同类算法中,将找到的最大频繁项划分为局部最大频繁项集LMFI、可能最大频繁项集PMFI和邻接项集的最大频繁项集的超集SMFI,减少了该类算法合并最大频繁项集的开销,并对算法进行了实现和优化.  相似文献   

15.
提出了一种基于频繁模式矩阵(FP-array)的约束最大频繁项目集挖掘及其更新算法。算法只扫描事务数据库一遍,把满足约束条件的所有事务转换成一个频繁模式矩阵,显著缩小了FP-array的大小规模。挖掘过程采用逻辑运算,在效率上有独特的优势。实验结果表明该算法是快速有效的。  相似文献   

16.
提出基于因子项集的并行化策略GP以发挥串行算法的剪枝功效。其基本思想是利用因子项集的完全包含关系在处理机之间贪心分配等价类,根据等价类的需要相应地划分和复制数据库记录,使各处理机得以异步计算,达到较好的负载平衡、较高的剪枝效率和较少的数据库记录复制,缩短算法的执行时间。分析和实验表明,基于GP策略的并行算法有较好的可扩展性,其性能优于已有同类算法。  相似文献   

17.
讨论了一个关于布尔关联规则挖掘的不产生候选项集的挖掘算法 ,做了一些提高算法性能的改进 ,并对其性能进行了测试。  相似文献   

18.
提出了一种进行图像关联规则提取时产生频繁项集的方法——频繁项树.为便于频繁项树的运用,使用了bSQ的图像数据格式来重新组织图像数据,并在此基础上提出了频繁项树的截断、半深度优先、图像掩模和多层次灰度范围自动生成等优化技术,降低了算法的时间和空间复杂度,使其具有较高的运行效率和实用价值.  相似文献   

19.
随着数据量的增长,隐私保护的问题也愈发突出,文中是介绍了目前数据挖掘过程中隐私保护相关的基本技术,提出了一种数据集中式分布下布尔数据集的关联规则的挖掘算法,此方法在实现了隐私保护的同时,通过与或运算实现了数据集的压缩。相关实验数据表明,该算法有效减少了挖掘时间,并保证了误差在可接受的范围之内。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号