首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
由于不确定性数据大量存在于传感器网络,移动计算,军事,电信等应用领域,传统的频繁项集挖掘算法难以适用到不确定性数据挖掘。为了解决这个问题,本文提出了一种快速有效的算法,该算法基于可能世界模型,只需要扫描一次数据库,且没有建树的过程,通过实验证明,我们提出的算法比UF_Growth算法效率更高。  相似文献   

2.
基于频繁项集挖掘最大频繁项集和频繁闭项集   总被引:3,自引:1,他引:2  
提出了基于频繁项集的最大频繁项集(BFI-DMFI)和频繁闭项集挖掘算法(BFI-DCFI)。BFI-DMFI算法通过逐个检测频繁项集在其集合中是否存在超集确定该项集是不是最大频繁项集;BFI-DCFI算法则是通过挖掘所有支持度相等的频繁项集中的最大频繁项集组合生成频繁闭项集。该类算法的提出,为关联规则的精简提供了一种新的解决方法。  相似文献   

3.
李广璞  黄妙华 《计算机科学》2018,45(Z11):1-11, 26
关联分析作为数据挖掘的主要研究模块之一,主要用于发现隐藏在大型数据集中的强关联特征。而多数关联规则挖掘任务可分为频繁模式(频繁项集、频繁序列、频繁子图)的产生和规则的产生。前者发现数据集中满足最小支持度阈值的项集、序列与子图;后者从上一步发现的频繁模式中提取高置信度的规则。频繁项集挖掘是许多数据挖掘任务中的关键问题,也是关联规则挖掘算法的核心。十几年来,学者们致力于提高频繁项集的生成效率,从不同的角度进行改进以提高算法效率,大量的高效可伸缩性算法被提出。文中对频繁项集挖掘进行深入分析,对完全频繁项集、闭频繁项集、极大频繁项集的典型算法进行介绍和评述,最后对频繁项集挖掘算法的研究方向进行简要分析。  相似文献   

4.
为了提高频繁项集挖掘算法的准确性,在不确定性数据流频繁项集挖掘算法SRUF-mine的基础上引入最大可能误差,提出一种基于滑动窗口的false-positive挖掘算法UFIM。UFIM算法对数据流进行分块处理,在内存中维护一个存储滑动窗口内频繁项集的概要数据结构,随着窗口的滑动对该概要结构进行增量更新。实验表明,与SRUF-mine相比,UFIM算法能获得较高的频繁项集挖掘的准确性。  相似文献   

5.
近几年来,不确定数据广泛出现在传感器网络、Web应用等领域中。不确定数据挖掘已经成为了新的研究热点,主要包括聚类、分类、频繁项集挖掘、孤立点检测等方面,其中频繁项集挖掘是重点研究的问题之一。综述了传统的频繁项集挖掘的两类基本算法,分析了在此基础上提出的适用于不确定数据以及不确定数据流的频繁项集挖掘的方法,并探讨了今后可能的研究方向。  相似文献   

6.
数据挖掘中的关联分析技术旨在发现大量数据项集之间有趣的关联关系,其核心问题是寻找频繁项集。针对传统的基于矩阵的关联挖掘算法中矩阵规模和事务数据库大小相关,在处理超大型事务数据库时,仍会存在内存瓶颈的问题,提出了一个矩阵规模和事务数据库大小无关、通过矩阵约束预挖掘后验证的频繁项集发现算法。实验结果显示,该算法提高了频繁项集的挖掘速度。  相似文献   

7.
挖掘最大频繁项集的优化方法   总被引:1,自引:0,他引:1  
唐瑜  王勇  杨辉华 《计算机工程与应用》2006,42(31):171-173,208
通过对Apriori算法以及已有相关研究工作的分析,从数据库维数压缩、项存储结构以及剪枝几个方面对算法进行了优化,并从理论与试验两方面验证了优化算法的有效性。  相似文献   

8.
频繁项集挖掘算法研究   总被引:2,自引:0,他引:2  
频繁项集挖掘是许多数据挖掘任务中的关键问题,也是关联规则挖掘算法的核心,所以提高频繁项集的生成效率一直是近几年数据挖掘领域研究的热点之一.本文以频繁项集挖掘算法的搜索方式和计数方式为主线,分析频繁项集挖掘中的代表性算法及其中的关键技术和方法,对近年来相关研究的新进展做了介绍和评述,并指出了未来的研究方向.  相似文献   

9.
频繁项集挖掘算法是关联规则挖掘问题的关键,是数据挖掘领域的一个研究热点.自从Apriori算法提出至今,学者提出来大量的关于频繁项集挖掘的算法.本文按照挖掘方式将这些算法分成三类,即宽度优先、深度优先、宽度和深度相结合,并对每类算法进行了全面的综述及深入的分析,并给出了以后的研究方向.  相似文献   

10.
本文在研究分析经典关联规则挖掘算法优缺点以及基因表达数据特点的基础上,提出了一种立足于基因表达数据的数据特点,不生成候选项集的基于分段与运算的基因表达数据频繁项集挖掘算法。实验证明该算法能更快速有效地挖掘出频繁项集。  相似文献   

11.
李海峰  章宁 《计算机科学》2011,38(5):164-168
数据流高速、无限和动态的特点决定了必须在有限的内存中以尽快的计算速度完成流数据上的频繁项集挖掘。将数据流中的数据按照段进行划分,采用二元组列表的数据结构进行保存,提出了一种基于滑动窗口的近似频繁项集挖掘方法AFIoDS,以实时获取频繁项集集合的真子集,并引入了概率参数,利用Chernoff Bound来动态改变支持度的近似值,保证真子集中的频繁项集被限制在一定的误差范围之内。此外,为了进一步节省内存,AFIoDS采用闭合项集的形式压缩每个段中获取的频繁项集。通过在3种真实数据集上的实验表明,AFIoDS算法与现有算法相比,在精度没有下降的情况下,具有更快的处理速度,同时其存储开销大大降低。  相似文献   

12.
基于索引数组和复合频繁模式树的频繁闭项集挖掘算法   总被引:1,自引:0,他引:1  
频繁闭项集惟一确定频繁项集且规模小得多.CROP是一种基于复合频繁模式树的、频繁闭项集高效挖掘算法,但存在着候选结点过多的问题.这些非闭合结点的生成、检查和剪裁带来了大量不必要的操作.提出了一种改进的频繁闭项集挖掘算法CROP_Index.该算法用"索引数组"来组织数据,找到频繁共同出现的项集.基于二进制位图,给出了一个包含索引的计算方法,并利用索引启发信息合并,得到复合型频繁模式树的初始结点;同时给出一些新的性质,使得改进的算法只生成闭合结点,从而节省了大量不必要的操作,缩小了搜索空间.实验结果表明该算法效率较高.  相似文献   

13.
一种新的频繁项集精简表示方法及其挖掘算法的研究   总被引:3,自引:0,他引:3  
频繁项集挖掘是数据挖掘研究领域的一个基本问题,其瓶颈在于频繁项集全集的结果过多,冗余现象严重.主要的解决思路是只挖掘全体频繁项集中有代表性的子集,使得这种子集或者可满足应用的需要或者可由它们导出其他项集.最大项集和闭项集便是这类解决方案中两种最典型的子集形式.在最大项集和闭项集的基础上,提出了元项集这一新的频繁项集精简表示方法.首先,证明了最大项集和闭项集都是元项集的特例,且元项集所包含的项集数目介于二者之间;其次,讨论了元项集的性质.最后,通过在闭项集挖掘算法DCI-Closed-Index的基础上引入剪枝策略,设计了一个元项集挖掘算法.实验结果表明,所提出的挖掘算法是有效的和高效的.  相似文献   

14.
刘芳 《计算机工程》2012,38(1):59-61
基于图的关联规则挖掘算法会产生大量候选项集。针对该问题,提出一种结合双向搜索策略的改进算法。按照支持度对频繁 1-项集排序,对频繁k-项集的最长超集进行验证,利用Apriori算法进行剪枝。实验结果表明,在支持度阈值较小时,改进算法能有效减少候选项集的数量,提高挖掘效率。  相似文献   

15.
荣秋生  颜君彪 《微机发展》2007,17(1):98-100
随着网格和数据挖掘技术的发展,提出了网格平台下最大频繁项集数据挖掘算法,采用数据库的垂直表示和基于前缀关系的等价划分,以等价类长度的指数函数作为等价类的权值,减少剪枝对负载的影响,合理划分等价类,在动态负载平衡情况下使处理机异步计算,大大提高算法的执行效率。实验证明设计的算法有较好的可扩展性,其性能明显优于其他相关算法。  相似文献   

16.
传统的数据挖掘算法在面向大规模高维数据的挖掘过程中,存在数据特征捕捉准确率低、节点负载不均衡、数据交互频繁、频繁项集紧凑化程度低等问题。提出基于MapReduce的并行挖掘算法PARDG-MR,结合高维数据特征,设计基于维度粒化算法和负载均衡算法的DGPL策略,并对数据进行预处理,以解决高维复杂数据特征属性捕捉困难及数据划分中节点负载不均衡的问题。通过构建基于PJPFP-Tree树的频繁项集并行挖掘策略PARM,实现频繁项集的并行化分组过程,从而提高数据处理的运行效率。在此基础上,提出基于剪枝前缀推论的整合节点剪枝算法PJPFP,提高频繁项集挖掘过程中的剪枝效率,增强频繁项集的紧凑化程度。在Webdocs、NDC、Gisette 3个数据集上的实验结果表明,相比PFP-growth、PWARM、MRPrePost算法,该算法的运行时间平均缩短了约20%,能够有效提高数据挖掘效率且降低内存空间。  相似文献   

17.
基于不确定数据的频繁项集挖掘算法已经得到了广泛的研究。对于记录用户敏感信息的不确定数据,攻击者可以利用自己掌握的背景信息,通过分析基于不确定数据的频繁项集,从而获得用户的敏感信息。为了从不确定的数据集中挖掘出基于期望支持度的前K个最频繁的频繁项集,并且保证挖掘结果满足差分隐私,在本文中,FIMUDDP算法(Frequent Itemsets Mining for Uncertain Data based on Differential Privacy)被提出来。FIMUDDP利用差分隐私的指数机制和拉普拉斯机制确保从不确定数据中挖掘出的基于期望支持度的前K个最频繁的频繁项集和这些频繁项集的期望支持度满足差分隐私。通过对FIMUDDP进行理论分析和实验评估,验证了FIMUDDP的有效性。  相似文献   

18.
李海峰 《计算机工程》2011,37(14):59-61
提出一种采用图形处理器挖掘闭合频繁项集的方法,用二进制数据表示项集,利用单指令多数据的体系结构实现并行计算,结合项集索引树,可以提高项集支持度计算和项集查找的速度。在2种数据集上的实验结果表明,该方法能够用更少的空间保存频繁项集的全部信息,并减少挖掘时间。  相似文献   

19.
在中医药领域挖掘药组频繁项集时发现,尽管有些项集的支持度比人们需要的频繁项集的支持度高很多,但这些项集并不是人们感兴趣的,即过分频繁反而变得平凡.本文引入支持度区间的概念,提出了适合中药数据挖掘的二维TCM-FP森林结构及其建树算法.在针对疾病症状的中药药组挖掘过程中,采用优化的搜索策略开发了基于支持度区间的TCMA维间最大频繁项集挖掘算法.这种算法既缩小了挖掘的范围又提高了规则的意义,并且具有较高的执行效率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号