首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 125 毫秒
1.
数据流中频繁闭项集的近似挖掘算法   总被引:4,自引:0,他引:4       下载免费PDF全文
刘旭  毛国君  孙岳  刘椿年 《电子学报》2007,35(5):900-905
在数据流中挖掘频繁项集得到了广泛的研究,传统的研究方法大多关注于在数据流中挖掘全部频繁项集.由于挖掘全部频繁项集存在数据和模式冗余问题,所以对算法的时间和空间效率都具有更大的挑战性.因此,近年来人们开始关注在数据流中挖掘频繁闭项集,其中一个典型的工作就是Moment算法.本文提出了一种数据流中频繁闭项集的近似挖掘算法A-Moment.它采用衰减窗口机制、近似计数估计方法和分布式更新信息策略来解决Moment算法中过度依赖于窗口和执行效率低等问题.实验表明,该算法在保证挖掘精度的前提下,可以比Moment获得更好的效率.  相似文献   

2.
提出了一种高效挖掘数据的频繁项目集模式的算法FIA.该算法采用一种二进制符号来表示数据,在仅扫描数据库一次之后,建立起二进制向量与上三角频繁项集矩阵,根据两者来产生出频繁项集.从而有效地缩小了搜索空间,加快了处理速度.通过实验表明,FIA算法比Apriori算法更有效.  相似文献   

3.
频繁项集快速挖掘及更新算法   总被引:2,自引:0,他引:2  
为了克服Apriori发现频繁项集存在的问题,提出了一种基于三维项集矩阵和向量(TIMV)的频繁项集挖掘算法.该算法摆脱了Apriori框架的束缚,仅需扫描数据库一次,不产生候选项目集.当事务数据库和最小支持度发生变化时,该算法只需重新遍历一次项集矩阵,即可得到新的频繁项集.实验结果表明,算法能有效提高频繁项目集的挖掘和更新效率.  相似文献   

4.
随着数据挖掘的广泛应用,许多实际的数据挖掘应用需要用过去和当前数据对未来数据状态进行预测,针对这一现状,文中提出基于矩阵的数据流频繁模式预测算法(MFP).MFP算法可预测在下一时间窗口中可能性较大的频繁项集,以满足用户需要.该算法首先将数据转换为0-1矩阵;然后通过矩阵剪裁和位运算更新矩阵,并从中挖掘频繁项集;最后,利用当前窗口数据预测下一时间窗口中可能出现的频繁项集.实验结果表明,MFP算法在不同实验环境下能有效预测频繁项集,该算法是可行的.  相似文献   

5.
针对关联规则中频繁模式挖掘的效率问题进行了研究,提出了一种快速挖掘频繁模式的新算法。该算法采用一个动态更新的连接项集对n项频集中的项目进行项目增长的原理,求得所有频繁项集。通过研究分析可以看出:算法只需对数据库一次扫描;增强了产生候选项的针对性和有效性;提高了候选项的支持事务计数的效率;在求解最大频繁项集时,由于求解过程中无需用到大量的中间结果,节省了内存空间。给出了算法的实现。通过对实验结果的性能对比分析,表明算法是可行的,有效的。  相似文献   

6.
吴六爱  刘应东 《信息技术》2011,(11):16-18,23
高效地找出所有的频繁项集是关联规则挖掘中的核心问题。通过对已有的基于矩阵的频繁项集挖掘算法的研究,提出一种基于团的频繁项集快速生成算法。该算法采用关联图存储频繁两项集信息,找关联图中团,逐步减少团中项来搜索所有最大频繁项集,并且其扫描数据库仅需一次。通过使用标准数据集进行验证测试并与其他算法进行比较,实验结果表明,该算法具有较快的挖掘速度。  相似文献   

7.
频繁项集挖掘算法是数据挖掘的主要研究方向。目前主流的频繁项集挖掘算法有:产生候选频繁项集和不产生候选频繁项集两种,分别是Apriori算法、FP_growth算法。这两种算法各有优缺点。本文在分析现有算法的基础上,充分利用FP_tree信息压缩的优点,设计出一种产生候选项集的最大频繁项集挖掘算法。该算法首先构造一棵单向FP_tree,再利用最大频繁项集特性对候选项集进行剪枝,不需要扫描数据库计算候选项集的支持数。仿真实验表明,与现有算法相比,该算法的时、空效率都有巨大提高。  相似文献   

8.
Apriori算法是经典的关联规则挖掘算法之一。该算法可以很好地挖掘关联规则,通过连接步和剪枝步从频繁项集中获取候选项集,但产生大量的候选项集,这就需要重复扫描数据库,大大增加算法运行时间。文中提出一种基于矩阵的改进算法,通过事务矩阵和候选项集项目矩阵相乘的矩阵操作来改进频繁扫描数据库的问题。事务数组的建立可以删除不能生成下一频繁项集的事务,删除不必要的项,针对频繁项集的产生过程优化Apriori算法的连接步和修剪步。在不同的数据集下通过实验验证改进算法不仅能准确地挖掘出频繁项集而且大大地缩短挖掘时间。  相似文献   

9.
针对Apriori算法与FP-Growth算法在最大频繁项集挖掘过程中存在的运行低效、内存消耗大、难以适应稠密数据集的处理、影响大数据价值挖掘时效等问题,该文提出一种基于邻接表的最大频繁项集挖掘算法。该算法只需遍历数据库一次,同时用哈希表对邻接表进行辅助存储,减小了遍历的空间规模。理论分析与实验结果表明,该算法时间与空间复杂度较低,提高了最大频繁项集挖掘速率,尤其在处理稠密数据集时具有较好的优越性。  相似文献   

10.
Apriori算法是挖掘关联规则频繁项集的经典算法,但需要对数据库进行多次扫描,在交易量较大的情况下,严重地影响了算法效率。本文将改进的遗传算法应用于求解频繁项集,解决了这一问题。实验表明,该算法具有一定的推广价值。  相似文献   

11.
1 IntroductionKnowledge Discoveryin databaseis a newly useinfor-mation availably way that computer automatically pick upuseful information or knowledge fromhuge amounts of da-ta.KDD has been one of research hotspots in the field ofthe data base.Data minin…  相似文献   

12.
刘波  潘久辉 《电子学报》2007,35(8):1612-1616
关联规则挖掘是数据挖掘领域中重要的研究分支,频繁项集或频繁谓词集的计算是其中的关键问题.本文针对包括多值属性的关系数据库,以多维关联规则挖掘为目标,研究频繁谓词集的计算方法,提出了MPG算法及IMPG增量算法.MPG算法通过构建频繁模式图MP-graph,按照深度优先搜索方法,动态挖掘频繁谓词集,只需扫描数据库一次.此外,该方法至多增加一次数据库扫描,就能扩展为IMPG算法,进行增量关联规则挖掘.文章分析了算法时间和空间性能,用实验说明了算法的有效性.  相似文献   

13.
针对Apriori类算法多次扫描数据库和FP-tree类算法需要构建大量条件模式树的问题,文中提出了挖掘最大频繁项集的GBMFI算法。采用垂直格式存储事务数据库,以枚举树为基础,利用子集非频繁性质和父子节点支持度信息在搜索过程中对枚举树进行剪枝,最终得到最大频繁项集。通过实验对比,结果证明了算法的有效性,尤其适用于稀疏数据集。  相似文献   

14.
为了挖掘医药销售数据库频繁集,采用双数组穷举算法DAEA。该算法主要使用两个数组和穷举算法,实现挖掘医药销售数据库的频繁集功能。该算法的优点是只需对医药销售数据库进行数据预处理就可以直接挖掘该数据库的频繁集,无需把医药销售数据库转换成相应的事务数据库。根据DAEA算法,开发了医药销售数据库频繁集挖掘系统,使用该系统挖掘医药销售数据库的频繁集,挖掘的结果与实际相吻合,说明该算法是可行的和有效的。  相似文献   

15.
针对关联规则挖掘中经典Apriori算法由于多次扫描数据、产生大量候选集及产生候选集时连接次数多等缺陷,导致效率较低。文中提出删除部分特殊事务,减少扫描数据次数。在生成候选k-项集前,对频繁k-1项集进行约简,减少连接次数和候选k-项集数,对Apriori算法进行改进。并将改进的Apriori算法用于试题分析中,得出试题之间的关联关系。实例表明,改进后的算法在效率上优于Apriori算法。  相似文献   

16.
朱红萍  巩青歌 《电子科技》2011,24(10):85-87,92
针对关联规则挖掘中的高效更新问题,对增量和负增量问题进行了讨论,提出当最小支持度发生变化时可归结为数据库发生变化的情形进行讨论。采用十字链表来分别存储原数据库DB和变化数据库db中,各频繁项集及其支持度s1和s2,通过对s1,s2及最小支持度s0的比较分析,判断项集是否为频繁项集,减少了扫描数据库的次数,提高了更新后的...  相似文献   

17.
基于项集特性的关联规则挖掘中Apriori算法的改进   总被引:2,自引:0,他引:2  
提出一个改进Apriori的算法IApr,利用事务数据库的事务数相对于项集的项的个数而言要大得多这一特点,采用线性存储结构,并结合推出并证明的项集特性,考虑候选频繁项目集的各个项的应满足的条件,只需扫描一次事务数据库,有效减少了生成候选频繁项集的数目,从数据扫描量、搜索空间、时间复杂度上分析都提高了算法效率。  相似文献   

18.
The mining of association rules is one of the primary methods used in telecommunication alarm correlation analysis,of which the alarm databases are very large.The efficiency of the algorithms plays an important role in tackling with large datasets. The classical frequent pattern growth(FP-growth) algorithm can produce a large number of conditional pattern trees which made it difficult to mine association rules in are telecommunication environment.In this paper,an algorithm based on layered frequent pattern tree(LFP-tree) is proposed for mining frequent patterns. Efficiency of this alagorithm is achieved with following techniques:1) All the frequent patterns are condensed into a layered structure,which can save memory time but also be very useful for updating the alarm databases.2) Each alarm item can be viewed as a triple,in which t is a Boolean vaviable that shows the item frequent or not.3) Deleting infrequent items with dynamic pruning can avoid produce conditional pattern sets. Simulation and analysis of algorithm show that it is a valid method with better time and space efficiency,which is adapted to mine association rules in telecommunication alarm correlation analysis.  相似文献   

19.
目前数据流频繁项近似挖掘算法大多采用误差参数控制挖掘的结果,时间与内存开销越高,挖掘结果的正确性越低.针对这样一个问题,提出了渐增最小支持度函数作为误差参数.如果某数据项在滑动窗口中的保存时间越长,则该数据项的出现频率必须相应的增加才能继续保存在滑动窗口中.这样,在滑动窗口中需要保存的数据项的数量将减少,时间开销与内存开销也相应的减少.在此基础上,提出了一种基于渐增最小支持度函数的数据流频繁项挖掘算法GFFPM.该算法能准确的挖掘出滑动窗口中的频繁项.实验结果表明,该算法具有很高的正确性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号