首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
针对已有概率频繁项集挖掘算法采用模式增长的方式构建树时产生大量树节点,导致内存空间占用较大以及发现概率频繁项集效率低等问题,提出了改进的不确定数据频繁模式增长(PUFP-Growth)算法。该算法通过逐条读取不确定事务数据库中数据,构造类似频繁模式树(FP-Tree)的紧凑树结构,同时更新项头表中保存所有尾节点相同项集的期望值的动态数组。当所有事务数据插入到改进的不确定数据频繁模式树(PUFP-Tree)中以后,通过遍历数组得到所有的概率频繁项集。最后通过实验结果和理论分析表明:PUFP-Growth算法可以有效地发现概率频繁项集;与不确定数据频繁模式增长(UF-Growth)算法和压缩的不确定频繁模式挖掘(CUFP-Mine)算法相比,提出的PUFP-Growth算法能够提高不确定数据概率频繁项集挖掘的效率,并且减少了内存空间的使用。  相似文献   

2.
传统频繁项集挖掘技术无法高效获取不确定性数据中有价值的信息。通过研究频繁模式增长树的算法原理,根据不确定性数据的特点提出了一种有效的不确定性数据预处理方法PCAFP-Growth。利用主成分分析的方法进行数据的降维,并使用模糊关联分析法将数据概率进行分类,实现数据剪枝。在理论研究基础上,通过实验对数据集进行了验证。结果表明,基于主成分分析法的剪枝策略在稠密数据集上能够有效提高运算速度,减少内存的使用。  相似文献   

3.
频繁项集挖掘算法是关联规则挖掘问题的关键,是数据挖掘领域的一个研究热点.自从Apriori算法提出至今,学者提出来大量的关于频繁项集挖掘的算法.本文按照挖掘方式将这些算法分成三类,即宽度优先、深度优先、宽度和深度相结合,并对每类算法进行了全面的综述及深入的分析,并给出了以后的研究方向.  相似文献   

4.
频繁项集挖掘算法研究   总被引:2,自引:0,他引:2  
频繁项集挖掘是许多数据挖掘任务中的关键问题,也是关联规则挖掘算法的核心,所以提高频繁项集的生成效率一直是近几年数据挖掘领域研究的热点之一.本文以频繁项集挖掘算法的搜索方式和计数方式为主线,分析频繁项集挖掘中的代表性算法及其中的关键技术和方法,对近年来相关研究的新进展做了介绍和评述,并指出了未来的研究方向.  相似文献   

5.
基于频繁项集挖掘最大频繁项集和频繁闭项集   总被引:3,自引:1,他引:2  
提出了基于频繁项集的最大频繁项集(BFI-DMFI)和频繁闭项集挖掘算法(BFI-DCFI)。BFI-DMFI算法通过逐个检测频繁项集在其集合中是否存在超集确定该项集是不是最大频繁项集;BFI-DCFI算法则是通过挖掘所有支持度相等的频繁项集中的最大频繁项集组合生成频繁闭项集。该类算法的提出,为关联规则的精简提供了一种新的解决方法。  相似文献   

6.
频繁项集挖掘算法综述   总被引:4,自引:0,他引:4  
该文基于频繁项集挖掘算法的研究现状,采用自底向上遍历搜索、自顶向下遍历搜索和混合遍历搜索的分类方法,对现有的频繁项集挖掘算法进行归纳分类,分析和比较了各类别中具有代表性的挖掘算法,总结每种算法各方面的特性.同时,对一些特殊的频繁项集挖掘算法也作了简单介绍.旨在使读者全面掌握频繁项集挖掘算法目前的研究水平,便于研究者对已有的算法进行改进,提出具有更好性能的新的分类算法,也便于使用者在应用时对算法的选择和使用.  相似文献   

7.
研究挖掘关联规则的一个重要工作就是找出所有的频繁项集。基于FP—tree的最大频繁项集挖掘算法要多次生成大量的FP—tree,并且需要对其多次遍历,消耗了大量的时间。针对以上缺点,提出一种基于FP—tree并利用数组和矩阵技术进行优化的最大频繁项集挖掘算法(Mining Maximal Frequent Itemset。简称MMFI),它既减少创建FP—tree的数量,又节省遍历FP—tree的时间,实验证明本算法是有效的。  相似文献   

8.
为了提高频繁项集挖掘算法的准确性,在不确定性数据流频繁项集挖掘算法SRUF-mine的基础上引入最大可能误差,提出一种基于滑动窗口的false-positive挖掘算法UFIM。UFIM算法对数据流进行分块处理,在内存中维护一个存储滑动窗口内频繁项集的概要数据结构,随着窗口的滑动对该概要结构进行增量更新。实验表明,与SRUF-mine相比,UFIM算法能获得较高的频繁项集挖掘的准确性。  相似文献   

9.
一种动态的频繁项集挖掘算法   总被引:2,自引:0,他引:2       下载免费PDF全文
提出了一种基于无向项集图的动态频繁项集挖掘算法。当事务数据库和最小支持度发生变化时,该算法只需重新遍历一次无向项集图,即可得到新的频繁项集。与传统的频繁项集挖掘算法相比,在执行效率上有显著提高。  相似文献   

10.
为了提高挖掘关联规则的效率,提出基于改进FP-Tree结构的最大频繁项集挖掘算法.介绍并分析了挖掘最大频繁项集的过程和现有算法,指出现有算法中耗时的关键步骤.克服了MMF1算法中需要反复从头表出发沿相同项目结点链搜索右侧结点的缺点,提出一种改进的最大频繁项集挖掘算法IMMFI.通过在有序FP-Tree中引入叶子链,用沿叶子链搜索取代沿同层结点链搜索,有效地减少了搜索的次数,提高了算法的效率.实验结果表明了该算法的性能良好.  相似文献   

11.
采用频繁项目链表变换的频繁项目集挖掘算法   总被引:1,自引:0,他引:1  
频繁项目集的产生是关联规则挖掘的关键问题,经典的关联规则挖掘算法是通过对事务数据库的多次扫描实现的.最新的研究已经开始探索合适的数据结构以支持进行极少次数的事务数据库的扫描,进而减少关联规则挖掘过程中巨大的I/O开销以获得更高的效率.文中利用频繁项目链表的数据结构,给出了一种仅需扫描两次事务数据库的关联规则挖掘算法 ,称为FILLT算法.该算法采取分而治之策略,对频繁项目链表实施分割、变换来进行关联规则挖掘.文中最后对这一算法的效率进行了理论分析和实验验证.  相似文献   

12.
基于FP-Tree有效挖掘最大频繁项集   总被引:36,自引:2,他引:36       下载免费PDF全文
最大频繁项集的挖掘过程中,在最小支持度较小的情况下,超集检测是算法的主要耗时操作.提出了最大频繁项集挖掘算法FPMFI(frequent pattern tree for maximal frequent item set)使用基于投影进行超集检测的机制,有效地缩减了超集检测的时间.另外,算法FPMFI通过删除FP子树(conditional frequent pattern tree)的冗余信息,有效地压缩了FP子树的规模,减少了遍历的开销.分析表明,算法FPMFI具有优越性.实验比较说明,在最小支持度较小时,算法FPMFI的性能优于同类算法1倍以上.  相似文献   

13.
频繁项集挖掘算法   总被引:15,自引:1,他引:14  
数据挖掘在最近几年里已被数据库界所广泛研究,而搜索频繁项集是诸如关联规则挖掘,序列模式挖掘等数据挖掘问题中的关键步骤。本文描述了频繁项集挖掘问题的特点,并根据搜索策略对已有各种频繁项集挖掘算法进行了分析和比较。  相似文献   

14.
基于FP-T ree的FP-M ax算法在挖掘最大频繁集时需多次递归建立条件模式树耗费大量存储空间,这大大降低了算法的挖掘效率。提出了一种基于改进FP-T ree的最大频繁集快速挖掘算法-FP-EM ax算法。该算法无需建立条件模式库大大减少了存储空间开销,采用预剪枝策略减少条件模式树的构造次数及子集检测次数,从而算法的挖掘效率大大提高。最后通过实验证明FP-EM ax算法在支持度较小的情况下较之于FP-M ax及同类算法具有更好的性能。  相似文献   

15.
频繁项查询在网络监控、网络入侵检测、关联规则挖掘等方面是一项非常重要的技术.该技术在静态的不确定数据中已经得到了深入的研究.但随着数据流特征和不确定性表现的日益明显,在不确定数据流环境下的查询已经成为一项新的研究课题.因此基于数据流普遍采用的滑动窗口模型,提出了一种高效的概率Top-K频繁项查询算法sTopK-UFI.该算法避免了每次窗口更新都重新计算查询答案,而是利用现有的计算结果进行增量更新,从而减少查询代价.另外,该算法基于窗口中的现有数据对未来可能成为频繁项的元素进行预测,并利用泊松分布计算元素成为频繁项的概率上下界,提出相应的过滤策略,可以显著减少检测数据的数量,提高查询效率.实验结果表明,所提出算法可以有效地减少候选集、降低搜索空间、改善在不确定数据流上的查询性能.  相似文献   

16.
寻求最大频繁项集是关联规则挖掘的最重要步骤,通过研究Apriori算法的基本思想,利用Apriori性质对数据库中项集进行分解直接寻找最大频繁项集,避免扫描整个事务数据库而是有针对性的扫描部分数据,从而提高算法效率.  相似文献   

17.
基于频繁项集挖掘的贝叶斯分类算法   总被引:1,自引:0,他引:1  
朴素贝叶斯分类器是一种简单而且高效的分类学习算法,但是它所要求的属性独立性假设在真实世界应用中经常难以满足.为了放松属性独立性约束以提高朴素贝叶斯分类器的泛化能力,研究人员进行了大量的工作.提出了一种基于频繁项集挖掘技术的贝叶斯分类学习算法FISC(frequent item sets classifier).在训练阶段,FISC找到所有频繁项集并计算可能用到的概率估值.在测试阶段,FISC对于测试样本包含的每个项集构造一个分类器,通过集成这些分类器来给出预测结果.实验结果验证了FISC的有效性.  相似文献   

18.
基于概率衰减窗口模型的不确定数据流频繁模式挖掘   总被引:2,自引:0,他引:2  
考虑到不确定数据流的不确定性,设计了一种新的概率频繁模式树PFP-tree和基于该树的概率频繁模式挖掘方法PFP-growth.PFP-growth使用事务性不确定数据流及概率衰减窗口模型,通过计算各概率数据项的期望支持度以发现概率频繁模式,其主要特点有:考虑到窗口内不同时间到达数据项的贡献度不同,采用概率衰减窗口模型计算期望支持度,以提高模式挖掘准确度;设置数据项索引表和事务索引表,以加快频繁模式树检索速度;通过剪枝删除不可能成为频繁模式的结点,以降低模式树的存储及检索开销;对每个结点都设立一个事务概率信息链表,以支持数据项在不同事务中具有不同概率的情形.实验结果表明,PFP-growth在保证挖掘模式准确度的前提下,在处理时间和内存空间等方面都具有较好的性能.  相似文献   

19.
一种不确定性数据频繁模式的垂直挖掘算法   总被引:1,自引:0,他引:1  
由于数据的不确定性,传统频繁模式挖掘方法难以适用到不确定性数据中.针对不确定性数据的特点,把挖掘确定性数据频繁模式的经典垂直挖掘算法Eclat算法扩展到不确定性数据中,提出了UP-Eclat算法.该算法分别对Tid集和项集搜索树进行扩展:把原来只有一个id域的Tid扩展成两个域,即id域和概率域;用扩展后的Tid集代替原来的Tid集,生成扩展后的项集搜索树.扩展后的Tid集可以表示不确定性数据,然后利用扩展后的项集搜索树进行频繁模式挖掘.通过实验与分析,UP-Eclat算法可行,高效.  相似文献   

20.
数据挖掘中关联规则的改进算法及其实现   总被引:8,自引:9,他引:8  
杨健兵 《微计算机信息》2006,22(21):195-197
在Apriori算法基础上,提出了基于树数据结构的关联规则改进算法。由于该算法只需对交易数据库进行一次检索,故能大量减少所需的I/O次数,提高了系统的性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号