首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
王丹丹  蒋文娟 《计算机科学》2012,39(11):153-156
为了提高工作流环境下频繁模式挖掘的准确性,提出了一种新的频繁闭合模式挖掘算法。首先扩展了依赖 矩阵的定义,即利用工作流日志建立包含直接依赖关系和交叠关系的依赖支持度矩阵。然后扩展了CHARM算法, 以在支持度矩阵的基础上自动挖掘频繁闭合活动集。最后对频繁闭合项集进行处理,以形成最终的工作流频繁闭合 模式。该算法对于并行和选择关系的处理能力优于同类算法。  相似文献   

2.
高维大数据集对现有的数据挖掘算法提出了挑战。该文把挖掘任务分解为挖掘频繁长模式与短模式2个子问题,提出一种在高维大数据集中挖掘长项集的算法,即inter-transaction。该算法利用了高维数据中长事务相交迅速变短的特性,通过事务的交集运算直接得到长闭合模式,同时采用新的减枝策略,优化了事务交集运算的方法。实验表明,该方法对高维大数据集非常有效。  相似文献   

3.
周明  李宏 《计算机工程》2007,33(2):74-76
传统频繁项集挖掘算法在处理稠密或长数据集(如基因表达数据集)时效率低且产生大量冗余模式,为解决这些问题一些学者提出了闭合模式的概念和挖掘闭合模式的算法,研究证明挖掘闭合模式可以显著减少项集数量并消除大量冗余模式。该文针对生物数据特点提出了一个新颖的挖掘频繁闭合模式的算法REMFOR,该算法在闭合模式概念和行枚举思想的基础上,采用垂直数据结构和fp-tree技术,对行集建立行fp-tree来挖掘频繁闭合模式。通过实例和实验证明该算法是正确有效的。  相似文献   

4.
直接对生物序列进行频繁模式挖掘会产生很多冗余模式,闭合模式更能表达出序列的功能和结构。根据生物序列的特点,提出了基于相邻闭合频繁模式段的模式挖掘算法-JCPS。首先产生闭合相邻频繁模式段,然后对这些闭合频繁模式段进行组合,同时进行闭合检测,产生新的闭合频繁模式。通过对真实的蛋白质序列家族库的处理,证明该算法能有效处理生物序列数据。  相似文献   

5.
金波  缪裕青 《计算机工程》2007,33(16):50-52,5
微阵列数据集行少列多的特征,使得传统基于列枚举空间的算法应用于其中进行频繁闭合模式挖掘时其复杂性迅速增长。基于行枚举的CARPENTER算法较好解决了该问题。但CARPENTER算法使用映射转置表(TT)来完成频繁闭合模式完全集的挖掘效率不高。该文在CARPENTER算法基础上,提出LG-tree数据结构,并基于此结构提出挖掘频繁闭合模式的新算法MFCPLG。真实数据集的实验表明,MFCPLG算法的时间性能优于CARPENTER算法。  相似文献   

6.
提出一种基于投影和树的闭合频繁模式挖掘的算法.此算法利用一种数据结构:投影和树,把事务投影到这棵前缀树上,它除了可以从空间上紧凑地存放频繁模式外,还建立了层的概念,挖掘时充分利用已有的计算结果,不重复计算.另外挖掘时,算法只对投影和树进行一次遍历,不需要进行耗时的I/O操作,也不需要递归地建立条件FP树而消耗大量的CPU计算资源.实验结果表明在稠密集上,其效率较高.  相似文献   

7.
荣文亮  杨燕 《计算机应用》2008,28(6):1467-1470
用挖掘频繁闭合模式集代替挖掘频繁模式集是近年来提出的一个重要策略。根据数据流的特点,提出了一种基于滑动窗口的频繁闭合模式的新方法DSFC_Mine。该算法以滑动窗口中的基本窗口为更新单位,利用改进的CHARM算法计算每个基本窗口的潜在频繁闭合项集,将它们存储到一种新的数据结构中,利用该数据结构可以快速地挖掘滑动窗口中的所有频繁闭合项集。实验验证了该算法在时间上和空间上的可行性和有效性。  相似文献   

8.
一种不确定性数据频繁模式的垂直挖掘算法   总被引:1,自引:0,他引:1  
由于数据的不确定性,传统频繁模式挖掘方法难以适用到不确定性数据中.针对不确定性数据的特点,把挖掘确定性数据频繁模式的经典垂直挖掘算法Eclat算法扩展到不确定性数据中,提出了UP-Eclat算法.该算法分别对Tid集和项集搜索树进行扩展:把原来只有一个id域的Tid扩展成两个域,即id域和概率域;用扩展后的Tid集代替原来的Tid集,生成扩展后的项集搜索树.扩展后的Tid集可以表示不确定性数据,然后利用扩展后的项集搜索树进行频繁模式挖掘.通过实验与分析,UP-Eclat算法可行,高效.  相似文献   

9.
利用元学习技术提出了一种分布式挖掘频繁闭合模式算法;为适应不同的分布式环境,还给出了该算法的一个变种;最后通过实验讨论了不同分布式下选取算法的策略。算法具有挖掘效率高、通信量少、可靠性高的特点,适合分布式挖掘。  相似文献   

10.
王乐  常艳芬  王水 《计算机应用》2015,35(7):1921-1926
为提高不确定数据频繁模式(FP)挖掘算法的时空效率,提出了基于最大概率的不确定频繁模式挖掘(UFPM-MP)算法。首先,利用事务项集中的最大概率值预估期望支持数;然后,使用该期望支持数与最小期望支持数阈值进行比较,以确定某一项集是否为候选频繁项集,并对候选项集建立子树以递归挖掘频繁模式。实验中,UFPM-MP算法与AT-Mine算法进行了对比,并在6个典型的数据集上进行实验验证。实验结果表明,UFPM-MP算法的时空效率得到了提高,稀疏数据集上提高约30%,稠密数据集上的效率提高更为明显(约3~4倍)。预估期望支持数的策略有效地减少了子树和头表项的数量,从而提高了算法的时空效率;且最小期望支持数越小,或需要挖掘的频繁模式越多的时候,算法的时间效率提高越多。  相似文献   

11.
CBC-DS: 基于频繁闭模式的数据流分类算法   总被引:2,自引:0,他引:2  
基于关联规则的分类算法通常根据频繁模式生成类关联规则,但频繁模式挖掘易遭受组合爆炸问题,影响算法效率.并且数据流的出现也对分类算法提出了新的挑战.相对于频繁模式,频繁闭模式的数目较少,挖掘频繁闭模式的算法通常具有较高的效率.为此,提出了一种高效的基于频繁闭模式的数据流分类算法—CBC-DS.主要贡献在于:1)提出了一种基于逆文法顺序FP-Tree的频繁闭项集单遍挖掘过程,用于挖掘类关联规则,该过程采用了一种混合项顺序搜索策略以满足数据流挖掘的单遍性需求,并采用位图技术提高效率;2)提出了“自支持度”概念,用于筛选规则以提高算法分类精度.实验表明,位图技术能够提高算法速度2倍以上,利用自支持度能够提高算法平均精度0.5%左右;最终CBC-DS算法的平均分类精度比经典算法CMAR高1%左右,并且CBC-DS算法的规则挖掘速度远快于CMAR算法.  相似文献   

12.
挖掘闭合模式的高性能算法   总被引:16,自引:1,他引:16  
频繁闭合模式集惟一确定频繁模式完全集并且尺寸小得多,然而挖掘频繁闭合模式仍然是时间与存储开销很大的任务.提出一种高性能算法来解决这一难题.采用复合型频繁模式树来组织频繁模式集,存储开销较小.通过集成深度与宽度优先策略,伺机选择基于数组或基于树的模式支持子集表示形式,启发式运用非过滤虚拟投影或过滤型投影,实现复合型频繁模式树的快速生成.局部和全局剪裁方法有效地缩小了搜索空间.通过树生成与剪裁代价的平衡实现时间效率与可伸缩性最大化.实验表明,该算法时间效率比其他算法高5倍到3个数量级,空间可伸缩性最佳.它可以进一步应用到无冗余关联规则发现、序列分析等许多数据挖掘问题.  相似文献   

13.
陶克  王意洁 《计算机工程》2010,36(18):49-51
针对频繁闭项集挖掘算法中数据结构与处理机制复杂的问题,提出窗口快速滑动的数据流频繁闭项集挖掘算法——MFWSR。算法通过采用紧致的数据结构和简化的判断过程提高时空效率,支持响应不同用户支持度阈值的查询。实验结果表明,在保持已有算法精度的情况下,MFWSR具有更高的时空效率。  相似文献   

14.
数据流中频繁闭合模式的挖掘   总被引:2,自引:2,他引:0       下载免费PDF全文
频繁闭合模式集可唯一确定频繁模式完全集。根据数据流的特点,提出一种挖掘频繁闭合项集的算法,该算法将数据流分段,用DSFCI_tree动态存储潜在频繁闭合项集,对每一批到来的数据流,建立局部DSFCI_tree,进而对全局DSFCI_tree进行更新并剪枝,从而有效地挖掘整个数据流中的频繁闭合模式。实验表明,该算法具有良好的时间和空间效率。  相似文献   

15.
由于微阵列数据集行(样本)少列(基因)多的特征,使得采用传统列枚举方法对其进行频繁闭合模式挖掘较为困难.基于行枚举方法,提出超链接结构HT-struct,并基于该结构提出频繁闭合模式挖掘新算法HTCLOSE.算法采用深度优先搜索策略,结合高效的修剪技术和巧妙的链表组织技术,在时间和空间上均得到了优化.实验表明,HTCLOSE算法通常快于行枚举算法CARPENTER.  相似文献   

16.
目前已提出了许多基于Apriori算法思想的频繁项目集挖掘算法,这些算法可以有效地挖掘出事务数据库中的短频繁项目集,但对于长频繁项目集的挖掘而言,其性能将明显下降.为此,提出了一种频繁闭项目集挖掘算法MFCIA,该算法可以有效地挖掘出事务数据库中所有的频繁项目集,并对其更新问题进行了研究,提出了一种相应的频繁闭项目集增量式更新算法UMFCIA,该算法将充分利用先前的挖掘结果来节省发现新的频繁闭项目集的时间开销.实验结果表明算法MFCIA是有效可行的.  相似文献   

17.
目前提出的频繁项目集挖掘算法大多基于Apriori算法思想,但这类算法会产生巨大的候选集并且重复扫描数据库.本文针对这一问题,给出了一种基于FC-tree的频繁闭项目集挖掘算法Max-FCIA,该算法将频繁项目集存储在哈希表中,节省了程序的搜索时间.此外,利用广度优先搜索和有效的剪枝策略,大大限制了候选项目集的生成,缩小了搜索空间从而提高了程序的性能.实验结果表明该算法是快速有效的.  相似文献   

18.
挖掘频繁模式是数据挖掘领域一个重要且基础的问题.频繁封闭项集挖掘可以提供完全的无冗余的频繁模式.随着生物信息学的兴起,产生了一类具有较多列数的特殊数据集,这种高维数据集对以前的频繁封闭模式挖掘算法提出了新的挑战.对高维数据的频繁封闭模式挖掘算法进行了综述,按照算法的特性对这些算法进行了分类,比较了基于行计数的两类挖掘算...  相似文献   

19.
对于不确定性数据,传统判断项集是否频繁的方法并不能准确表达项集的频繁性,同样对于大型数据,频繁项集显得庞大和冗余。针对上述不足,在水平挖掘算法Apriori的基础上,提出一种基于不确定性数据的频繁闭项集挖掘算法UFCIM。利用置信度概率表达项集频繁的准确性,置信度越高,项集为频繁的准确性也越高,且由于频繁闭项集是频繁项集的一种无损压缩表示,因此利用压缩形式的频繁闭项集替代庞大的频繁项集。实验结果表明,该算法能够快速地挖掘出不确定性数据中的频繁闭项集,在减少项集冗余的同时保证项集的准确性和完整性。  相似文献   

20.
一种基于时间衰减模型的数据流闭合模式挖掘方法   总被引:1,自引:0,他引:1  
数据流是随着时间顺序快速变化的和连续的,对其进行频繁模式挖掘时会出现概念漂移现象。在一些数据流应用中,通常认为最新的数据具有最大的价值。数据流挖掘会产生大量无用的模式,为了减少无用模式且保证无损压缩,需要挖掘闭合模式。因此,提出了一种基于时间衰减模型和闭合算子的数据流闭合模式挖掘方式TDMCS (Time-Decay-Model-based Closed frequent pattern mining on data Stream)。该算法采用时间衰减模型来区分滑动窗口内的历史和新近事务权重,使用闭合算子提高闭合模式挖掘的效率,设计使用最小支持度-最大误差率-衰减因子的三层架构避免概念漂移,设计一种均值衰减因子平衡算法的高查全率和高查准率。实验分析表明该算法适用于挖掘高密度、长模式的数据流;且具有较高的效率,在不同大小的滑动窗口条件下性能表现是稳态的,同时也优于其他同类算法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号