首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
一种新的工作流频繁模式挖掘算法研究   总被引:1,自引:1,他引:0  
高昂  杨扬  王玥薇 《计算机科学》2009,36(9):231-233
为了提高工作流模型挖掘技术的准确性,提出了一种新的工作流频繁模式挖掘算法.首先,阐述了工作流模型依赖矩阵的定义,并利用工作流日志建立了依赖矩阵.然后采用活动间的依赖关系作为频繁项集,设计了一种基于依赖矩阵的频繁项集自动生成算法.最后对频繁项集进行处理,得到最终的工作流频繁模式.该算法能够处理活动间交叠关系和具有串、并行关系的工作流模型,因此更具优越性.  相似文献   

2.
频繁闭合模式是频繁模式的无损压缩,因此采用频繁闭合模式的挖掘来代替频繁模式挖掘,可以适当的压缩计算和存储开销。文中针对已有的面向基因表达数据集频繁闭合模式挖掘算法CARPENTER多次扫描数据集转置表带来巨大开销的缺陷,提出了基于排序的频繁闭合模式挖掘算法SFCP。在真实数据集上的实验结果表明,该算法效率比CARPENTER算法高。  相似文献   

3.
周明  李宏 《计算机工程》2007,33(2):74-76
传统频繁项集挖掘算法在处理稠密或长数据集(如基因表达数据集)时效率低且产生大量冗余模式,为解决这些问题一些学者提出了闭合模式的概念和挖掘闭合模式的算法,研究证明挖掘闭合模式可以显著减少项集数量并消除大量冗余模式。该文针对生物数据特点提出了一个新颖的挖掘频繁闭合模式的算法REMFOR,该算法在闭合模式概念和行枚举思想的基础上,采用垂直数据结构和fp-tree技术,对行集建立行fp-tree来挖掘频繁闭合模式。通过实例和实验证明该算法是正确有效的。  相似文献   

4.
直接对生物序列进行频繁模式挖掘会产生很多冗余模式,闭合模式更能表达出序列的功能和结构。根据生物序列的特点,提出了基于相邻闭合频繁模式段的模式挖掘算法-JCPS。首先产生闭合相邻频繁模式段,然后对这些闭合频繁模式段进行组合,同时进行闭合检测,产生新的闭合频繁模式。通过对真实的蛋白质序列家族库的处理,证明该算法能有效处理生物序列数据。  相似文献   

5.
频繁闭合项目集的并行挖掘算法研究   总被引:2,自引:1,他引:2  
缪裕青 《计算机科学》2004,31(5):166-168
频繁项目集挖掘因其在数据挖掘领域中的基础地位和广泛应用备受学术界和产业界的关注,用挖掘频繁闭合项目集代替挖掘频繁项目集是近年来提出的一个重要策略。不同于以往提出的挖掘所有频繁项目集的并行算法,本文针对频繁闭合项目集的特性及并行挖掘的特点,给出了共享存储器模型上(Shared Memory)基于频繁模式树(FP-tree)的挖掘频繁闭合项目集的并行算法(FCIPM)思想,提出了频繁闭合项目集直接判断法,性能分析表明所提技术对算法的性能提高起到了关键作用。  相似文献   

6.
一种新的Web频繁访问模式挖掘算法   总被引:1,自引:0,他引:1  
提出了一种基于有向图的从Web日志中挖掘用户频繁访问模式的新算法,与传统使用基于关联规则挖掘的序列模式挖掘技术相比,本算法采用有向图来记录Web访问序列和它的计数,在挖掘过程中只需要扫描数据库一次,不产生数量庞大的候选模式,即可直接挖掘出所有的Web频繁访问路径,大大提高了Web访问模式的发现效率。  相似文献   

7.
提出一种基于投影和树的闭合频繁模式挖掘的算法.此算法利用一种数据结构:投影和树,把事务投影到这棵前缀树上,它除了可以从空间上紧凑地存放频繁模式外,还建立了层的概念,挖掘时充分利用已有的计算结果,不重复计算.另外挖掘时,算法只对投影和树进行一次遍历,不需要进行耗时的I/O操作,也不需要递归地建立条件FP树而消耗大量的CPU计算资源.实验结果表明在稠密集上,其效率较高.  相似文献   

8.
为了避免用户通过"二次挖掘"才能得到有用的结果集,本文提出了一种新的约束最大频繁模式挖掘算法CSMFPMax.CSMFP-Max算法基于CFP树和对称矩阵,在挖掘过程中采用了多种剪枝策略并结合了自顶向下和自底向上的双向搜索策略,大大缩小了候选集规模,避免了不必要的条件CFP树的产生.理论分析和实验结果表明CSMFP-Max算法是一种高效的约束最大频繁模式挖掘算法,具有良好的时空效率.  相似文献   

9.
荣文亮  杨燕 《计算机应用》2008,28(6):1467-1470
用挖掘频繁闭合模式集代替挖掘频繁模式集是近年来提出的一个重要策略。根据数据流的特点,提出了一种基于滑动窗口的频繁闭合模式的新方法DSFC_Mine。该算法以滑动窗口中的基本窗口为更新单位,利用改进的CHARM算法计算每个基本窗口的潜在频繁闭合项集,将它们存储到一种新的数据结构中,利用该数据结构可以快速地挖掘滑动窗口中的所有频繁闭合项集。实验验证了该算法在时间上和空间上的可行性和有效性。  相似文献   

10.
利用元学习技术提出了一种分布式挖掘频繁闭合模式算法;为适应不同的分布式环境,还给出了该算法的一个变种;最后通过实验讨论了不同分布式下选取算法的策略。算法具有挖掘效率高、通信量少、可靠性高的特点,适合分布式挖掘。  相似文献   

11.
刘松 《微计算机信息》2006,22(18):209-211
应用容错式挖掘,更多有用的信息可以从真实世界中被噪音干扰的数据中获取。然而在过去相关的研究中,容错式频繁模式挖掘问题不是没有成熟的定义,就是将问题局限于仅找出允许固定错误数据项数的频繁模式。本文提出了比例性容错频繁模式挖掘的问题,并给出了两个实现算法。第一个算法称为FT-BottomUp,采用FT-Apriori定理找出允许所有可能错误数据项数的容错频繁模式。第二个算法FT-LevelWise将所有的容错频繁模式按照它们所允许的错误数据项目数量分成多个群组,并分别挖掘出各个群组内的频繁模式。实验结果证明我们所提出的方法可以挖掘出更多潜在的频繁模式。  相似文献   

12.
高维大数据集对现有的数据挖掘算法提出了挑战。该文把挖掘任务分解为挖掘频繁长模式与短模式2个子问题,提出一种在高维大数据集中挖掘长项集的算法,即inter-transaction。该算法利用了高维数据中长事务相交迅速变短的特性,通过事务的交集运算直接得到长闭合模式,同时采用新的减枝策略,优化了事务交集运算的方法。实验表明,该方法对高维大数据集非常有效。  相似文献   

13.
数据流闭频繁项集挖掘算法得到了广泛的研究,其中一个典型的工作就是NewMomen、算法。针对New- Moment算法存在搜索空间大而造成算法时间效率低的问题,提出了一种改进的数据流闭频繁项集挖掘算法A-Ncw- Moment。它设计了一个二进制位表示项目与扩展的频繁项目列表相结合的数据结构,来记录数据流信息及闭频繁项 集。在窗体初始阶段,首先挖掘频繁1一项集所产生的支持度为最大的最长闭频繁项集,接着提出新的“不需扩展策略” 和“向下扩展策略”来避免生成大量中间结果,快速发现其余闭频繁项集,达到极大缩小搜索空间的目的。在窗体滑动 阶段,提出“动态不频繁剪枝策略”来从已生成的闭频繁项集中快速删除非闭频繁项集,并提出“动态不搜索策略”来动 态维护所有闭频繁项集的生成,以降低闭频繁项集的维护代价,提高算法的效率。理论分析与实验结果表明,A-New- Moment算法具有较好的性能。  相似文献   

14.
挖掘最大频繁模式的新方法   总被引:11,自引:0,他引:11  
刘君强  孙晓莹  王勋  潘云鹤 《计算机学报》2004,27(10):1328-1334
由于其内在的计算复杂性,挖掘密集型数据集的频繁模式完全集非常困难,解决方案之一是挖掘最大频繁模式集.该文在频繁模式完全集挖掘算法Opportune Project基础上,提出了挖掘最大频繁模式的新算法MOP.它采用宽度与深度优先相结合的混合搜索策略,能恰当地选择不同的支持集表示和投影方法,将闭合性剪裁和一般性剪裁相结合,并适时前窥,实现搜索与剪裁效率最优化.实验表明,MOP效率是MaxMiner的2~8倍,比MAFIA高2个数量级以上.  相似文献   

15.
序列模式挖掘就是在时序数据库中挖掘相对时间或其他模式出现频率高的模式.序列模式发现是最重要的数据挖掘任务之一,并有着广阔的应用前景.针对静态数据库,序列模式挖掘已经被深入的研究.近年来,出现了一种新的数据形式:数据流.针对基于数据流的序列模式挖掘的研究还不是十分深入.提出一个有效的基于数据流的挖掘频繁序列模式的算法SSPM,利用到2个数据结构(F-list和Tatree)来处理基于数据流的序列模式挖掘的复杂性问题.SSPM的优点是可以最大限度地降低负正例的产生,实验表明SSPM具有较高的准确率.  相似文献   

16.
为了发现业务执行流程中的潜在知识,提出一种非邻接模式挖掘算法,同时考虑活动和边的发生频率,结合工作流模型和作用日志,以图分析方法挖掘工作流非邻连模式。该算法对候选模式搜索空间进行充分剪枝,以提高运行效率,可以为业务流程的改造和优化提供依据。  相似文献   

17.
最大频集的挖掘方法   总被引:1,自引:0,他引:1  
刘君强  孙晓莹  王勋 《计算机工程》2003,29(11):25-26,173
在对树生成的策略、模式支持集表示与投影、闭合性剪裁方法研究的基础上,提出了挖掘最大频繁集的两个新算法cap-max和op-max。cap-max是基于闭合频集的二阶段挖掘算法,先挖掘闭合频集,再从中求得最大频集;op-max是直接剪裁完全频集的算法,在频集生成过程中,通过前窥和包含关系检查及时剪裁搜索空间。实验表明,cap—max的时间效率比maxminer高1.5~4倍,op-cap的时间效率比maxminer高2~lO倍。  相似文献   

18.
最大频繁序列发现是数据挖掘中的一个重要分支.本文提出一种发现最大频繁序列集的算法MAXSeq,该算法通过对潜在的最大频繁序列进行选择性的扩展,直接判断其是否为最大序列,无须对候选最大序列进行维护,从而显著减小了存储开销.同时,优化策略的恰当运用对降低CPU时间起着至关重要的作用.  相似文献   

19.
频繁模式的并行挖掘算法是数据挖掘中重要的研究课题。目前已经提出的并行算法大多是基于Apriori或基于FP-tree。由于两者的固有局限性,而且在计算过程中需要多次同步,因而具有较低的性能。文章提出了一种基于分布数据库的并行挖掘算法。该算法尽可能地让每个处理器独立地挖掘,每个处理器基于前缀树采用深度优先搜索的策略挖掘局部频繁模式集,并通过相关性质尽量减少候选全局频繁模式的规模,减少网络的通信量和同步次数以提高挖掘效率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号