首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
闭合序列模式挖掘算法   总被引:3,自引:1,他引:2  
提出了一种新的挖掘闭合序列模式的PosD算法,该算法利用位置数据保存数据项的顺序信息,并基于位置数据列表保存数据项的顺序关系提出了两种修剪方法:逆向超模式和相同位置数据。为了确保栅格存储的正确性和简洁性,另外还针对一些特殊情况做处理。试验结果表明,在中大型数据库和小支持度的情况下谊算法比CloSpan算法更有效。  相似文献   

2.
序列模式的挖掘是近年来的研究热点之一,目前很多研究都集中在闭合频繁项集与闭合序列模式的挖掘,较少涉及更加复杂、有重要应用价值的组合序列模式.针对任意长度和任意组合次数的频繁组合序列模式,提出了一种挖掘全部闭合的组合序列的算法CloCSP.为克服指数量级的候选序列进行闭合检验的困难,提出了既能生成频繁组合序列,又能有效剪枝,并同时完成闭合检验的混合扩展策略,该策略无需维护候选集.实验表明,CloCSP算法能够有效挖掘出隐藏在序列数据中,尤其是稠密数据集内的闭合组合序列模式,有助于揭示更加复杂的序列模式.  相似文献   

3.
一种基于频繁序列树的增量式序列模式挖掘算法   总被引:1,自引:0,他引:1  
针对目前现有的增量式序列模式挖掘算法没有充分利用先前的挖掘结果,当数据库更新时,需要对数据库进行重复挖掘的问题。本文提出一种基于频繁序列树的增量式序列模式挖掘算法(ISFST),ISFST采用频繁序列树作为序列存储结构,当数据库发生变化时,ISFST算法分两种情况对频繁序列树进行更新操作,通过遍历频繁序列树得到满足最小支持度的所有序列模式。实验结果表明,ISFST算法在时间性能上优于PrefixSpan算法和IncSpan算法。  相似文献   

4.
在加权序列模式挖掘中,基于候选码生成-测试方法的MWSP是目前应用性最好的算法之一,然而在挖掘过程中容易出现候选组合爆炸的情况,为此文章提出了一种高效的加权序列模式挖掘算法(PWSM)。PWSM算法引入k-最小加权支持数概念并利用前缀投影数据库原理有效地避免了候选组合爆炸的发生,并且在挖掘的过程中充分利用最小加权支持数,再次对算法进行优化。实验表明,该算法较MWSP算法能更加有效地从序列数据库中挖掘加权序列模式。  相似文献   

5.
直接对生物序列进行频繁模式挖掘会产生很多冗余模式,闭合模式更能表达出序列的功能和结构。根据生物序列的特点,提出了基于相邻闭合频繁模式段的模式挖掘算法-JCPS。首先产生闭合相邻频繁模式段,然后对这些闭合频繁模式段进行组合,同时进行闭合检测,产生新的闭合频繁模式。通过对真实的蛋白质序列家族库的处理,证明该算法能有效处理生物序列数据。  相似文献   

6.
传统的类Apriori频繁序列模式挖掘算法都是基于支持度框架理论,需要预先设定支持度阈值,而这通常需要较深的领域知识或大量的实践,因此目前仍没有一种很好的设定方法.同时,序列模式的挖掘结果往往数量很大且不易理解,可用性较低.针对上述问题,提出了一种基于逻辑的频繁序列模式挖掘算法即LFSPM算法,并首次在频繁序列模式挖掘算法中引入了逻辑的思想,通过逻辑规则过滤,大大优化了结果集.实验证明,该算法较好地解决了支持度设置问题及挖掘结果可理解性不高的问题.  相似文献   

7.
王丹丹  蒋文娟 《计算机科学》2012,39(11):153-156
为了提高工作流环境下频繁模式挖掘的准确性,提出了一种新的频繁闭合模式挖掘算法。首先扩展了依赖 矩阵的定义,即利用工作流日志建立包含直接依赖关系和交叠关系的依赖支持度矩阵。然后扩展了CHARM算法, 以在支持度矩阵的基础上自动挖掘频繁闭合活动集。最后对频繁闭合项集进行处理,以形成最终的工作流频繁闭合 模式。该算法对于并行和选择关系的处理能力优于同类算法。  相似文献   

8.
提出一种新的闭合序列模式挖掘算法,该算法利用位置数据保存数据项的序列信息,并提出两种修剪方法:逆向超模式和相同位置数据。为了确保格存储的正确性和简洁性,另外还针对一些特殊情况做处理。试验结果表明,在中大型数据库和小支持度的情况下,该算法比CloSpan算法[8]更有效。  相似文献   

9.
针对CloSpan算法分两个阶段挖掘闭合序列模式中第一阶段需要保持候选序列且未充分利用项的位置信息、存在对数据库重复扫描和计算大小的不足,提出了posCloSpan算法。算法通过对二级索引结构进行检索实现向前剪枝,避免数据库重复扫描以及对超序索引表、子序索引表的检测,实现非闭合序列的修剪,无须保存候选序列。实验结果证明,算法在处理较长序列以及存在大量重复投影数据库的数据源时,有效降低了时间上的开销。  相似文献   

10.
频繁闭合模式是频繁模式的无损压缩,因此采用频繁闭合模式的挖掘来代替频繁模式挖掘,可以适当的压缩计算和存储开销。文中针对已有的面向基因表达数据集频繁闭合模式挖掘算法CARPENTER多次扫描数据集转置表带来巨大开销的缺陷,提出了基于排序的频繁闭合模式挖掘算法SFCP。在真实数据集上的实验结果表明,该算法效率比CARPENTER算法高。  相似文献   

11.
序列模式挖掘的一种渐进算法   总被引:24,自引:0,他引:24  
周斌  吴泉源 《计算机学报》1999,22(8):882-887
序列模式挖掘是数据挖掘中最重要的研究课题之一,基于时序相关数据的序列模式挖掘有其自身的特色。作者提出一种渐进式序列模式挖掘算法IMSP,目的是在数据库变化不大时,能够利用前次的结果,加速本次挖掘过程。  相似文献   

12.
一种高效的挖掘序贯模式的算法   总被引:1,自引:0,他引:1  
本文给出了一种挖掘数据库中序贯模式的算法,通过认真地研究了挖掘过程中的中间及结果数据的存储结构,大大地减少了对数据库的扫描遍数,提高了算法的效率。  相似文献   

13.
Pattern matching with both gap constraints and the one-off condition is a challenging topic, especially in bioinformatics, information retrieval, and dictionary query. Among the algorithms to solve the problem, the most efficient one is SAIL, which is time consuming, especially when the pattern is long. In addition, existing algorithms based on bit-parallelism cannot handle a pattern that has only one pattern character between successive wildcards and the minimum local length constraints are zero. We propose an algorithm BPBM to handle online sequential pattern matching. In BPBM, an extended bit-parallelism operation is used to accelerate the matching process. An effective transition window mechanism with two nondeterministic finite state automatons (NFAs) is adopted to drop the useless scan window. It identifies gap constraints automatically and just scans once to export occurrences with exact match positions. Theoretical analysis and experimental results show that the BPBM algorithm is more competitive than other peers. It has an absolute advantage on search time complexity. It also has better stability that decreases operation costs with the increasing of the size of sequence alphabet or the length of the pattern. We also study off-line pattern matching. With twice pruning, left-most and right-most, we can increase the matching ratio about 2.08% on average.  相似文献   

14.
随着数据量的增长,如何快速有效发现频繁项集已成为挖掘关联规则的核心问题,而并行计算和闭频繁项集分别是一种处理大量数据直接有效的方法和频繁项集的无失真信息最小集合。分析一些经典闭频繁项集算法和并行关联规则算法及其不足,提出一种基于多核微机的并行闭频繁项集挖掘算法,提高了闭频繁项集挖掘的效率。  相似文献   

15.
在医保基金管理中,第三方付费机制和信息不对称等问题造成了基金运作面临严重道德风险困境,医药机构和参保人可能存在过度使用医保基金的倾向。通过对参保人就医行为序列的分析挖掘其就医行为模式,对于发现疾病发病规律、参保人健康状况以及是否存在违规欺诈行为,从而有效防范基金风险具有非常重要的作用。由于就医行为模式的特殊性,传统的序列模式挖掘算法在结果可用性和效率上存在问题,如挖掘结果丢失时间间隔较长的模式,挖掘过程需多次构造投影数据库等,因此难以直接应用。针对就医行为模式特点,提出了基于二叉树增长策略的向量模式挖掘算法VPM。实验表明,VPM算法在解决就医行为模式挖掘问题上具有良好的性能。  相似文献   

16.
在频繁项集挖掘过程中会发现事务或关系数据集中项目具有不同的重要性,而一些经典的频繁模式挖掘算法仅考虑项目频数这一属性来进行挖掘操作。针对该问题为不同的项目添加不同权重,提出一个新的加权规则模型,定义一种特殊的模式即显著模式。构造一棵类似于FPTree树的、具有高度压缩存储特性的数据结构树——SPTree(Significant Pattern Tree),之后基于SPTree树提出一个新颖的挖掘显著模式的算法DMSP(Data Mining Significant Pattern)。实验结果验证DMSP算法能够高效地挖掘显著模式。该算法可以有效解决由于项目重要性各不相同而导致的问题,有利于发现更多有研究价值的信息。  相似文献   

17.
随着网络和其它信息技术的广泛应用,网络数据流量急剧增长,但现有网络流量异常监测的准确性与实时性均达不到实际应用的需求,迫切需要对流量数据进行快速、深层次的分析.因此,提出一种快速关联模式挖掘算法,通过提取重要的网络数据特征进行关联挖掘,不仅为流量数据分析判断提供及时准确的参考和借鉴,而且提高了监测准确性和效率.  相似文献   

18.
为了及时发现公路隧道内发生的事故隐患,尽量减少事故发生的不利影响,分析了隧道交通事件的分类与属性,阐述了现有交通事件检测技术用于隧道交通的不足,提出了一个基于序列模式挖掘的隧道交通事件检测系统,分析了系统各模块的基本功能。在系统的数据挖掘模块应用了关联规则和序列模式挖掘,分析了序列模式挖掘算法的具体应用,采用序列模式挖掘的PrefixS-pan算法生成隧道交通事件序列模式。实验表明,生成的模式反映了隧道交通事件的序列特征,可以用于建立隧道交通事件规则库。  相似文献   

19.
不确定数据集中频繁模式挖掘的研究热点之一是挖掘算法的时空效率的提高,特别在目前数据量越来越大的情况下,实际应用对挖掘算法效率的要求也更高。针对动态不确定数据流中的频繁模式挖掘模型,在算法AT-Mine的基础上,给出一个基于MapReduce的并行挖掘算法。该算法需要两次MapReduce就可以从一个滑动窗口中挖掘出所有的频繁模式。实验中,多数情况下通过一次MapReduce就可以挖掘到全部频繁项集,并且能按数据量大小均匀地把数据分配到各个节点上。实验验证了该算法的时间效率能提高1个数量级。  相似文献   

20.
在XML频繁查询模式挖掘稠密数据集、长数据集中,为克服项目集挖掘过程中挖掘的项目过多、不利于结果利用等问题,提出基于频繁叶模式的最大频繁查询模式挖掘算法MFRSTMiner。该算法通过构造频繁模式扩展森林,在扩展森林的叶节点中挖掘出最大频繁子树。试验结果表明该算法能够有效地挖掘动态事务集的最大频繁查询模式。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号