首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 128 毫秒
1.
挖掘闭合多维序列模式的可行方法   总被引:1,自引:1,他引:0  
为了对闭合多维序列模式进行挖掘,研究了多维序列模式的基本性质,进而提出了挖掘闭合多雏序列模式的新方法.该方法集成了闭合序列模式挖掘方法和闭合项目集模式挖掘方法,通过证明该方法的正确性,指出闭合多维序列模式集合不大于多维序列模式集合,并且能够覆盖所有多维序列模式的结果集.最后分析了该方法所具备的两个明显优点,表明了在闭合多维序列模式挖掘中的可行性.  相似文献   

2.
互斥关系模式挖掘算法研究   总被引:2,自引:0,他引:2  
序列模式挖掘是数据挖掘的一个重要领域,结构关系模式挖掘是在序列模式挖掘基础上提出的一种新的挖掘任务.重点对结构关系模式的一个重要分支--互斥关系模式进行了研究,在给出与互斥关系模式相关概念的基础上讨论了互斥关系模式挖掘的两种算法,即基本检测法和分类检测法.实验结果表明,两种算法都是有效的,在序列模式数量很大时,分类检测法的挖掘效率高于基本检测法.结构关系模式挖掘和序列模式挖掘一样在实际应用中有着重要的价值,一些在序列模式挖掘过程中不能发现的隐藏模式将在结构关系模式中被发现,互斥关系模式的研究将进一步为结构关系模式挖掘理论的完善提供支持.  相似文献   

3.
序列模式挖掘综述   总被引:4,自引:0,他引:4  
综述了序列模式挖掘的研究状况。首先介绍了序列模式挖掘背景与相关概念;其次总结了序列模式挖掘的一般方法,介绍并分析了最具代表性的序列模式挖掘算法;最后展望序列模式挖掘的研究方向。便于研究者对已有算法进行改进,提出具有更好性能的新的序列模式挖掘算法。  相似文献   

4.
蛋白质序列作为生物序列数据一个重要组成部分,对其的分析研究已经成为生物信息学中的一个重要的研究方向和内容.通过对序列进行模式挖掘,可以对蛋白质序列或某一蛋白质家族序列进行研究,因此蛋白质序列的模式挖掘已经成为蛋白质序列研究中的一项重要任务.MBioPM是一种最新的生物序列模式挖掘算法,该算法通过引入模式划分概念,提高算法的效率,但该算法在效率方面仍存在不足,而且挖掘结果存在冗余性的问题.因此,提出一种优化算法BioPMMH,通过带有模式划分特点的Hash链表结构来优化算法中的搜索空间及策略,并在算法过程中对重复模式进行过滤.实验表明,算法BioPMMH能有效提高模式挖掘的效率,并解决结果的冗余性问题.  相似文献   

5.
为了更好地分析购物篮数据,挖掘出潜在客户,序列模式挖掘应运而生。序列模式挖掘是数据挖掘一个重要研究内容,近年来在很多领域得到广泛运用。概述序列模式挖掘的发展现状,研究基本挖掘框架的经典挖掘算法与扩展模型挖掘算法,特别针对近年来出现的新数据形式序列模式挖掘,以及基于零压缩二叉决策图(ZBDD)结构的挖掘算法做了阐述,最后对序列模式挖掘发展趋势进行了展望。  相似文献   

6.
序列模式图及其构造算法   总被引:11,自引:0,他引:11  
序列模式挖掘是数据挖掘的一个重要分支。在序列事务及有关信息处理中有着广泛的应用,目前已有许多序列模式模型及相应的挖掘算法,该文在对序列模式挖掘问题及挖掘算法进行分析的基础上。定义了一种称为序列模式图的序列模式框架。用于表示序列模式挖掘过程发现的所有序列模式,序列模式图是由离散状态的序列集到统一的图结构的桥梁,可以将序列模式挖掘结果统一到序列模式图中来,基于序列模式图进行研究可发现某些结构化的新知识,称之为后序列模式挖掘,文中还给出了序列模式图的有关性质及构造算法。  相似文献   

7.
在序列模式挖掘相关研究中,增量式挖掘是序列模式挖掘中的难点和热点.在分析了2-序列矩阵的相关特性和理论基础上,提出了一种基于2-序列矩阵的序列模式增量挖掘算法SPI_2SM,该算法充分应用了先前挖掘的结果,减少了对数据库的扫描和查找次数,减少了空间开销,提高了挖掘效率.  相似文献   

8.
多维序列模式挖掘是在序列模式挖掘的基础上发展起来的,文章阐述了有关概念,介绍了两种序列模式挖掘算法:GSP算法和PrefixSpan算法,在对两类算法进行比较分析的基础上形成了挖掘多维序列模式的UniSeq算法、Dim-Seq算法和Seq-Dim算法.针对不同维度的模式,各种算法特点不同.  相似文献   

9.
一种挖掘压缩序列模式的有效算法   总被引:1,自引:0,他引:1  
从序列数据库中挖掘频繁序列模式是数据挖掘领域的一个中心研究主题,而且该领域已经提出和研究了各种有效的序列模式挖掘算法.由于在挖掘过程中会产生大量的频繁序列模式,最近许多研究者已经不再聚焦于序列模式挖掘算法的效率,而更关注于如何让用户更容易地理解序列模式的结果集.受压缩频繁项集思想的启发,提出了一种CFSP(compressing frequent sequential patterns)算法,其可挖掘出少量有代表性的序列模式来表达全部频繁序列模式的信息,并且清除了大量的冗余序列模式.CFSP是一种two-steps的算法:在第1步,其获得了全部闭序列模式作为有代表性序列模式的候选集,与此同时还得到大多数的有代表性模式;在第2步,该算法只花费了少量的时间去发现剩余的有代表性序列模式.一个采用真实数据集与模拟数据集的实验研究也证明了CFSP算法具有高效性.  相似文献   

10.
序列模式挖掘就是在时序数据库中挖掘相对时间或其他模式出现频率高的模式.序列模式发现是最重要的数据挖掘任务之一,并有着广阔的应用前景.针对静态数据库,序列模式挖掘已经被深入的研究.近年来,出现了一种新的数据形式:数据流.针对基于数据流的序列模式挖掘的研究还不是十分深入.提出一个有效的基于数据流的挖掘频繁序列模式的算法SSPM,利用到2个数据结构(F-list和Tatree)来处理基于数据流的序列模式挖掘的复杂性问题.SSPM的优点是可以最大限度地降低负正例的产生,实验表明SSPM具有较高的准确率.  相似文献   

11.
韩萌  丁剑 《计算机应用》2019,39(3):719-727
一些先进应用如欺诈检测和趋势学习等带来了数据流频繁模式挖掘的发展。不同于静态数据,数据流挖掘面临着时空约束和项集组合爆炸等问题。对已有数据流频繁模式挖掘算法进行综述并对经典和最新算法进行分析。按照模式集合的完整程度进行分类,数据流中频繁模式分为全集模式和压缩模式。压缩模式主要包括闭合模式、最大模式、top-k模式以及三者的组合模式。不同之处是闭合模式是无损压缩的,而其他模式是有损压缩的。为了得到有趣的频繁模式,可以挖掘基于用户约束的模式。为了处理数据流中的新近事务,将算法分为基于窗口模型和基于衰减模型的方法。数据流中模式挖掘常见的还包含序列模式和高效用模式,对经典和最新算法进行介绍。最后给出了数据流模式挖掘的下一步工作。  相似文献   

12.
Constraint-based sequential pattern mining: the pattern-growth methods   总被引:4,自引:0,他引:4  
Constraints are essential for many sequential pattern mining applications. However, there is no systematic study on constraint-based sequential pattern mining. In this paper, we investigate this issue and point out that the framework developed for constrained frequent-pattern mining does not fit our mission well. An extended framework is developed based on a sequential pattern growth methodology. Our study shows that constraints can be effectively and efficiently pushed deep into the sequential pattern mining under this new framework. Moreover, this framework can be extended to constraint-based structured pattern mining as well. This research is supported in part by NSERC Grant 312194-05, NSF Grants IIS-0308001, IIS-0513678, BDI-0515813 and National Science Foundation of China (NSFC) grants No. 60303008 and 69933010. All opinions, findings, conclusions and recommendations in this paper are those of the authors and do not necessarily reflect the views of the funding agencies.  相似文献   

13.
Sequential pattern mining is an important data mining problem with broad applications. However,it is also a challenging problem since the mining may have to generate or examine a combinatorially explosivenumber of intermediate subsequences. Recent studies have developed two major classes of sequential patternmining methods: (1) a candidate generation-and-test approach, represented by (i) GSP, a horizontal format-basedsequential pattern mining method, and (ii) SPADE, a vertical format-based method; and (2) a pattern-growthmethod, represented by PrefixSpan and its further extensions, such as gSpan for mining structured patterns. In this study, we perform a systematic introduction and presentation of the pattern-growth methodologyand study its principles and extensions. We first introduce two interesting pattern-growth algorithms, FreeSpanand PrefixSpan, for efficient sequential pattern mining. Then we introduce gSpan for mining structured patternsusing the same methodology. Their relative performance in l  相似文献   

14.
Frequent pattern mining: current status and future directions   总被引:10,自引:2,他引:10  
Frequent pattern mining has been a focused theme in data mining research for over a decade. Abundant literature has been dedicated to this research and tremendous progress has been made, ranging from efficient and scalable algorithms for frequent itemset mining in transaction databases to numerous research frontiers, such as sequential pattern mining, structured pattern mining, correlation mining, associative classification, and frequent pattern-based clustering, as well as their broad applications. In this article, we provide a brief overview of the current status of frequent pattern mining and discuss a few promising research directions. We believe that frequent pattern mining research has substantially broadened the scope of data analysis and will have deep impact on data mining methodologies and applications in the long run. However, there are still some challenging research issues that need to be solved before frequent pattern mining can claim a cornerstone approach in data mining applications. The work was supported in part by the U.S. National Science Foundation NSF IIS-05-13678/06-42771 and NSF BDI-05-15813. Any opinions, findings, and conclusions or recommendations expressed here are those of the authors and do not necessarily reflect the views of the funding agencies.  相似文献   

15.
对入侵检测和数据挖掘从定义和分类等各方面等进行了基本介绍,提出了一个基于数据挖掘的入侵检测系统的总体框架,其整个系统分为训练阶段和测试阶段,对其中各个模块进行基本的功能分析。为了提高数据挖掘的效率,可以将序列模式挖掘引入该入侵检测系统中。将关联规则算法和序列模式挖掘算法同时使用,增加挖掘的粒度。对序列模式挖掘的算法进行了具体分析,并通过具体的实例来说明引入序列模式挖掘能更好地提高数据挖掘的效率。  相似文献   

16.
随着计算机的发展,网络安全在现代社会中扮演着越来越关键的角色,并成为比较严重的问题。该文详细分析了基于序列模式的数据挖掘技术,并且在挖掘过程中提出了一种新的序列模式算法。  相似文献   

17.
通过对不同支持度下序列模式挖掘产生模式个数分布的研究,利用曲线拟合技术,提出一种支持度与序列模式个数的关系模型。在对客户序列数据库子集进行预挖掘的基础上,利用该模型为用户在挖掘前确定支持度阈值提供参考。在不同类型数据集上采用该方法,得到预期结果,表明该方法是正确有效的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号