首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 78 毫秒
1.
一种分布式序列模式挖掘算法   总被引:1,自引:0,他引:1  
常鹏  陈耿  朱玉全 《计算机应用》2008,28(11):2964-2966
针对分布式环境下的序列模式挖掘问题,提出了一种分布式序列模式挖掘(DSPM)算法。DSPM以PrefixSpan算法为基础,使用抽样检测技术平衡了任务负载,将挖掘任务分解后分配到多台计算机上以多进程、多线程并行执行。另外采用了伪投影技术来降低生成投影数据库的开销。实验结果表明,DSPM算法能够快速有效地挖掘分布式环境下的全局序列模式。  相似文献   

2.
序列中的一般化局部序列模式发现   总被引:4,自引:0,他引:4  
已有的时序序列中的模式发现方法主要关注于发现全局的模式,该模式的频繁度量通过扫描序列的所有记录产生.然而,仅在某个时间段中频繁的局部模式在实际中是广泛存在的,对其有效的发现是有意义的.介绍了一种在时序序列中发现一般化局部序列模式的方法.发现的模式具有形式"在子序列s中,如果A发生,则B在时间T内发生".提出的方法包括一个支持高效的模式实例定位与计数的索引结构和一个2段的局部模式挖掘算法.试验结果符合问题的定义,并证明了提出方法的优越性.  相似文献   

3.
序列模式挖掘是一项重要的数据挖掘任务,而Apriori算法是一种有效的关联规则挖掘方法,本文介绍了如何将Apriori算法应用于序列模式挖掘。  相似文献   

4.
栾东庆  徐素琴 《微机发展》2003,13(8):83-86,89
多维序列模式挖掘是在序列模式挖掘的基础上发展起来的,文章阐述了有关概念,介绍了两种序列模式挖掘算法:GSP算法和PrefixSpan算法,在对两类算法进行比较分析的基础上形成了挖掘多维序列模式的UniSeq算法、Dim-Seq算法和Seq-Dim算法。针对不同维度的模式,各种算法特点不同。  相似文献   

5.
序列模式挖掘的增量式算法的设计原则   总被引:2,自引:0,他引:2  
在序列模式的分层算法框架下,从理论上分析并讨论了数据集的渐进性和算法参数的相似性为增量式挖掘带来的启发信息,提出了增量式挖掘算法设计中的4项原则,并结合任务分解原则研究了搜索空间的分割。  相似文献   

6.
对较大数据集挖掘序列模式时,可能会因产生的大量候选集等原因无法装入内存而难以进行.文中提出基于分区的序列模式挖掘算法.以期克服有限存储问题,为并行处理及分布式处理做好基础.此外,当给出的分区数固定时,不同的分区性能可能存在较大差异,通过聚类方法对数据集预处理,以得到可以产生较少局部频繁宁列的特定分区,最终得到较少的全局候选序列以减少第二遍扫描时间.理论分析和实验表明,所提出的方法可比普通分区方法得到更加优化的分区,从而效率更高.  相似文献   

7.
由于考虑了用户的访问顺序,基于序列模式的推荐方法正在成为推荐系统研究的热点之一。为提高推荐结果的个性化程度,提出了一种基于加权序列模式的推荐算法PRWSP。首先,给出了新的加权序列模式模型,该模型在设置权重时充分考虑了项目在不同序列中的不同重要程度。其次,通过近似估计序列权重的方式,论证了挖掘加权序列模式时同样满足反单调性,从而约简了搜索空间。最后,定义了序列模式匹配程度的度量标准。实验结果表明,PRWSP算法具有较高的挖掘效率和推荐精度。  相似文献   

8.
针对序列模式挖掘,提出频繁2序列图(F2SG)来表示数据库中的序列信息,通过扫描一次数据库,将与挖掘任务相关的信息映射到F2SG中,并在此基础上提出一种新的序列模式发现算法——GBSP。GBSP算法充分利用F2SG中表示的项目之间的次序关系进行频繁序列挖掘,提高了其生成效率。理论分析与实验表明,该算法较传统的序列模式发现算法在时间和空间性能上具有优越性。  相似文献   

9.
闭合序列模式挖掘算法   总被引:3,自引:1,他引:2  
提出了一种新的挖掘闭合序列模式的PosD算法,该算法利用位置数据保存数据项的顺序信息,并基于位置数据列表保存数据项的顺序关系提出了两种修剪方法:逆向超模式和相同位置数据。为了确保栅格存储的正确性和简洁性,另外还针对一些特殊情况做处理。试验结果表明,在中大型数据库和小支持度的情况下谊算法比CloSpan算法更有效。  相似文献   

10.
序列模式挖掘的一种渐进算法   总被引:24,自引:0,他引:24  
周斌  吴泉源 《计算机学报》1999,22(8):882-887
序列模式挖掘是数据挖掘中最重要的研究课题之一,基于时序相关数据的序列模式挖掘有其自身的特色。作者提出一种渐进式序列模式挖掘算法IMSP,目的是在数据库变化不大时,能够利用前次的结果,加速本次挖掘过程。  相似文献   

11.
林颖 《计算机工程》2011,37(22):64-66
针对数据库减量时不断重复挖掘的问题,在已有闭合序列模式算法PosD*的基础上,提出一种减量挖掘算法 DePosD*。通过移动频繁和非频繁闭合序列集合之间的数据,在原有挖掘结果上直接进行更新,减少挖掘的时间。实验结果证明,在减量过程中该算法的时间效率与PosD*相比有所提高。  相似文献   

12.
提出了一种基于H-tree的多维序列模式挖掘算法,首先在序列信息中挖掘序列模式,然后针对每个序列模式,根据包含此模式的所有元组中的多维信息构造H-tree树,挖掘出相应的多维模式,从而得到了多维序列模式。该算法将多维分析方法与序列模式挖掘算法有效地结合在一起,当维度较高时具有较高的性能。  相似文献   

13.
吴军  欧阳艾嘉  张琳 《计算机工程》2021,47(8):45-53,61
传统的对比序列模式挖掘算法存在一定数量的假阳性对比序列模式,其提供的错误信息会干扰后续任务的决策.设计一种IEP-DSP算法过滤假阳性对比序列模式.运用spade方法和WRAcc对比性度量找到候选对比序列模式和所有置换数据集合中的对比序列模式,通过模拟置换过程,使用独立精确置换检验方法为不同长度的模式建立独立精确零分布...  相似文献   

14.
提出一种新的闭合序列模式挖掘算法,该算法利用位置数据保存数据项的序列信息,并提出两种修剪方法:逆向超模式和相同位置数据。为了确保格存储的正确性和简洁性,另外还针对一些特殊情况做处理。试验结果表明,在中大型数据库和小支持度的情况下,该算法比CloSpan算法[8]更有效。  相似文献   

15.
在加权序列模式挖掘中,基于候选码生成-测试方法的MWSP是目前应用性最好的算法之一,然而在挖掘过程中容易出现候选组合爆炸的情况,为此文章提出了一种高效的加权序列模式挖掘算法(PWSM)。PWSM算法引入k-最小加权支持数概念并利用前缀投影数据库原理有效地避免了候选组合爆炸的发生,并且在挖掘的过程中充分利用最小加权支持数,再次对算法进行优化。实验表明,该算法较MWSP算法能更加有效地从序列数据库中挖掘加权序列模式。  相似文献   

16.
使用序列模式精简基挖掘序列模式   总被引:3,自引:1,他引:3  
传统的序列模式挖掘方法在挖掘由短的频繁序列模式组成的数据库时有良好的性能.但在挖掘长的序列模式或支持度阈值很低时,这些方法可能遇到固有的困难,因为产生的频繁序列模式的数量经常太大.在许多情况下,用户可能只需要那些覆盖许多短模式的长模式.此外,在很多应用中,只要得到产生的频繁序列模式的近似支持度就已足够,而不需要它们的精确支持度.介绍了能将误差控制在确定范围内的频繁序列模式精简基的概念,并开发了一个挖掘这种序列模式精简基的算法.实验结果显示计算频繁序列模式精简基是很有前途的.  相似文献   

17.
Sequential Pattern Mining in Multi-Databases via Multiple Alignment   总被引:2,自引:0,他引:2  
To efficiently find global patterns from a multi-database, information in each local database must first be mined and summarized at the local level. Then only the summarized information is forwarded to the global mining process. However, conventional sequential pattern mining methods based on support cannot summarize the local information and is ineffective for global pattern mining from multiple data sources. In this paper, we present an alternative local mining approach for finding sequential patterns in the local databases of a multi-database. We propose the theme of approximate sequential pattern mining roughly defined as identifying patterns approximately shared by many sequences. Approximate sequential patterns can effectively summerize and represent the local databases by identifying the underlying trends in the data. We present a novel algorithm, ApproxMAP, to mine approximate sequential patterns, called consensus patterns, from large sequence databases in two steps. First, sequences are clustered by similarity. Then, consensus patterns are mined directly from each cluster through multiple alignment. We conduct an extensive and systematic performance study over synthetic and real data. The results demonstrate that ApproxMAP is effective and scalable in mining large sequences databases with long patterns. Hence, ApproxMAP can efficiently summarize a local database and reduce the cost for global mining. Furthremore, we present an elegant and uniform model to identify both high vote sequential patterns and exceptional sequential patterns from the collection of these consensus patterns from each local databases.  相似文献   

18.
入侵检测系统是计算机安全体系中的一个重要构成要素,随着网络数据流量的不断增大,与数据挖掘相结合的入侵检测系统成为了研究热点。本文针对计算机入侵检测中网络安全审计数据的特点,提出了一个改进的PrefixSpan算法,并通过检测一个网络审计记录的实验,进行了结果分析。  相似文献   

19.
用IBM数据生成工具生成数据考察了客户序列数、平均序列长度、平均事务长度、项目数等数据特性对挖掘结果序列模式个数的影响,得到了单项特性对挖掘结果序列模式个数的影响模型,用以在进行正式挖掘之前,通过数据特性对挖掘结果进行初步判断。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号