首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 46 毫秒
1.
闭合序列模式挖掘算法   总被引:3,自引:1,他引:2  
提出了一种新的挖掘闭合序列模式的PosD算法,该算法利用位置数据保存数据项的顺序信息,并基于位置数据列表保存数据项的顺序关系提出了两种修剪方法:逆向超模式和相同位置数据。为了确保栅格存储的正确性和简洁性,另外还针对一些特殊情况做处理。试验结果表明,在中大型数据库和小支持度的情况下谊算法比CloSpan算法更有效。  相似文献   

2.
序列模式挖掘综述   总被引:4,自引:0,他引:4  
综述了序列模式挖掘的研究状况。首先介绍了序列模式挖掘背景与相关概念;其次总结了序列模式挖掘的一般方法,介绍并分析了最具代表性的序列模式挖掘算法;最后展望序列模式挖掘的研究方向。便于研究者对已有算法进行改进,提出具有更好性能的新的序列模式挖掘算法。  相似文献   

3.
路由器日志序列模式挖掘   总被引:1,自引:1,他引:0  
庄军  郭平  周杨  周劲  蔡日旭 《计算机科学》2005,32(11):179-181
随着网络技术的发展,人们对网络质量的要求也越来越高,作为网络传榆中重要环节之一的路由器的工作状态的变化直接影响到网络运行质量。从路由器日志中挖掘出的知识既可用于评价网络质量,又可用于改善网络信息服务。本文分析了路由器日志中一些常见信息,采用序列挖掘方法对日志进行了挖掘,并对挖掘结果进行了解释和分析。  相似文献   

4.
提出了一种基于H-tree的多维序列模式挖掘算法,首先在序列信息中挖掘序列模式,然后针对每个序列模式,根据包含此模式的所有元组中的多维信息构造H-tree树,挖掘出相应的多维模式,从而得到了多维序列模式。该算法将多维分析方法与序列模式挖掘算法有效地结合在一起,当维度较高时具有较高的性能。  相似文献   

5.
提出一种基于最大频繁模式、模式相似与属性描述相结合的多维序列模式挖掘算法MSP,该算法包括3个步骤:挖掘数据集中的最大频繁模式,每个频繁模式成为一个模式类;比较数据中各序列项序列与各模式类的包含与相似关系;按照一定的规则抽取与各模式类相关的属性,给出以属性为前件、模式类为后件的多维序列规则为形式的多维序列模式挖掘结果....  相似文献   

6.
提出了同时适用于一维和多维序列数据的统一存储结构——编码频繁模式树(CFP-tree),并通过渐进的前缀序列搜索方式来发现频繁序列模式,避免了在挖掘过程中递归地产生大量的中间子序列。实验证明,该算法在大规模数据的处理上比现有序列模式挖掘算法有更好的性能。  相似文献   

7.
序列模式挖掘是一项重要的数据挖掘任务,而Apriori算法是一种有效的关联规则挖掘方法,本文介绍了如何将Apriori算法应用于序列模式挖掘。  相似文献   

8.
提出了满足滑动窗口、最大间隙、最小间隙、最大跨度四种时间参数限制的序列挖掘算法.算法通过划分不同的等价类分解搜索空间,利用时间连接实现模式的逐步增长,挖掘过程只需扫描一次序列数据库.由于序列嵌入的四种参数具有通用性,本算法不仅能发现以前相关算法所能发现的模式,还能发现其他算法所不能发现的模式。  相似文献   

9.
序列模式的挖掘是近年来的研究热点之一,目前很多研究都集中在闭合频繁项集与闭合序列模式的挖掘,较少涉及更加复杂、有重要应用价值的组合序列模式.针对任意长度和任意组合次数的频繁组合序列模式,提出了一种挖掘全部闭合的组合序列的算法CloCSP.为克服指数量级的候选序列进行闭合检验的困难,提出了既能生成频繁组合序列,又能有效剪枝,并同时完成闭合检验的混合扩展策略,该策略无需维护候选集.实验表明,CloCSP算法能够有效挖掘出隐藏在序列数据中,尤其是稠密数据集内的闭合组合序列模式,有助于揭示更加复杂的序列模式.  相似文献   

10.
一种分布式序列模式挖掘算法   总被引:1,自引:0,他引:1  
常鹏  陈耿  朱玉全 《计算机应用》2008,28(11):2964-2966
针对分布式环境下的序列模式挖掘问题,提出了一种分布式序列模式挖掘(DSPM)算法。DSPM以PrefixSpan算法为基础,使用抽样检测技术平衡了任务负载,将挖掘任务分解后分配到多台计算机上以多进程、多线程并行执行。另外采用了伪投影技术来降低生成投影数据库的开销。实验结果表明,DSPM算法能够快速有效地挖掘分布式环境下的全局序列模式。  相似文献   

11.
压缩频繁序列模式集是针对频繁序列模式的全集太大这个问题的一种解决方法.为了得到高质量的压缩效果,先对频繁序列模式聚簇,再从每个簇中挑选出有代表性的序列模式,使这些有代表性的序列模式的数目尽可能地少.一个贪婪算法和一个基于候选集的快速算法是压缩频繁序列模式集的有效算法.有代表性的序列模式集合是频繁序列模式的一种子集,实验结果表明它能取得很好的压缩效果.  相似文献   

12.
林颖 《计算机工程》2011,37(22):64-66
针对数据库减量时不断重复挖掘的问题,在已有闭合序列模式算法PosD*的基础上,提出一种减量挖掘算法 DePosD*。通过移动频繁和非频繁闭合序列集合之间的数据,在原有挖掘结果上直接进行更新,减少挖掘的时间。实验结果证明,在减量过程中该算法的时间效率与PosD*相比有所提高。  相似文献   

13.
Finding correlated sequential patterns in large sequence databases is one of the essential tasks in data mining since a huge number of sequential patterns are usually mined, but it is hard to find sequential patterns with the correlation. According to the requirement of real applications, the needed data analysis should be different. In previous mining approaches, after mining the sequential patterns, sequential patterns with the weak affinity are found even with a high minimum support. In this paper, a new framework is suggested for mining weighted support affinity patterns in which an objective measure, sequential ws-confidence is developed to detect correlated sequential patterns with weighted support affinity patterns. To efficiently prune the weak affinity patterns, it is proved that ws-confidence measure satisfies the anti-monotone and cross weighted support properties which can be applied to eliminate sequential patterns with dissimilar weighted support levels. Based on the framework, a weighted support affinity pattern mining algorithm (WSMiner) is suggested. The performance study shows that WSMiner is efficient and scalable for mining weighted support affinity patterns.  相似文献   

14.
用IBM数据生成工具生成数据考察了客户序列数、平均序列长度、平均事务长度、项目数等数据特性对挖掘结果序列模式个数的影响,得到了单项特性对挖掘结果序列模式个数的影响模型,用以在进行正式挖掘之前,通过数据特性对挖掘结果进行初步判断。  相似文献   

15.
Sequential Pattern Mining in Multi-Databases via Multiple Alignment   总被引:2,自引:0,他引:2  
To efficiently find global patterns from a multi-database, information in each local database must first be mined and summarized at the local level. Then only the summarized information is forwarded to the global mining process. However, conventional sequential pattern mining methods based on support cannot summarize the local information and is ineffective for global pattern mining from multiple data sources. In this paper, we present an alternative local mining approach for finding sequential patterns in the local databases of a multi-database. We propose the theme of approximate sequential pattern mining roughly defined as identifying patterns approximately shared by many sequences. Approximate sequential patterns can effectively summerize and represent the local databases by identifying the underlying trends in the data. We present a novel algorithm, ApproxMAP, to mine approximate sequential patterns, called consensus patterns, from large sequence databases in two steps. First, sequences are clustered by similarity. Then, consensus patterns are mined directly from each cluster through multiple alignment. We conduct an extensive and systematic performance study over synthetic and real data. The results demonstrate that ApproxMAP is effective and scalable in mining large sequences databases with long patterns. Hence, ApproxMAP can efficiently summarize a local database and reduce the cost for global mining. Furthremore, we present an elegant and uniform model to identify both high vote sequential patterns and exceptional sequential patterns from the collection of these consensus patterns from each local databases.  相似文献   

16.
序列模式挖掘是数据挖掘的一个重要问题.传统的序列模式仅能揭示频繁出现的项目以及出现的顺序,但不能揭示在前续项目出现的情况下,后续项目出现的时间.在本文中,引入一种新的多时间粒度序列模式,模式中相邻项目之间的转换时间采用从原数据集中导出的、多时间粒度下的最小有界时间区间和平均时间标注.建立了多时间粒度序列模式挖掘模型,提出了一种新的多时间序列模式挖掘算法MG-PrefixSpan.实验表明,算法是有效的.  相似文献   

17.
基于隐私保护的数据挖掘是信息安全和知识发现相结合的产物.提出一种基于隐私保护的序列模式挖掘算法PP-SPM.算法以修改原始数据库中的敏感数据来降低受限序列模式的支持度为原则,首先构建SPAM序列树,根据一定的启发式规则,从中获得敏感序列,再进一步在原始数据库中找到敏感数据,对其做布尔操作,实现数据库的清洗.实验表明,该算法在完全保护隐私的情况下,对于D6C10T2.5S4I4数据集,当修改3.5%的原始数据后,其序列模式丢失率为2%.  相似文献   

18.
基于预聚类技术的并行序贯模式挖掘算法   总被引:3,自引:0,他引:3       下载免费PDF全文
本文讨论了在并行序贯模式数据挖掘方面采用“预聚类并行序贯模式挖掘”的策略,对数据序列聚类后按不同的类分布到不同的并行节点上,以减少甚至消除不必要的通讯开销,以便能够提高并行序贯模式挖掘在集群式高性能计算机上的执行效率。  相似文献   

19.
分布式序列模式发现算法的研究   总被引:12,自引:0,他引:12  
邹翔  张巍  刘洋  蔡庆生 《软件学报》2005,16(7):1262-1269
提出算法FDMSP(fast distributed mining of sequential patterns),以解决分布式环境下的序列模式挖掘问题.首先对分布式环境下序列模式的性质进行了分析.算法采用前缀投影技术划分模式搜索空间,利用序列模式前缀指定选举站点统计序列的全局支持计数,利用局部约减、选举约减、计数约减等方法减少候选序列数,同时将算法分为3个子过程异步运行,使得算法具有较低的I/O开销、内存开销和通信开销,从而高效地生成全局序列模式.实验结果显示,在具有海量数据的局域网环境中,FDMSP算法的性能优于将数据集中后采用GSP算法68.5%~99.5%,并且FDMSP算法具有良好的可伸缩性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号