首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 85 毫秒
1.
序列模式图及其构造算法   总被引:11,自引:0,他引:11  
序列模式挖掘是数据挖掘的一个重要分支。在序列事务及有关信息处理中有着广泛的应用,目前已有许多序列模式模型及相应的挖掘算法,该文在对序列模式挖掘问题及挖掘算法进行分析的基础上。定义了一种称为序列模式图的序列模式框架。用于表示序列模式挖掘过程发现的所有序列模式,序列模式图是由离散状态的序列集到统一的图结构的桥梁,可以将序列模式挖掘结果统一到序列模式图中来,基于序列模式图进行研究可发现某些结构化的新知识,称之为后序列模式挖掘,文中还给出了序列模式图的有关性质及构造算法。  相似文献   

2.
序列模式挖掘研究与发展   总被引:1,自引:1,他引:0  
王虎  丁世飞 《计算机科学》2009,36(12):14-17
序列模式挖掘是数据挖掘的一个重要研究课题,它在很多领域中都有着广泛的应用.首先讨论了序列模式挖掘的相关背景,然后对序列模式挖掘进行分类,并在此基础上对每一类序列模式挖掘算法的特点进行了介绍和比较;最后,对序列模式挖掘未来的研究重点进行展望,以便研究者对序列模式挖掘做进一步的研究.  相似文献   

3.
序列模式挖掘是数据挖掘领域的一个经典研究问题,目前的研究主要关注于频繁序列模式的挖掘。但是不频繁的序列模式,即“稀有序列模式(rare sequential pattern,RSP)”也可能蕴含着一些不寻常的规律,具有更高的挖掘价值。因此,给出了稀有序列模式挖掘的定义,并且提出了两种逐层挖掘稀有序列模式完全集的方法。为克服挖掘稀有序列模式全集时产生的组合爆炸问题,提出了一种高效的基于二分查找的算法来挖掘“最小稀有序列模式(minimal rare sequential pattern,MRSP)”全集,它包含了稀有序列模式全集的完整信息。通过实验验证了提出的算法可以有效地挖掘稀有序列模式。  相似文献   

4.
序列模式挖掘综述   总被引:4,自引:0,他引:4  
综述了序列模式挖掘的研究状况。首先介绍了序列模式挖掘背景与相关概念;其次总结了序列模式挖掘的一般方法,介绍并分析了最具代表性的序列模式挖掘算法;最后展望序列模式挖掘的研究方向。便于研究者对已有算法进行改进,提出具有更好性能的新的序列模式挖掘算法。  相似文献   

5.
为了更好地分析购物篮数据,挖掘出潜在客户,序列模式挖掘应运而生。序列模式挖掘是数据挖掘一个重要研究内容,近年来在很多领域得到广泛运用。概述序列模式挖掘的发展现状,研究基本挖掘框架的经典挖掘算法与扩展模型挖掘算法,特别针对近年来出现的新数据形式序列模式挖掘,以及基于零压缩二叉决策图(ZBDD)结构的挖掘算法做了阐述,最后对序列模式挖掘发展趋势进行了展望。  相似文献   

6.
互斥关系模式挖掘算法研究   总被引:2,自引:0,他引:2  
序列模式挖掘是数据挖掘的一个重要领域,结构关系模式挖掘是在序列模式挖掘基础上提出的一种新的挖掘任务.重点对结构关系模式的一个重要分支--互斥关系模式进行了研究,在给出与互斥关系模式相关概念的基础上讨论了互斥关系模式挖掘的两种算法,即基本检测法和分类检测法.实验结果表明,两种算法都是有效的,在序列模式数量很大时,分类检测法的挖掘效率高于基本检测法.结构关系模式挖掘和序列模式挖掘一样在实际应用中有着重要的价值,一些在序列模式挖掘过程中不能发现的隐藏模式将在结构关系模式中被发现,互斥关系模式的研究将进一步为结构关系模式挖掘理论的完善提供支持.  相似文献   

7.
序列模式挖掘是数据挖掘的重要分支,关于序列模式挖掘的算法非常多,SPAM算法就是序列模式挖掘算法的一种,Perfixspan算法(基于投影的算法)也是序列模式挖掘算法的一种。SPAM算法和Perfixspan算法各有优缺点。研究这两种算法的基础上给出了一种结合这二种算法优点进行改进的算法。  相似文献   

8.
传统序列模式挖掘算法往往忽略了序列模式本身的时间特性,所考查的序列项都是单一事件,无属性约束.提出了一种挖掘多属性约束事件序列关联规则的方法.此方法基于传统的Apriori和AprioriAU算法.考虑了应用环境下事件序列模式中事件之间的过渡时间,采用分层式挖掘思想,先挖掘频繁序列模式,然后从频繁事件序列中挖掘多属性约束项的关联规则.实例分析为挖掘带时间限多属性约束的序列模式提供了实施思路.  相似文献   

9.
在序列模式挖掘相关研究中,增量式挖掘是序列模式挖掘中的难点和热点.在分析了2-序列矩阵的相关特性和理论基础上,提出了一种基于2-序列矩阵的序列模式增量挖掘算法SPI_2SM,该算法充分应用了先前挖掘的结果,减少了对数据库的扫描和查找次数,减少了空间开销,提高了挖掘效率.  相似文献   

10.
挖掘闭合多维序列模式的可行方法   总被引:1,自引:1,他引:0  
为了对闭合多维序列模式进行挖掘,研究了多维序列模式的基本性质,进而提出了挖掘闭合多雏序列模式的新方法.该方法集成了闭合序列模式挖掘方法和闭合项目集模式挖掘方法,通过证明该方法的正确性,指出闭合多维序列模式集合不大于多维序列模式集合,并且能够覆盖所有多维序列模式的结果集.最后分析了该方法所具备的两个明显优点,表明了在闭合多维序列模式挖掘中的可行性.  相似文献   

11.
Scientific progress in recent years has led to the generation of huge amounts of biological data, most of which remains unanalyzed. Mining the data may provide insights into various realms of biology, such as finding co-occurring biosequences, which are essential for biological data mining and analysis. Data mining techniques like sequential pattern mining may reveal implicitly meaningful patterns among the DNA or protein sequences. If biologists hope to unlock the potential of sequential pattern mining in their field, it is necessary to move away from traditional sequential pattern mining algorithms, because they have difficulty handling a small number of items and long sequences in biological data, such as gene and protein sequences. To address the problem, we propose an approach called Depth-First SPelling (DFSP) algorithm for mining sequential patterns in biological sequences. The algorithm’s processing speed is faster than that of PrefixSpan, its leading competitor, and it is superior to other sequential pattern mining algorithms for biological sequences.  相似文献   

12.
基于预聚类技术的并行序贯模式挖掘算法   总被引:3,自引:0,他引:3       下载免费PDF全文
本文讨论了在并行序贯模式数据挖掘方面采用“预聚类并行序贯模式挖掘”的策略,对数据序列聚类后按不同的类分布到不同的并行节点上,以减少甚至消除不必要的通讯开销,以便能够提高并行序贯模式挖掘在集群式高性能计算机上的执行效率。  相似文献   

13.
面向入侵检测的数据挖掘是目前国际上网络安全和数据库、信息决策领域的最前沿的研究方向之一。入侵检测中进行序列模式挖掘时,由于频繁网络模式和频繁系统活动模式只能在网络或操作系统的单个审计数据流中获得,因而传统从事件流数据中获取单序列模式的算法,以及从不同多数据序列中获取多个序列模式的算法都不再适用。本文研究了入侵数据的特性,提出了网络入侵检测中序列模式挖掘框架和实时序列模式挖掘模型,并设计了一种新的面向入侵检测.基于轴属性、参考属性、相关支持度的序列模式挖掘算法SPM—ID(Sequential Patterns Mining for Intrusion Detection)。最后在KDD Cup99数据集的基础上实现算法及分析算法的性能。  相似文献   

14.
Frequent sequential pattern mining has become one of the most important tasks in data mining. It has many applications, such as sequential analysis, classification, and prediction. How to generate candidates and how to control the combinatorically explosive number of intermediate subsequences are the most difficult problems. Intelligent systems such as recommender systems, expert systems, and business intelligence systems use only a few patterns, namely those that satisfy a number of defined conditions. Challenges include the mining of top-k patterns, top-rank-k patterns, closed patterns, and maximal patterns. In many cases, end users need to find itemsets that occur with a sequential pattern. Therefore, this paper proposes approaches for mining top-k co-occurrence items usually found with a sequential pattern. The Naive Approach Mining (NAM) algorithm discovers top-k co-occurrence items by directly scanning the sequence database to determine the frequency of items. The Vertical Approach Mining (VAM) algorithm is based on vertical database scanning. The Vertical with Index Approach Mining (VIAM) algorithm is based on a vertical database with index scanning. VAM and VIAM use pruning strategies to reduce the search space, thus improving performance. VAM and VIAM are especially effective in mining the co-occurrence items of a long input pattern. The three algorithms were evaluated using real-world databases. The experimental results show that these algorithms perform well, especially VAM and VIAM.  相似文献   

15.
传统数据挖掘算法在处理海量数据集时计算能力有限。为解决该问题,提出一种基于Map Reduce的分布式序列模式挖掘算法MR-PrefixSpan。在PrefixSpan算法的基础上,对模式挖掘任务进行分割,利用Map函数处理由不同前缀得到的序列模式,并行构造投影数据库,从而提高挖掘效率及简化搜索空间。采用Reduce函数对中间结果进行规约,得到全局序列模式。在Hadoop集群上的实验结果表明,MR-PrefixSpan能减少数据库扫描时间,具有较高的并行加速比和较好的可扩展性。  相似文献   

16.
频繁项集挖掘算法   总被引:14,自引:1,他引:14  
数据挖掘在最近几年里已被数据库界所广泛研究,而搜索频繁项集是诸如关联规则挖掘,序列模式挖掘等数据挖掘问题中的关键步骤。本文描述了频繁项集挖掘问题的特点,并根据搜索策略对已有各种频繁项集挖掘算法进行了分析和比较。  相似文献   

17.
挖掘序列模式是数据挖掘的主要内容之一。本文对已有的序列模式模型进行改进,增加了可信度限制,并提出了相应算法。  相似文献   

18.
吴信东  谢飞  黄咏明  胡学钢  高隽 《软件学报》2013,24(8):1804-1815
很多应用领域产生大量的序列数据。如何从这些序列数据中挖掘具有重要价值的模式,已成为序列模式挖掘研究的主要任务。研究这样一个问题:给定序列S、支持度阈值和间隔约束,从序列S中挖掘所有出现次数不小于给定支持度阈值的频繁序列模式,并且要求模式中任意两个相邻元素在序列中的出现位置满足用户定义的间隔约束。设计了一种有效的带有通配符的模式挖掘算法One-Off Mining,模式在序列中的出现满足One-Off条件,即模式的任意两次出现都不共享序列中同一位置的字符。在生物DNA序列上的实验结果表明,One-Off Mining比相关的序列模式挖掘算法具有更好的时间性能和完备性。  相似文献   

19.
Mining user behavior patterns in mobile environments is an emerging topic in data mining fields with wide applications. By integrating moving paths with purchasing transactions, one can find the sequential purchasing patterns with the moving paths, which are called mobile sequential patterns of the mobile users. Mobile sequential patterns can be applied not only for planning mobile commerce environments but also for analyzing and managing online shopping websites. However, unit profits and purchased numbers of the items are not considered in traditional framework of mobile sequential pattern mining. Thus, the patterns with high utility (i.e., profit here) cannot be found. In view of this, we aim at integrating mobile data mining with utility mining for finding high-utility mobile sequential patterns in this study. Two types of algorithms, namely level-wise and tree-based methods, are proposed for mining high-utility mobile sequential patterns. A series of analyses and comparisons on the performance of the two different types of algorithms are conducted through experimental evaluations. The results show that the proposed algorithms outperform the state-of-the-art mobile sequential pattern algorithms and that the tree-based algorithms deliver better performance than the level-wise ones under various conditions.  相似文献   

20.
一种挖掘压缩序列模式的有效算法   总被引:1,自引:0,他引:1  
从序列数据库中挖掘频繁序列模式是数据挖掘领域的一个中心研究主题,而且该领域已经提出和研究了各种有效的序列模式挖掘算法.由于在挖掘过程中会产生大量的频繁序列模式,最近许多研究者已经不再聚焦于序列模式挖掘算法的效率,而更关注于如何让用户更容易地理解序列模式的结果集.受压缩频繁项集思想的启发,提出了一种CFSP(compressing frequent sequential patterns)算法,其可挖掘出少量有代表性的序列模式来表达全部频繁序列模式的信息,并且清除了大量的冗余序列模式.CFSP是一种two-steps的算法:在第1步,其获得了全部闭序列模式作为有代表性序列模式的候选集,与此同时还得到大多数的有代表性模式;在第2步,该算法只花费了少量的时间去发现剩余的有代表性序列模式.一个采用真实数据集与模拟数据集的实验研究也证明了CFSP算法具有高效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号