首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 795 毫秒
1.
为了减少AprioriAll算法挖掘过程中候选序列的生成以及对序列数据库的扫描次数,提高算法的挖掘效率,提出了一种基于改进的AprioriAll算法的Web序列模式挖掘方法.首先对数据进行预处理,然后利用经过改进的AprioriAll算法进行模式挖掘.算法的改进主要有两点:一个通过改变候选序列的连接方式来减少候选序列的产生;二是通过减少不必要的数据库扫描操作来提高算法的效率.通过实验验证了改进后算法在Web序列模式挖掘过程中的高效性和正确性.  相似文献   

2.
针对CloSpan算法分两个阶段挖掘闭合序列模式中第一阶段需要保持候选序列且未充分利用项的位置信息、存在对数据库重复扫描和计算大小的不足,提出了posCloSpan算法。算法通过对二级索引结构进行检索实现向前剪枝,避免数据库重复扫描以及对超序索引表、子序索引表的检测,实现非闭合序列的修剪,无须保存候选序列。实验结果证明,算法在处理较长序列以及存在大量重复投影数据库的数据源时,有效降低了时间上的开销。  相似文献   

3.
分布式序列模式发现算法的研究   总被引:12,自引:0,他引:12  
邹翔  张巍  刘洋  蔡庆生 《软件学报》2005,16(7):1262-1269
提出算法FDMSP(fast distributed mining of sequential patterns),以解决分布式环境下的序列模式挖掘问题.首先对分布式环境下序列模式的性质进行了分析.算法采用前缀投影技术划分模式搜索空间,利用序列模式前缀指定选举站点统计序列的全局支持计数,利用局部约减、选举约减、计数约减等方法减少候选序列数,同时将算法分为3个子过程异步运行,使得算法具有较低的I/O开销、内存开销和通信开销,从而高效地生成全局序列模式.实验结果显示,在具有海量数据的局域网环境中,FDMSP算法的性能优于将数据集中后采用GSP算法68.5%~99.5%,并且FDMSP算法具有良好的可伸缩性.  相似文献   

4.
孟玉飞  武优西  王珍  李艳 《计算机应用》2023,(12):3740-3746
针对现有的对比序列模式挖掘方法主要针对字符序列数据集且难以应用于时间序列数据集的问题,提出一种对比保序模式挖掘(COPM)算法。首先,在候选模式生成阶段,采用模式融合策略减少候选模式数;其次在模式支持度计算阶段,利用子模式的匹配结果计算超模式的支持度;最后,设计了动态最小支持度阈值的剪枝策略,以进一步有效地剪枝候选模式。实验结果表明,在6个真实的时间序列数据集上,在内存消耗方面,COPM算法至少比COPM-o(COPM-original)算法降低52.1%,比COPM-e(COPM-enumeration)算法低36.8%,比COPM-p(COPM-prune)算法降低63.6%;同时在运行时间方面,COPM算法至少比COPM-o算法降低30.3%,比COPM-e算法降低8.8%,比COPM-p算法降低41.2%。因此,在算法性能方面,COPM算法优于COPM-o、COPM-e和COPM-p算法。实验结果验证了COPM算法可以有效挖掘对比保序模式,发现不同类别的时间序列数据集间的差异。  相似文献   

5.
针对序列模式增量式更新挖掘算法产生大量候选项集以及多次扫描数据库的问题,提出了一种有效的增量式更新算法ESPIA,该算法利用基于2-序列矩阵挖掘算法ESPE对原数据库和增加数据库一次扫描产生序列模式,通过对频繁模式和非频繁模式进行相应的剪枝减少了序列的比较和扫描次数,降低了算法时间和空间复杂度,实验证明该算法是有效和准确的。  相似文献   

6.
在加权序列模式挖掘中,基于候选码生成-测试方法的MWSP是目前应用性最好的算法之一,然而在挖掘过程中容易出现候选组合爆炸的情况,为此文章提出了一种高效的加权序列模式挖掘算法(PWSM)。PWSM算法引入k-最小加权支持数概念并利用前缀投影数据库原理有效地避免了候选组合爆炸的发生,并且在挖掘的过程中充分利用最小加权支持数,再次对算法进行优化。实验表明,该算法较MWSP算法能更加有效地从序列数据库中挖掘加权序列模式。  相似文献   

7.
为了减少在序列模式挖掘过程中由于重复运行挖掘算法而产生的时空消耗,提出了一种基于频繁序列树的交互式序列模式挖掘算法(ISPM). ISPM算法采用频繁序列树作为序列存储结构,频繁序列树中存储数据库中满足频繁序列树支持度阈值的所有序列模式及其支持度信息.当支持度发生变化时,通过减少本次挖掘所要构造投影数据库的频繁项的数量来缩减投影数据库的规模,从而减少时空消耗.实验结果表明,ISPM算法在时间性能上优于PrefixSpan算法和Inc-Span算法  相似文献   

8.
针对序列模式的高效用模式挖掘过程中搜索空间大、计算复杂度高的问题,提出一种基于多效用阈值的分布式高效用序列模式挖掘算法。采用数组结构保存模式的效用信息,解决效用矩阵导致的内存消耗大的缺点。设计1-项集与2-项集的深度剪枝策略,深入地缩小候选模式的搜索空间,减少搜索时间成本与缓存成本。提出挖掘算法的分布式实现方案,通过并行处理进一步降低模式挖掘的时间。基于中等规模与大规模的序列数据集分别进行实验,实验结果表明,该算法有效减少了候选模式的数量,降低了挖掘的时间成本与存储成本,对于大数据集表现出较好的可扩展能力与稳定性。  相似文献   

9.
在序列模式挖掘相关研究中,增量式挖掘是序列模式挖掘中的难点和热点.在分析了2-序列矩阵的相关特性和理论基础上,提出了一种基于2-序列矩阵的序列模式增量挖掘算法SPI_2SM,该算法充分应用了先前挖掘的结果,减少了对数据库的扫描和查找次数,减少了空间开销,提高了挖掘效率.  相似文献   

10.
陶惠  蒋凡 《计算机系统应用》2015,24(10):253-258
为了研究患者在不同医院间的转诊行为模式, 可以使用序列模式挖掘算法. 类Apriori算法是序列模式挖掘中的常用算法, 但该算法存在一些不足之处, 如产生候选序列的数目较多、需要频繁扫描数据库. 针对类Apriori算法存在的不足, 本文提出了相应的改进措施, 采用新的剪枝策略并减少不必要的数据库扫描操作. 实验证明, 改进后的算法能更高效地挖掘频繁转诊序列.  相似文献   

11.
Most algorithms for mining sequential rules focus on generating all sequential rules. These algorithms produce an enormous number of redundant rules, making mining inefficient in intelligent systems. In order to solve this problem, the mining of non-redundant sequential rules was recently introduced. Most algorithms for mining such rules depend on patterns obtained from existing frequent sequence mining algorithms. Several steps are required to organize the data structure of these sequences before rules can be generated. This process requires a great deal of time and memory. The present study proposes a technique for mining non-redundant sequential rules directly from sequence databases. The proposed method uses a dynamic bit vector data structure and adopts a prefix tree in the mining process. In addition, some pruning techniques are used to remove unpromising candidates early in the mining process. Experimental results show the efficiency of the algorithm in terms of runtime and memory usage.  相似文献   

12.
一种有效的并行序列模式挖掘算法   总被引:1,自引:1,他引:0       下载免费PDF全文
为解决共享存储的并行计算环境下挖掘序列模式时存在的处理器负载不平衡及缺少有效剪枝策略的问题,提出采用动态任务分配的办法来平衡处理器之间的工作负载,利用并行局部剪枝技术消除投影数据库的重复生成与计算以提高挖掘效率。设计一种基于共享存储SMP系统的并行序列模式挖掘算法PFSPAN。算法分析和实验结果表明,PFSPAN能够有效地挖掘序列模式。  相似文献   

13.
To capture the dynamic nature of data addition and deletion, we propose a general model of sequential pattern mining with a progressive database while the data in the database may be static, inserted or deleted. In addition, we present a progressive algorithm Pisa, standing for Progressive mIning of Sequential pAtterns, to progressively discover sequential patterns in defined time period of interest. The period of interest is a sliding window continuously advancing as the time goes by. Pisa utilizes a progressive sequential tree to efficiently maintain the latest data sequences, discover the complete set of up-to-date sequential patterns, and delete obsolete data and patterns accordingly. The height of the sequential pattern tree proposed is bounded by the length of period of interest, thereby effectively limiting the memory space required by Pisa that is significantly smaller than the memory needed by alternative methods. Note that the sequential pattern mining with a static database and with an incremental database are special cases of the progressive sequential pattern mining. By changing Start time and End time of the period of interest, Pisa can easily deal with a static database or an incremental database as well. Complexity of algorithms proposed is analyzed.  相似文献   

14.
物联网是一个巨大的、分布广泛的物与物相连的网络,其上产生的海量数据通常是与时间和空间相关的,具有动态、异构、分布的特性,因此对这些数据的挖掘非常困难,而且耗费时间和内存,效率低下。为了解决这些问题,提出了一种基于云计算的物联网数据挖掘系统:将这些海量数据转化为PML数据文件,并存储在HDFS中,同时把挖掘任务分配到多台节点服务器上并行处理。采用Hadoop平台,将关联规则Apriori算法Map/Reduce化,提高了挖掘的效率。另外,采用副本策略将计算向存储迁移,将失效节点的计算迁移到副本数据存储节点就地执行,降低了数据传输的时间,大为提高了挖掘的效率。  相似文献   

15.
Weighted sequential pattern mining has recently been discussed in the field of data mining. Different from traditional sequential pattern mining, this kind of mining considers different significances of items in real applications, such as cost or profit. Most of the related studies adopt the maximum weighted upper-bound model to find weighted sequential patterns, but they generate a large number of unpromising candidate subsequences. In this study, we thus propose an efficient approach for finding weighted sequential patterns from sequence databases. In particular, a tightening strategy in the proposed approach is proposed to obtain more accurate weighted upper-bounds for subsequences in mining. Through the experimental evaluation, the results also show the proposed approach has good performance in terms of pruning effectiveness and execution efficiency.  相似文献   

16.
PretixSpan算法解决了类Apriori算法的不足,但产生的投影数据库花费了较多的存储空间及扫描时间.本文基于PretixSpan算法提出PSD算法,舍弃了对非频繁项的存储及对投影序列数小于最小支持数的投影数据库的扫描,减少了不必要的存储空间,提高了查询速度.实验证明,PSD算法比PretixSpan算法具有更好的时空性能.  相似文献   

17.
对入侵检测和数据挖掘从定义和分类等各方面等进行了基本介绍,提出了一个基于数据挖掘的入侵检测系统的总体框架,其整个系统分为训练阶段和测试阶段,对其中各个模块进行基本的功能分析。为了提高数据挖掘的效率,可以将序列模式挖掘引入该入侵检测系统中。将关联规则算法和序列模式挖掘算法同时使用,增加挖掘的粒度。对序列模式挖掘的算法进行了具体分析,并通过具体的实例来说明引入序列模式挖掘能更好地提高数据挖掘的效率。  相似文献   

18.
High utility sequential pattern (HUSP) mining has emerged as an important topic in data mining. A number of studies have been conducted on mining HUSPs, but they are mainly intended for non-streaming data and thus do not take data stream characteristics into consideration. Streaming data are fast changing, continuously generated unbounded in quantity. Such data can easily exhaust computer resources (e.g., memory) unless a proper resource-aware mining is performed. In this study, we explore the fundamental problem of how limited memory can be best utilized to produce high quality HUSPs over a data stream. We design an approximation algorithm, called MAHUSP, that employs memory adaptive mechanisms to use a bounded portion of memory, in order to efficiently discover HUSPs over data streams. An efficient tree structure, called MAS-Tree, is proposed to store potential HUSPs over a data stream. MAHUSP guarantees that all HUSPs are discovered in certain circumstances. Our experimental study shows that our algorithm can not only discover HUSPs over data streams efficiently, but also adapt to memory allocation with limited sacrifices in the quality of discovered HUSPs. Furthermore, in order to show the effectiveness and efficiency of MAHUSP in real-life applications, we apply our proposed algorithm to a web clickstream dataset obtained from a Canadian news portal to showcase users’ reading behavior, and to a real biosequence database to identify disease-related gene regulation sequential patterns. The results show that MAHUSP effectively discovers useful and meaningful patterns in both cases.  相似文献   

19.
针对关联规则挖掘的FP-Growth算法存在对海量数据存储时消耗极大内存开销的弊端,提出一种对FP-Growth加入兴趣度的改进算法,然后与Apriori,FP-Growth算法进行比较,改进后的算法极大减少了内存开销,同时提高了系统执行效率。并且提出改进算法与旅游线路规划挖掘结合的理念,以云南旅游业作为旅游规划对象,充分应用旅游网站的大数据,设计一种旅游线路规划的挖掘系统,为旅游企业找出游客最喜欢的旅游线路以及景区之间的关联规则。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号