首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 156 毫秒
1.
序列模式挖掘就是在时序数据库中挖掘相对时间或其他模式出现频率高的模式.序列模式发现是最重要的数据挖掘任务之一,并有着广阔的应用前景.针对静态数据库,序列模式挖掘已经被深入的研究.近年来,出现了一种新的数据形式:数据流.针对基于数据流的序列模式挖掘的研究还不是十分深入.提出一个有效的基于数据流的挖掘频繁序列模式的算法SSPM,利用到2个数据结构(F-list和Tatree)来处理基于数据流的序列模式挖掘的复杂性问题.SSPM的优点是可以最大限度地降低负正例的产生,实验表明SSPM具有较高的准确率.  相似文献   

2.
序列模式发现是最重要的数据挖掘任务之一,并有着广阔的应用前景。针对静态数据库,序列模式挖掘已经被深入地研究,但针对基于数据流的序列模式挖掘的研究还不是十分深入。数据流有着无限性的特性,因此往往不能保存数据流中全部的数据,同时很多时候只对最近的时间段的序列模式感兴趣,提出一个有效的结合滑动窗口技术的挖掘序列模式的算法FPM-SW,算法利用到3个数据结构(PatternTable,CountTable和Ta-tree)来处理基于数据流的序列模式挖掘的复杂性问题。算法通过CountTable结构来保存以往的潜在频繁序列,考虑到在某些情况下CountTable占用内存过多,算法还结合了一种压缩CountTable技术来减少内存占用。FPM-SW的优点是可以最大限度地降低负正例的产生,实验表明FPM-SW具有较高的准确率。  相似文献   

3.
朱美玲  刘晨  王雄斌  韩燕波 《软件学报》2017,28(6):1498-1515
针对伴随车辆检测这一新兴的智能交通应用,在一种特殊的流式时空大数据-车牌识别流式大数据下,重新定义Platoon伴随模式,提出PlatoonFinder算法,即时地在车牌识别数据流上挖掘Platoon伴随模式.本文的主要贡献包括:第一,将Platoon伴随模式发现问题映射为数据流上的带有时空约束的频繁序列挖掘问题.与传统频繁序列挖掘算法仅考虑序列元素之间位置关系不同,本文算法能够在频繁序列挖掘的过程中有效处理序列元素之间复杂的时空约束关系;第二,本文算法融入了伪投影等性能优化技术,针对数据流的特点进行了性能优化,能够有效应对车牌识别流式大数据的速率和规模,从而实现车辆Platoon伴随模式的即时发现.通过在真实车牌识别数据集上的实验分析表明,PlatoonFinder算法的平均延时显著低于经典的Aprior和PrefixSpan等频繁模式挖掘算法,也低于真实情况下交通摄像头的车牌识别最小时间间隔.因此,本文所提出的算法可以有效的发现伴随车辆组及其移动模式.  相似文献   

4.
韩萌  丁剑 《计算机应用》2019,39(3):719-727
一些先进应用如欺诈检测和趋势学习等带来了数据流频繁模式挖掘的发展。不同于静态数据,数据流挖掘面临着时空约束和项集组合爆炸等问题。对已有数据流频繁模式挖掘算法进行综述并对经典和最新算法进行分析。按照模式集合的完整程度进行分类,数据流中频繁模式分为全集模式和压缩模式。压缩模式主要包括闭合模式、最大模式、top-k模式以及三者的组合模式。不同之处是闭合模式是无损压缩的,而其他模式是有损压缩的。为了得到有趣的频繁模式,可以挖掘基于用户约束的模式。为了处理数据流中的新近事务,将算法分为基于窗口模型和基于衰减模型的方法。数据流中模式挖掘常见的还包含序列模式和高效用模式,对经典和最新算法进行介绍。最后给出了数据流模式挖掘的下一步工作。  相似文献   

5.
面向入侵检测的数据挖掘是目前国际上网络安全和数据库、信息决策领域的最前沿的研究方向之一。入侵检测中进行序列模式挖掘时,由于频繁网络模式和频繁系统活动模式只能在网络或操作系统的单个审计数据流中获得,因而传统从事件流数据中获取单序列模式的算法,以及从不同多数据序列中获取多个序列模式的算法都不再适用。本文研究了入侵数据的特性,提出了网络入侵检测中序列模式挖掘框架和实时序列模式挖掘模型,并设计了一种新的面向入侵检测.基于轴属性、参考属性、相关支持度的序列模式挖掘算法SPM—ID(Sequential Patterns Mining for Intrusion Detection)。最后在KDD Cup99数据集的基础上实现算法及分析算法的性能。  相似文献   

6.
针对数据流间“模式依赖”问题,给出了一种模式依赖挖掘算法,该算法包括:挖掘前时间序列分段和模式表示,条件规则元组的创建和维护,模式依赖的置信度和支持度计算,2个或N个数据流概要结构的设计等。股票数据实验和实际系统表明,该挖掘方法能够有效地发现数据流间的模式依赖,可用于预测。  相似文献   

7.
挖掘数据流中的频繁模式   总被引:18,自引:1,他引:17  
发现数据流中的频繁项是数据流挖掘中最基本的问题之一.数据流的无限性和流动性使得传统的频繁模式挖掘算法难以适用.针对数据流的特点,在借鉴FP-growth算法的基础上.提出了一种数据流频繁模式挖掘的新方法:FP—DS算法.算法采用数据分段的思想,逐段挖掘频繁项集,用户可以连续在线获得当前的频繁项集,可以有效地挖掘所有的频繁项集,算法尤其适合长频繁项集的挖掘.通过引入误差ε,裁减了大量的非频繁项集,减少了数据的存储量,也能保证整个数据集中项目集支持度误差不超过ε.分析和实验表明算法有较好的性能.  相似文献   

8.
序列模式图及其构造算法   总被引:11,自引:0,他引:11  
序列模式挖掘是数据挖掘的一个重要分支。在序列事务及有关信息处理中有着广泛的应用,目前已有许多序列模式模型及相应的挖掘算法,该文在对序列模式挖掘问题及挖掘算法进行分析的基础上。定义了一种称为序列模式图的序列模式框架。用于表示序列模式挖掘过程发现的所有序列模式,序列模式图是由离散状态的序列集到统一的图结构的桥梁,可以将序列模式挖掘结果统一到序列模式图中来,基于序列模式图进行研究可发现某些结构化的新知识,称之为后序列模式挖掘,文中还给出了序列模式图的有关性质及构造算法。  相似文献   

9.
介绍了数据流的定义和特点及数据流频繁模式的基本概念。针对数据流的特性,讨论分析了目前国内外数据流频繁模式挖掘算法、算法特性及应用情况,最后展望了数据流频繁模式挖掘的进一步研究工作。  相似文献   

10.
基于互关联后继树的多时间序列关联模式挖掘   总被引:3,自引:1,他引:3  
时间序列是现实生活中常见的数据形式之一,在时间序列中发现频繁模式是分析时间序列变化规律的一项重要任务.提出基于互关联后继树的多时间序列关联模式挖掘算法.该算法首先用Allen逻辑位置关系来描述序列状态关系,根据这些关系在时间窗口内顺序或并行出现情况,获得一个由这些关系组成的特殊序列.在此基础上提出了一个基于互关联后继树的新型挖掘模型,实现了序列间关联模式的挖掘.与其他方法相比,该算法简单、直观,而且整个挖掘过程不需要生成候选模式,大大提高挖掘效率.  相似文献   

11.
Mining sequential patterns from data streams: a centroid approach   总被引:1,自引:0,他引:1  
In recent years, emerging applications introduced new constraints for data mining methods. These constraints are typical of a new kind of data: the data streams. In data stream processing, memory usage is restricted, new elements are generated continuously and have to be considered in a linear time, no blocking operator can be performed and the data can be examined only once. At this time, only a few methods has been proposed for mining sequential patterns in data streams. We argue that the main reason is the combinatory phenomenon related to sequential pattern mining. In this paper, we propose an algorithm based on sequences alignment for mining approximate sequential patterns in Web usage data streams. To meet the constraint of one scan, a greedy clustering algorithm associated to an alignment method is proposed. We will show that our proposal is able to extract relevant sequences with very low thresholds.  相似文献   

12.
挖掘序列模式是数据挖掘的主要内容之一。本文对已有的序列模式模型进行改进,增加了可信度限制,并提出了相应算法。  相似文献   

13.
大数据环境下高效用项集挖掘算法中过多的候选项集极大地降低了算法的时空效率,提出了一种减少候选项集的数据流高效用项集挖掘算法。首先,通过数据流中当前窗口的一次扫描建立一个全局树,并降低全局树中头表入口与节点的冗余效用值;然后,基于全局树生成候选模式,基于增长算法降低局部树的候选项集效用;最终,从候选模式中选出高效用模式。基于真实数据流的实验结果表明,本算法的时空效率与内存占用比均优于其他数据流的高效用模式挖掘算法。  相似文献   

14.
Finding correlated sequential patterns in large sequence databases is one of the essential tasks in data mining since a huge number of sequential patterns are usually mined, but it is hard to find sequential patterns with the correlation. According to the requirement of real applications, the needed data analysis should be different. In previous mining approaches, after mining the sequential patterns, sequential patterns with the weak affinity are found even with a high minimum support. In this paper, a new framework is suggested for mining weighted support affinity patterns in which an objective measure, sequential ws-confidence is developed to detect correlated sequential patterns with weighted support affinity patterns. To efficiently prune the weak affinity patterns, it is proved that ws-confidence measure satisfies the anti-monotone and cross weighted support properties which can be applied to eliminate sequential patterns with dissimilar weighted support levels. Based on the framework, a weighted support affinity pattern mining algorithm (WSMiner) is suggested. The performance study shows that WSMiner is efficient and scalable for mining weighted support affinity patterns.  相似文献   

15.
序贯模式是时间相关数据库中存在的一种十分有用的知识模式,其发掘方法的研究有着十分重要的意义,本文给出了一种挖掘数据库中序贯模式的算法,通过认真地研究了挖掘过程中的中间及结果数据的存储结构,从而大大地减少了对数据库的扫描遍数,提高了算法的效率。  相似文献   

16.
孟彩霞 《计算机应用研究》2009,26(11):4054-4056
数据流的无限性、高速性使得经典的频繁模式挖掘方法难以适用到数据流中。针对数据流的特点,对数据流中频繁模式挖掘问题进行了研究,提出了数据流频繁模式挖掘算法FP-SegCount。该算法将数据流分段并利用改进的FP-growth算法挖掘分段中的频繁项集,然后利用Count-Min Sketch进行项集计数。算法解决了压缩统计和计算快速高效的问题。通过实验分析,FP-SegCount算法是有效的。  相似文献   

17.
; 对于不确定数据的频繁序列模式挖掘,会导致可能频繁模式数量的指数级出现,其中有些无用的挖掘结果,引起频繁序列的冗余。针对上述不足, 提出了可能频繁闭序列模式(pfcsp)的定义, 以及一种基于不确定数据的可能频繁闭序列挖掘算法U-FCSM。此算法中,基于一种元组不确定数据模型,计算序列的可能频繁性,应用BIDE算法的闭序列思想判断可能频繁序列是否是可能频繁闭序列模式。为了减少搜索空间与避免冗余的计算,应用了几个剪枝与边界技术。U-FCSM算法的有效性与效率通过大量的实验得以表明。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号