首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 71 毫秒
1.
本文对基于分布式的演化数据流的连续异常检测问题进行了形式化描述,提出一种在滑动窗口中基于张量分解的异常检测算法--WSTA.该算法将各分布结点上的数据流作为全局数据流的子张量,通过分布结点与中心节点的通信,在分布结点的滑动窗口中自适应抽样生成概要数据结构矩阵.对该数据矩阵进行张量分解得到特征向量,然后采用基于距离的异常检测方法发现异常点.基于大量真实数据集的实验表明,此算法具有良好的适用性和可扩展性.  相似文献   

2.
罗剑 《计算机工程》2011,37(17):46-48,60
将面向大规模数据集的基于网格重心的分箱核密度估计理论扩展到数据流应用领域,在引入密度衰减技术的基础上,指出对于演化数据流以网格重心取代网格离散数据点集合的分箱核密度估计方法的近似误差是可控的,由此构造多维演化数据流核密度估计算法。实验结果表明,该方法在保持足够计算精度的同时能够精确捕获数据流的实时演化行为。  相似文献   

3.
数据流突发检测研究与进展   总被引:2,自引:0,他引:2       下载免费PDF全文
数据流是不断变化且难以预测的。因此,在数据流中进行突发检测,是数据流内在的,固有的问题之一。所谓突发,指的是特定时间段内的数据量显著异常于其它时间段。如何实时地相对精确地检测出数据流中的突发并良好地呈现给用户,国内外已展开相关研究,并成为数据流挖掘领域的热点问题之一。论文综述国内外数据流突发检测的研究现状,归纳与分析现有研究工作的适用场景,并给出研究的焦点及热点,最后展望了该领域的前景。  相似文献   

4.
研究数据流中异常模式发现问题。为保证可以随时输出当前的异常模式,引入一种简单且有效的数据结构——三层时间区间嵌套模式(TTI),来监测数据流。对新到数据是否为异常加以判断评价的标准不是预先分配的静止阈值,而是由算法(KIC:核估计和置信区间聚类分析)计算得到的动态阈值,从而在仅占用很小内存的前提下提高了算法的准确性。设计的SWMA算法进一步降低了时间和空间复杂度。最后分别在模拟线性模型、非线性模型及带时间戳的真实数据流上对方法的准确性、可行性和时效性进行了验证。  相似文献   

5.
《计算机工程》2018,(1):51-55
传统基于欧氏距离的异常检测算法在高维数据检测中存在精度无法保证以及运行时间过长的问题。为此,结合高维数据流的特点运用角度方差的方法,提出一种改进的基于角度方差的数据流异常检测算法。通过构建最佳数据集网格和最近数据网格的小规模数据流计算集,以快速即时地衡量最新数据点的异常程度,将改进的算法用于无线传感器网络采集的电梯真实数据流检测,实现电梯故障检测。实验结果表明,与ABOD、HODA等算法相比,改进算法能有效识别高维数据流中的异常点,可适用于实时性要求高的传感器高维数据流。  相似文献   

6.
数据流查询与处理技术广泛应用在金融系统等诸多领域中,银行卡交易系统中存在的由终端复用所导致的不规范交易即是一个典型案例.此类不规范交易存在两个特点:(1)对象频繁出现;(2)对象的值序列频繁波动.然而,现有的频繁项挖掘算法仅考虑第一个特点,无法有效解决问题,亟需开发新技术进行检测.文中首先形式化地定义了这类不规范交易查询,再设计了多个创新算法进行处理.此外,文中还将工作扩展到滑动窗口模型以处理数据流演化问题.理论分析与实验结果均表明所提方法具有较佳性能,空间复杂度与时间复杂度都较低.  相似文献   

7.
基于核密度估计的分布数据流离群点检测   总被引:3,自引:1,他引:2  
基于数据流数据的挖掘算法研究受到了越来越多的重视.针对分布式数据流环境,提出基于核密度估计的分布数据流离群点检测算法.算法将各分布节点上的数据流作为全局数据流的子集,通过分布节点与中心节点的通信,维护基于全局数据流的分布密度估计.各分布节点基于该估计对其上的分布数据流进行离群点检测,从而得到基于全局数据流的离群点集合.对节点之间的交互以及离群点检测算法的细节进行了讨论.通过实验验证了算法的适用性和有效性.  相似文献   

8.
数据流上连续动态skyline查询研究   总被引:2,自引:0,他引:2  
skyline查询能够从大规模数据集上计算满足多个标准的最优点.数据流上的skyline计算是数据流上最基本的查询操作之一,对于很多在线应用具有非常重要的意义,尤其在移动计算环境、网络监控、通信网络以及传感器网络等领域.不同于大部分传统的skyline研究,主要研究数据流上约束skvline和动态skyline计算问题.采用网格索引存储元组,提出了GBDS算法用于计算和维护动态skvline.通过为每个查询定义影响区域,使得在元组到达和失效时需要处理的元组个数最小化.理论分析和实验结果证明了提出方法的有效性.  相似文献   

9.
基于网格的数据分析方法以网格为单位处理数据,避免了数据对象点对点的计算,极大提高了数据分析的效率。但是,传统基于网格的方法在数据分析过程中独立处理网格,忽略了网格之间的耦合关系,影响了分析的精确度。在应用网格检测数据流异常的过程中不再独立处理网格,而是考虑了网格之间的耦合关系,提出了一种基于网格耦合的数据流异常检测算法GCStream-OD。该算法通过网格耦合精确地表达了数据流对象之间的相关性,并通过剪枝策略提高算法的效率。在5个真实数据集上的实验结果表明,GCStream-OD算法具有较高的异常检测质量和效率。  相似文献   

10.
李海峰  章宁 《计算机工程》2012,38(21):45-48
最大频繁项集适用于内存空间有限的数据流挖掘。为此,提出一种基于界碑模型的最大频繁项集挖掘方法,采用最大频繁项集树的数据结构,增量式地维护最大频繁项集与部分附属信息,实现项集的快速搜索和裁剪。在MUSHROOM和BMS-POS数据集上的实验结果表明,该方法具有较高的挖掘效率。  相似文献   

11.
SWFPM:一种有效的数据流频繁项挖掘算法*   总被引:1,自引:0,他引:1  
分析了数据流频繁项挖掘算法EC的不足之处,如不能准确地挖掘最近一段时间内数据流的频繁项。提出了一种频繁项样本特征复合四元组的数据结构来保存样本集合,在此基础上,提出了一种基于滑动窗口的数据流频繁项挖掘算法——SWFPM。该算法能准确地挖掘出该滑动窗口中的频繁项。实验数据采用IBM合成数据发生器产生的顾客购物数据和1998年世界杯官方网站的访问日志数据。实验结果表明,该算法具有很高的频繁项挖掘准确度、快速的数据处理能力。  相似文献   

12.
In this work, we focus on distance-based outliers in a metric space, where the status of an entity as to whether it is an outlier is based on the number of other entities in its neighborhood. In recent years, several solutions have tackled the problem of distance-based outliers in data streams, where outliers must be mined continuously as new elements become available. An interesting research problem is to combine the streaming environment with massively parallel systems to provide scalable stream-based algorithms. However, none of the previously proposed techniques refer to a massively parallel setting. Our proposal fills this gap and investigates the challenges in transferring state-of-the-art techniques to Apache Flink, a modern platform for intensive streaming analytics. We thoroughly present the technical challenges encountered and the alternatives that may be applied, of which a micro-clustering-based one is the most efficient. We show speed-ups of up to 2.27 times over advanced non-parallel solutions, by using just an ordinary four-core machine and a real-world dataset. When moving to a three-machine cluster, due to less contention, we manage to achieve both better scalability in terms of the window slide size and the data dimensionality, and even higher speed-ups, e.g., by a factor of more than 11X. Overall, our results demonstrate that outlier mining can be achieved in an efficient and scalable manner. The resulting techniques have been made publicly available as open-source software.  相似文献   

13.
The rapid evolution of technology has led to the generation of high dimensional data streams in a wide range of fields, such as genomics, signal processing, and finance. The combination of the streaming scenario and high dimensionality is particularly challenging especially for the outlier detection task. This is due to the special characteristics of the data stream such as the concept drift, the limited time and space requirements, in addition to the impact of the well-known curse of dimensionality in high dimensional space. To the best of our knowledge, few studies have addressed these challenges simultaneously, and therefore detecting anomalies in this context requires a great deal of attention. The main objective of this work is to study the main approaches existing in the literature, to identify a set of comparison criteria, such as the computational cost and the interpretation of outliers, which will help us to reveal the different challenges and additional research directions associated with this problem. At the end of this study, we will draw up a summary report which summarizes the main limits identified and we will detail the different directions of research related to this issue in order to promote research for this community.  相似文献   

14.
近年来随着新的应用的出现,比如网络流量分析、在线事物分析和网络欺诈检测等,对数据流的挖掘成了一个越来越重要的课题。对于数据流频繁项集的挖掘,目前绝大部分的研究都集中在传统的窗口模式下进行,即时间衰退窗口模式、界标窗口模式和滑动窗口模式。Pauray S.M.Tsai于2009年提出了一种新的窗口模式:加权滑动窗口模式,并设计了两个基于此窗口模式的数据流频繁项集挖掘算法WSW和WSW-Imp,其中WSW-Imp是对WSW算法的改进。在研究了加权滑动窗口模式以及WSW-Imp算法的基础上,对WSW-Imp算法作了进一步的改进,设计了算法WSW-Imp2,并从理论上证明了WSW-Imp2算法比WSW-Imp算法更高效,实验结果也表明了这一点。  相似文献   

15.
动态滑动窗口的数据流聚类方法   总被引:2,自引:0,他引:2       下载免费PDF全文
数据流聚类是聚类分析中的重要问题。针对数据流的流速是变化的问题,在两阶段聚类框架基础上提出基于动态滑动窗口的数据流聚类算法。在线阶段,引入微聚类特征来存储数据流的概要信息,利用存储的概要信息动态调整滑动窗口规模,并计算数据点与微聚类中心的距离,以维护微聚类特征;离线阶段,对在线聚类阶段的聚类结果采用K-means算法进行宏聚类,生成最终聚类。实验结果表明,该算法具有较高的聚类质量和较好的伸缩性。  相似文献   

16.
滑动窗口模型下的优化数据流聚类算法   总被引:2,自引:0,他引:2  
胡彧  闫巧梅 《计算机应用》2008,28(6):1414-1416
为提高对进化数据流的聚类质量及效率,采用聚类特征指数直方图支持数据处理,减少直方图结构的维护数,改进滑动窗口下的流数据聚类算法。实验表明,与传统基于界标模型的聚类算法相比,优化算法可获得较好的工作效率、较小的内存开销和快速的数据处理能力,拓展了流数据挖掘技术的应用领域。  相似文献   

17.
数据挖掘以发现常规模式为主体,但离群数据在欺诈分析及安全领域具有重要分析价值,离群数据检测已成为数据挖掘的重要内容。对聚类与分类以及关联规则分析中典型的常规数据挖掘算法如何处理离群数据进行全面分析与总结,讨论了BIRCH、CURE、Chameleon、DBSCAN以及基于共享最近邻的聚类算法以及基于不平衡分类和基于非频繁模式的离群检测技术,给出了一种利用K-最近邻算法的离群数据检测方法,并报告了测试结果。  相似文献   

18.
近年来,数据流挖掘一直是国内外研究的热点,频繁项集挖掘又是数据流挖掘中的重要问题。根据数据流无限性和流动性的特点,提出了一种在滑动窗口中挖掘频繁项集的算法FIM-SW,FIM-SW算法主要是采用垂直的数据库表示方法,使用二进制向量表示每个数据项,并利用Apriori性质产生频繁项集。实验结果表明,这种算法显著地提高了挖掘效率。  相似文献   

19.
针对数据流中离群点挖掘问题,在K-means聚类算法基础上,提出了基于距离的准则进行数据间离群点判断的离群点检测DOKM算法。根据数据流概念漂移检测结果来自适应地调整滑动窗口大小,从而实现对数据流的离群点检测,与其他离群点算法的一系列实验验证和对比结果表明,DOKM算法在人工数据集和真实数据集中均可以实现对离群点的有效检测。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号