首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 140 毫秒
1.
本文对基于分布式的演化数据流的连续异常检测问题进行了形式化描述,提出一种在滑动窗口中基于张量分解的异常检测算法--WSTA.该算法将各分布结点上的数据流作为全局数据流的子张量,通过分布结点与中心节点的通信,在分布结点的滑动窗口中自适应抽样生成概要数据结构矩阵.对该数据矩阵进行张量分解得到特征向量,然后采用基于距离的异常检测方法发现异常点.基于大量真实数据集的实验表明,此算法具有良好的适用性和可扩展性.  相似文献   

2.
异常数据检测及异常类型识别有助于提高无线传感器网络的数据质量,基于分类的异常检测算法存在传感器数据分类特征提取困难,无法进一步区分异常数据类型等问题,而基于时空特征的异常检测方法存在过度依赖于数据的假设分布等问题。针对这些问题,提出一种融合数据流时空特征和多分类模型的异常检测算法,算法首先基于Markov链提取传感器数据流的时空特征,然后将时空特征作为多分类卷积神经网络模型的输入特征,对数据流进行异常检测及异常类型识别。结果表明:该算法在不同数据集上均表现出较高的检测准确率以及较低的漏检率和误检率,可以有效地检测无线传感器网络中的异常值并判断异常类型。  相似文献   

3.
《计算机工程》2018,(1):51-55
传统基于欧氏距离的异常检测算法在高维数据检测中存在精度无法保证以及运行时间过长的问题。为此,结合高维数据流的特点运用角度方差的方法,提出一种改进的基于角度方差的数据流异常检测算法。通过构建最佳数据集网格和最近数据网格的小规模数据流计算集,以快速即时地衡量最新数据点的异常程度,将改进的算法用于无线传感器网络采集的电梯真实数据流检测,实现电梯故障检测。实验结果表明,与ABOD、HODA等算法相比,改进算法能有效识别高维数据流中的异常点,可适用于实时性要求高的传感器高维数据流。  相似文献   

4.
基于网格的数据分析方法以网格为单位处理数据,避免了数据对象点对点的计算,极大提高了数据分析的效率。但是,传统基于网格的方法在数据分析过程中独立处理网格,忽略了网格之间的耦合关系,影响了分析的精确度。在应用网格检测数据流异常的过程中不再独立处理网格,而是考虑了网格之间的耦合关系,提出了一种基于网格耦合的数据流异常检测算法GCStream-OD。该算法通过网格耦合精确地表达了数据流对象之间的相关性,并通过剪枝策略提高算法的效率。在5个真实数据集上的实验结果表明,GCStream-OD算法具有较高的异常检测质量和效率。  相似文献   

5.
基于核密度估计的分布数据流离群点检测   总被引:2,自引:1,他引:2  
基于数据流数据的挖掘算法研究受到了越来越多的重视.针对分布式数据流环境,提出基于核密度估计的分布数据流离群点检测算法.算法将各分布节点上的数据流作为全局数据流的子集,通过分布节点与中心节点的通信,维护基于全局数据流的分布密度估计.各分布节点基于该估计对其上的分布数据流进行离群点检测,从而得到基于全局数据流的离群点集合.对节点之间的交互以及离群点检测算法的细节进行了讨论.通过实验验证了算法的适用性和有效性.  相似文献   

6.
针对边缘集群计算机的异常数据流检测模块,在对辩识异常准确性不够的问题上提供了一个基于边缘计算的SDN卷积神经网络的异常流量监测模型,该模块应用卷积神经网络的深度学习方法,对获得的原始数据特征信息,加以分析,学习。  相似文献   

7.

针对传统数据流聚类算法聚类信息损失大、不准确的缺点, 提出一种基于维度最大熵的数据流聚类算法. 采用动态数据直方图将数据维度划分为不同的维度组, 计算各维度最大熵划分维度空间簇, 将相同维度簇的数据聚集成微簇, 通过比较微簇的信息熵大小及其分布特点实现数据流的异常检测. 该方法提升了聚类速度, 克服了传统数据流聚类算法信息丢失的缺点. 实验结果表明, 所提出算法能够提高数据流异常检测的准确性和有效性.

  相似文献   

8.
针对有新类的动态数据流分类算法检测新类性能不高的问题,提出一种基于k近邻的完全随机森林算法(KCRForest)。该算法利用动态数据流中已知类样本构建完全随机森林的完全随机树,并根据叶节点平均路径长度将样本空间分成正常区域与异常区域。通过落入异常区域中样本的k近邻计算该样本离群值。若样本离群值大于设定阈值,则判断样本为新类,否则为已知类。落入异常区域的已知类样本由该样本的k近邻得到样本标签分布,否则取该区域中原训练样本标签分布,投票得到样本标签。当新类样本检测达到一定数量时,利用新类样本信息更新模型,便于检测其他新类。为了验证KCRForest算法检测新类的有效性,分别在4个UCI数据集上进行实验,并与已有算法进行比较。结果表明该算法的新类检测性能优于或与iForest+SVM算法、LOF+SVM算法相当,分类准确率明显高于SENCForest算法。  相似文献   

9.
集成式数据流挖掘是对存在概念漂移的数据流进行学习的重要方法。对于类别分布严重不均衡的应用,集成式数据流挖掘中数据块的学习方式导致样本数多的类别的分类精度高,样本数少的类别的分类精度低的问题,现有算法无法满足此类应用的需求。针对上述问题,对基于回忆机制的集成式数据流学习算法MAE(Memorizing based Adaptive Ensemble)进行改进,提出面向类别严重不均衡应用的在线数据流学习算法UMAE(Unbalanced data Lear-ning based on MAE)。UMAE算法为每个类别设置了一个样本滑动窗口,对于新到达的数据块,其样本依据自身的类别分别进入相应的滑动窗口,最后利用各类别滑动窗口内的样本构建用于在线学习的数据块。与5种典型的数据流挖掘算法的比较结果表明,UMAE算法在满足实时性的同时,不仅整体分类精度高,而且对于样本数很少的小类别的分类精度有大幅度提高;对于异常检测等类别分布严重不均衡的应用,UMAE算法的实用性明显优于其他算法。  相似文献   

10.
基于智能蜂群算法的DDoS攻击检测系统   总被引:1,自引:0,他引:1  
随着大数据应用的普及,DDoS攻击日益严重并已成为主要的网络安全问题。针对大数据环境下的DDoS攻击检测问题,设计了一种融合聚类和智能蜂群算法(DFSABC_elite)的DDoS攻击检测系统。该系统将聚类算法与智能蜂群算法相结合来进行数据流分类,用流量特征分布熵与广义似然比较判别因子来检测DDoS攻击数据流的特征,从而实现了DDoS攻击数据流的高效检测。实验结果显示,该系统在类内紧密度、类间分离度、聚类准确率、算法耗时和DDoS检测准确率方面明显优于基于并行化K-means的普通蜂群算法和基于并行化K-means算法的DDoS检测方法。  相似文献   

11.
高维类别属性数据流离群点快速检测算法   总被引:1,自引:1,他引:1  
提出类别属性数据流数据离群度量--加权频繁模式离群因子(weighted frequent pattern outlier factor,简称WFPOF),并在此基础上给出一种快速数据流离群点检测算法FODFP-Stream(fast outlier detection for high dimensional categorical data streams based on frequent pattern).该算法通过动态发现和维护频繁模式来计算离群度,能够有效地处理高维类别属性数据流,并可进一步扩  相似文献   

12.
不确定数据流上的Skyline查询技术逐步引起研究者的关注,传统的集中式流处理算法难以满足海量数据的查询需求,并且云计算所提供的海量计算资源和有效的存储管理模式,为研究并行Skyline查询技术提供了充足的条件。基于上述事实,提出了一种不确定数据流上的并行Skyline查询算法(parallel Skyline over uncertain data streams,PSUDS)。该算法通过交叉划分滑动窗口的方式,将集中式流查询转化为并行处理,以并行执行的方式来解决集中式算法处理性能不足的问题。大量实验结果表明,该算法具有较好的并行可扩展性。  相似文献   

13.
王春凯    庄福振  史忠植 《智能系统学报》2019,14(6):1278-1285
大规模数据流管理系统往往由上层的关系查询系统和下层的流处理系统组成。当用户提交查询请求时,往往需要根据数据流的流速和分布情况动态配置系统参数。然而,由于数据流的易变性,频繁改变参数配置会降低系统性能。针对该问题,提出了OrientStream+框架。设定以用户自定义查询延迟阈值为间隔片段的微批量数据流传输机制;并利用多级别管道缓存,对相同配置的数据流进行批量处理;然后按照数据流的时间戳计算出精准查询结果;引入基于异常检测的增量学习模型,用于提高OrientStream+的预测精度。最后,在Storm上实现了该资源配置框架,并进行了大量的实验。实验结果表明,OrientStream+框架可进一步降低系统的处理延迟并提高系统的吞吐率。  相似文献   

14.
面向滑动窗口的连续离群点检测问题是数据流管理领域中的重要问题.该问题在信用卡欺诈检测、网络入侵防御,地质灾害预警等诸多领域发挥着重要作用.现有算法大多需要利用范围查询判断对象之间的位置关系,而范围查询的查询代价大,无法满足实时性要求.本文提出基于滑动窗口模型下的查询处理框架GBEH(grid-based excepted heap).首先,它以网格为基础构建索引GQBI(grid queue based index)管理数据流.该索引一方面维护数据流之间的位置关系,另一方面利用队列维护数据流的时序关系.其次, GBEH提出离群点检测算法PBH(priority based heap).该算法利用查询范围与网格单元格的相交面积计算该单元格中包含于查询范围对象数目的数学期望,并以此为基础构建基于小顶堆执行范围查询,从而有效降低范围查询代价,实现高效检测.理论分析和实验验证GBEH的高效性和稳定性.  相似文献   

15.
邓维维  彭宏 《计算机科学》2007,34(9):125-127
数据流的聚类作为聚类的一个分支,已经成为了数据挖掘的研究热点。虽然已经有不少数据流算法出现,但是大部分都是针对低维的数值型数据,很少有高维文本流的研究。本文在传统的数据流聚类框架基础上,提出了一种新的文本微聚类结构体,它更适合文本聚类,同时还将在线微聚类分为潜在微聚类和异常微聚类,提高了对孤立点的适应能力。实验表明该算法相对于其他文本流聚类算法更有效。  相似文献   

16.
在分布式数据流环境中,系统的通信带宽是一种瓶颈资源。在保证查询精度的前提下,有效地减少网络中数据流的传输量是解决这一问题的重要途径。通过分析现有的分布式数据流处理算法,总结出一个通用处理框架,以减少数据流的传输量。通用处理框架包括三个方面:最小化信息传输、使用数据流摘要表示完整信息以及通过预测维持系统的稳定性。  相似文献   

17.
Detection of an environmental phenomenon, e.g. air pollution and oil spills, occurs when a group of sensors continuously produces similar readings (i.e. data streams) over a period of time. Thus, detection of environmental phenomena is basically a process of clustering the sensors' data streams, which commonly involves the processing of hundreds and maybe thousands of data streams in real time. Since the sensor network environment is wireless, energy conservation of the sensors would be the main concern. Thus in this paper, we propose an efficient and energy friendly distributed scheme to detect phenomena in a wireless sensor network (WSN). To achieve fast response, the proposed algorithms reduce the dimensionality of the streams. Then, each stream is represented by a point in a multi-dimensional grid. The algorithm uses a grid-based clustering technique to detect clusters of similar stream values. The processing of the algorithm is distributed among different elements of the WSN in a hierarchical topology for more energy efficiency. The paper shows the feasibility of the proposed fully distributed scheme by comparing it with three other WSN schemes in terms of clustering accuracy and energy consumption.  相似文献   

18.
Outlier detection is a very useful technique in many applications, where data is generally uncertain and could be described using probability. While having been studied intensively in the field of deterministic data, outlier detection is still novel in the emerging uncertain data field. In this paper, we study the semantic of outlier detection on probabilistic data stream and present a new definition of distance-based outlier over sliding window. We then show the problem of detecting an outlier over a set o...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号