首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 187 毫秒
1.
异常点检测是数据挖掘领域的一个重要研究方向,传统的基于近邻和局部异常因子的异常点检测算法存在计算复杂度高和误检率高的缺陷.为解决该缺陷,提出一种基于观测点机制的异常点检测(observation-point mechanism-based outlier detection,OPOD)算法.首先在原始样本空间中随机放置若干观测点,然后计算观测点与样本点之间的距离,将原始数据转换为与观测点相对应的距离数据,再估计距离数据的概率密度函数,进而计算距离数据出现的概率值,最后通过对多个观测点距离数据概率值的融合最终确定原始样本点中的异常点.基于PyCharm平台,采用sklearn. datasets的make_blobs函数生成仿真数据集,分别测试不同规模和不同维度数据集对OPOD算法性能的影响,并对比了OPOD算法、基于局部异常因子的异常点检测(local outlier factor-based outlier detection,LOFOD)算法和基于近邻的异常点检测(nearest neighbor-based outlier detection,NNOD)算法的运行时间、异常点召回...  相似文献   

2.
针对K-means异常检测算法检测性能低的问题,提出了一种结合信息熵与改进K-means算法的异常检测算法。该算法均匀地选出密度大于数据集平均密度的数据对象作为初始聚类中心,避免了初始中心的随机选择。在此基础上,引入了信息熵确定属性权重的方法来计算簇中数据点与该簇聚类中心的加权欧氏距离,通过对比簇中数据点的加权欧氏距离与该簇中所有数据点的平均加权欧氏距离来进行异常检测。实验表明,改进算法具有更高的检测率和更低的误检率,应用于电力负荷数据时检测率达到了90. 5%,能够有效地检测出异常的负荷数据。  相似文献   

3.
针对智能电网监控传输协议、计算处理效率和异常数据检测等存在的不足,提出了一种基于数据标签的SEG监控架构和异常数据检测算法。先对SEG数据标签监控与异常检测的框架进行设计;然后对异常检测流程、稀疏化与精简算法和检测算法进行设计,提出一种基于数据标签的数据精简和异常检测算法;最后进行SEG数据标签监控实例分析和对比仿真实验。通过实验,本文所设计的数据标签SEG监控与异常数据检测,其异常数据检测的准确率大于80%和召回率高于82%,而算法运行时间较参比算法少2.0-3.0秒。  相似文献   

4.
为降低无人机测绘数据异常检测的误检率、漏检率,缩短检测时间,文章提出一种基于数据筛选的无人机测绘数据异常检测方法。采用支持向量机对无人机测绘数据进行数据流分块、竖向规范化处理及时间切片处理等预处理;基于卷积神经网络分析数据确定数据潜在规律;采用无监督聚类算法对数据进行聚类,利用滑动窗口处理得到数据流簇心因子并进行聚类;根据判断标准对异常数据分块处理,确定是否存在异常因子;采用重叠累加值计算方法对异常数据点进行筛选,完成无人机测绘数据异常检测。实验结果表明:与传统卷积神经网络方法相比,采用该方法对异常数据检测,其误检率降低了约11%、漏检率降低约8.1%,并且检测时间缩短了11.3 min。  相似文献   

5.
针对局部异常因子(local outlier factor,LOF)异常检测算法时间空间复杂度高、对交叉异常及低密度簇周围异常点不敏感等局限,提出了基于近邻搜索空间提取的LOF异常检测算法(isolation-based data extracting LOF,iDELOF),将基于隔离思想的近邻搜索空间提取(isolation-based KNN search space extraction,iKSSE)前置于LOF算法,以高效剪切掉大量无用以及干扰数据,获得更加精准的搜索空间。基于此完成了理论以及4组实验分析,每组实验分别进行iDELOF算法与LOF、iForest、iNNE等多种典型算法的对比分析。结果表明:iDELOF算法通过拉大正异常点局部离群因子的差距,增强了对交叉异常以及低密度簇周围异常点的识别能力,提升了LOF的检测效果;iDELOF算法在识别轴平行异常方面与LOF同样具有明显优越性;iDELOF算法通过iKSSE所获数据子集显著小于原数据集,多数子集数据量小于原数据集的1%,因此iDELOF的时间空间复杂度显著降低,且原数据集数据量越大,优越性越明显,当数据量足够大时,iDELOF算法的运行时间将低于IF算法。  相似文献   

6.
针对孤立点检测算法的一些弊端和煤矿安全预警系统的实际情况,选择一个基于距离和孤立点检测算法对瓦斯浓度的异常数据进行处理,分析出设备异常数据、噪声数据和瓦斯突出孤立点数据,通过挖掘孤立点来发现真实的潜在的信息,保证安全预警的准确性。  相似文献   

7.

基于CLOF的乙烯裂解炉温度测量数据异常值检测

辛一丹1,胡绍林1,2,陈文卓1,宋鹤1

(1. 西安理工大学 自动化与信息工程学院,西安710048;

2. 广东石油化工学院 自动化学院石油化工设备与故障诊断省级重点实验室,广东 茂名525000)

摘要:

烟道温度是表征乙烯裂解炉燃烧状态的重要指标之一,温度采样数据异常值会直接影响裂解炉炉管结焦诊断。使用常规异常检测算法如孤立森林算法对烟道温度测量数据进行异常值检测无法检测出所有的异常值。为提高检测准确率同时降低运算量,本文提出一种基于CLOF(Clipping Local Outlier Factor, CLOF)算法的烟道测量数据异常值检测算法,该算法将聚类剪枝与离群因子检测算法相结合,在原始数据中筛选出异常值候选集,对异常值候选集中的数据点进行离群因子检测,实现了对裂解炉烟道温度测量数据高准确率、高效率异常值检测。采用某石化工厂乙烯裂解炉烟道温度实测数据,根据实验效果对CLOF算法中主要参数进行选定,对比分析孤立森林算法、常规LOF算法与CLOF算法异常值检测效果。结果显示,CLOF算法中合适的裁剪系数能显著提高检测效率与检测准确度,相比孤立森林算法的异常值检测结果,CLOF检测结果的准确率大幅提高,数据计算量也显著减少。

关键词:温度数据;异常检测;乙烯裂解炉;聚类;数据减枝;局部离群因子

  相似文献   

8.
针对分布式网络的网络异常检测,提出一种多维数据特征自适应的异常检测算法,算法在主成分分析算法(PCA)的基础上进行异常特征自适应修正.在对网络流量数据经过了PCA处理后,确定贡献率高的维度,给出异常与维度特征的关联,进行特征自适应修正.实验结果表明,算法降低了网络异常检测的执行开销,提高了网络异常检测的报警精度.  相似文献   

9.
针对大数据集中存在海量数据,当数据规模扩大到一定程度时,离散点检测处理效率受到限制的问题,提出了一种基于分类和回归树(CART)决策树的网络大数据集离群点动态检测算法。首先,划分大数据集异常数据标准,利用方差衡量数据离散程度,使用支持向量机建立异常数据样本关联规则矩阵,明确大数据集异常数据范围,并通过动态网格划分策略降低离群点检测计算量;然后,运用CART决策树方法在分支节点采取布尔检测,将待检测数据统一拟作连续数据,升序排列训练数据集,计算数据最高信息增益,剪枝决策树直到没有非叶子节点可被替换,得到离群点动态检测结果。仿真结果证明,本文算法离群点检测准确率高、检测耗时短,具备显著的计算优势,能为大数据集的可靠应用提供积极帮助。  相似文献   

10.
基于随机抽取一致性的稳健点云平面拟合   总被引:1,自引:0,他引:1  
针对常用的平面拟合方法在点云数据存在误差或异常值时产生拟合不稳定的现象,提出了结合最小二乘法的随机抽取一致性(random sample consensus,RANSAC)平面拟合算法.该方法先用RANSAC算法检测并剔除异常数据点,再利用最小二乘法将得到的有效数据点拟合,计算平面模型参数.实验中,分别采用该算法和最小二乘法、特征值法对仿真数据进行平面拟合,且采用本文提出的算法,分别对含有不同程度误差和异常值的点云数据进行拟合计算.研究结果表明:该算法适用于存在误差和异常值的点云数据拟合,能稳定地得到较好的平面参数估值,具有较强的稳健性.  相似文献   

11.
针对大多数基于距离和密度的异常检测算法敏感于近邻参数k的问题,提出了一种鲁棒性异常检测标准——k-近邻域中心偏移异常因子(COOF).数据结点的k-近邻域中心位置会随着近邻参数k的变化而发生迁移,鉴于异常结点要比正常结点对k-近邻域中心位置偏移量的影响更大,通过累加因递增k而产生的偏移量来表征数据结点的异常程度,并在COOF基础上实现了鲁棒性的异常检测算法.通过综合数据和真实数据的实验仿真可知,COOF不仅对近邻参数k具有鲁棒性,而且相比基于距离的k最近邻算法、基于局部距离的异常因子和基于密度的局部异常因子具有更稳定且更准确的异常检测性能.  相似文献   

12.
为了解决大规模数据中的异常检测问题,提出了基于支持向量数据描述(SVDD)的高效离群数据检测算法。该算法的核心思想为:首先利用SVDD获得包含单类数据的最小球形边界,然后通过该边界对未知样本数据进行分类,并利用最小闭包球算法对SVDD分类器进行优化求解。在UCI机器学习数据集和入侵检测数据集上将该算法与其他离群数据检测算法进行了实验比较,结果表明,该算法不仅获得了更高的检测准确率,而且具有较低的运行时间。  相似文献   

13.
The outlier detection and accommodation of integration navigation of strapdown inertial navigation systems and global position system (SINS/GPS) were studied. Based on analyzing the innovation orthogonal property in Kalman filter, an outlier adaptive detection approach was first presented, which included the determination of evaluation function and threshold and the logic decision of outlier occurrence. To effectively attenuate the influence on estimation accuracy, a modified Kalman filter algorithm was proposed by accommodation of the dynamic data with outlier. Results of data processing from vehicle-test SINS/GPS integration navigation show the effectiveness of the proposed method.  相似文献   

14.
为了消除奇异值对系统模型辨识的影响,并提高时间序列数据预处理的效果,提出一种基于统计分析的奇异值检测方法.该方法将时间序列信号变化特征与统计学理论相结合,在计算时间序列信号的变化速率的基础上,对其进行统计分析,进而得到异常值发生的位置,并利用内插法对原始的观察信号进行修复.应用结果表明:该算法简单、有效、计算量小,能满足时间序列数据预处理的需求.  相似文献   

15.
本研究结合信息熵与粗糙集理论中的属性约简技术,提出了一种新颖的离群点检测算法。这种方法通过在更小的属性子空间去获得相同或相近的离群数据集,使对离群数据的分析更加集中于较小的目标域。该算法对原属性空间进行划分,通过分析计算将具有最大相对熵与负相对势的对象集合判定为离群点集合。为了验证算法的有效性,还在通用数据集上进行了测试,理论分析和实验结果表明该离群点检测算法是有效可行的。  相似文献   

16.
针对网络入侵检测数据存在大量冗余信息和传统聚类算法对离群点检测不足的问题,提出一种基于主成分分析(principal component analysis, PCA)和半监督聚类的入侵检测算法。首先使用PCA对数据进行特征提取,消除数据间的冗余属性;然后利用少量已标记样本和成对约束信息,通过引入竞争凝聚让系统主动学习,以实现对大量未知样本的检测。在入侵检测数据集和UCI基准数据集上的实验结果表明,该算法能有效提高系统的性能。  相似文献   

17.
分布式计算被广泛应用于离群点检测问题,但分布式环境中节点计算性能的差异带来了数据计算性能的下降问题。针对面向大尺度高维数据离群点分布式计算的负载均衡问题,该文提出了一种加权分布式离群点检测方法。首先根据数据节点的计算性能确定数据节点的权值,然后将数据空间划分为若干个网格,最后设计了一种基于网格划分的加权分配算法WGBA,将这些网格分配到数据节点中,实现并行计算。实验验证了该方法的有效性。  相似文献   

18.
为了减少基于密度的异常点检测算法邻域查询操作的次数,同时避免ODBSN(Outlier Detection Basedon Square Neighborhood)中有意义异常点的丢失和稀疏聚类中的对象靠近稠密聚类时导致错误的异常点判断,提出了一种基于邻域和密度的异常点检测算法NDOD(Neighborhoodand Densitybased Outlier Detection)。NDOD吸收基于网格方法的思想,以广度优先扩张方形邻域,成倍地减少了邻域查询的次数,从而快速排除聚类点并克服基于网格方法中的“维灾”。新引入的基于邻域的局部异常因子代表候选异常点的异常程度,用于对候选异常点的精选,可避免ODBSN的缺陷,发现更多有意义的异常点。大规模和任意形状的二维空间数据的测试结果表明,该算法是可行有效的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号