首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 78 毫秒
1.
局部离群点检测是近年来数据挖掘领域的热点问题之一.针对交通数据去噪问题,提出一种基于局部估计密度的局部离群点检测算法,算法使用核密度估计方法计算每个数据对象的密度估计值,来表示该数据对象的局部估计密度,并在核函数的带宽函数计算中引入数据对象的k-邻域平均距离作为其邻域信息,然后利用求出的局部估计密度计算数据对象的局部离群因子,依据局部离群因子的大小来判断数据对象是否为离群点.实验表明,该算法在UCI标准数据集与模拟数据集上都可以取得较好的表现.  相似文献   

2.
异常检测是数据挖掘中的一个重要研究方向,当前大多数基于密度的异常检测算法常常基于样本分布假设,敏感于近邻参数[k]并且缺乏对集体异常点的检测能力。针对这些问题,提出了一种基于核密度估计的核密度波动算法。定义了可以综合评估数据点邻域内和邻域外核密度值波动的核密度波动因子,将其作为检测指标,并制定检测规则来识别异常点,这一指标可以综合考虑数据点的局部特征和全局特征,而且有助于发现集体异常。数据集上的实验结果表明,所提算法可以取得更好的检测结果,同时对算法参数具有相当的鲁棒性。  相似文献   

3.
在智能穿戴设备普及的背景下,运动手环为全面地了解人们的身体状况提供了丰富的信息源,但是其提供的多维活动数据存在未知的异常值,因此需要进行异常值的检测.由于"维度灾难",通过传统的方法进行密度估计十分困难,导致检测效果不佳.针对该问题,使用了一种高斯混合生成模型(GMGM)健康数据检测方法.首先,该模型利用变分自编码器(...  相似文献   

4.
为检测数据中的异常信息,提出基于高斯过程模型的异常检测算法。高斯过程可以根据训练样本从先验分布转到后验分布,对核函数的超参数进行推理,预测输出具有清晰的概率解释。对基于高斯过程模型的异常检测算法进行定义和描述,用Server Computers(电脑服务器)数据进行仿真实验,结合高斯过程先验和回归理论,在实验中选取RBF作为核函数,利用目标类数据的特性构造特征向量集,在TE工业过程时序数据集上验证了该算法的适用性和有效性。  相似文献   

5.
针对高维数据集中存在不相关的属性与冗余数据导致无法检测出异常值的问题,提出了一种新的基于稀疏子空间的局部异常值检测算法(SSLOD)。根据数据对象在每个维度上的局部密度定义了对象的异常因子;依据异常因子阈值约简数据集中与局部异常值不相关的属性以及冗余的数据对象;用改进的粒子群优化算法在约简后的数据集中搜索稀疏子空间,该子空间中的数据对象即为异常值。通过在仿真数据集和真实数据集上的综合实验验证了该算法的有效性和准确性。  相似文献   

6.
针对DBSCAN(Density Based Spatial Clustering of Applications with Noise)算法对参数敏感且无法适用于多密度数据集聚类的缺点,提出一种改进的基于一维投影分析的无参数多密度聚类算法PFMDBSCAN(Parameter Free Multi-Density Clustering Using One-dimensional Projection Analysis).算法首先对数据集进行一维投影,并对投影后的数据进行高斯核密度估计,据此采用极值策略得到多个局部密度估计值,将每个局部密度估计值转换为参数后依次调用DBSCAN进行聚类,最终得到完整的聚类结果.该算法达到了聚类无参数化且能适用于多密度的目标.实验表明,本文提出的无参数算法对单密度和多密度数据集都有较好的聚类效果,能适用于任意形状、任意密度的数据集,且具有较强的抗噪性.与近期文献中提出的无参数多密度聚类算法APSCAN相比,不仅聚类效果更好,且计算复杂性更低.  相似文献   

7.
为了提升冷水机组微小故障的检测率,提出一种核密度估计的局部异常因子算法(KDE-LOF)结合孤立森林(iForest)的冷水机组故障检测策略。该策略通过使用孤立森林对实验数据异常值进行剔除,计算正常数据的LOF值作为统计量,并使用KDE确定控制限来完成模型的训练。通过监测数据LOF值是否超过设定的控制限进而判断是否出现故障。采用ASHRAE RP-1043数据集进行验证,并分析了该方法与主元分析和单类支持向量机的方法的优劣,结果表明该方法检测效果要优于其他两种模型,该方法在微小故障下检测率超过80%,性能最佳。  相似文献   

8.
基于密度偏倚抽样的局部距离异常检测方法   总被引:1,自引:0,他引:1  
付培国  胡晓惠 《软件学报》2017,28(10):2625-2639
异常检测是数据挖掘的重要研究领域,当前基于距离或者最近邻概念的异常数据检测方法,在进行海量高维数据异常检测时,存在运算时间过长的问题.许多改进的异常检测方法虽然提高了算法运算效率,然而检测效果欠佳.基于此本文提出一种基于密度偏倚抽样的局部距离异常检测算法,首先利用基于密度偏倚的概率抽样方法对所需检测的数据集合进行概率抽样,之后对抽样数据利用基于局部距离的局部异常检测方法.对抽样集合进行局部异常系数计算,得到的异常系数既是抽样数据的局部异常系数,又是数据集的近似全局异常系数.之后对得到的每个数据点的局部异常系数进行排序,异常系数值越大的数据点越可能是异常点.实验结果表明,和已有的算法相比,本算法具有更高的检测精确度和更少的运算时间,并且该算法对各种维度和数据规模的数据都具有很好的检测效果,可扩展性强.  相似文献   

9.
基于记忆效应的局部异常检测算法   总被引:1,自引:1,他引:0       下载免费PDF全文
基于密度的局部异常检测算法(LOF算法)的时间复杂度较高,限制了其在高维数据集以及大规模数据集中的使用。该文通过分析LOF算法,引入记忆效应概念,提出具有记忆效应的局部异常检测算法——MELOF算法。实验测试表明,该算法的计算结果与LOF算法完全相同,而且能够大大缩短运行时间。  相似文献   

10.
为提高低压台区线损异常检测方法的数据采集成功率与检测准确率,提出基于局部离群点的低压台区线损异常检测方法研究。分析低压台区基本结构,获取线损数据集,依据基于密度的局部离群算法完成离群数据点的定义。对数据集进行预处理,通过计算信息熵来判断其是否具有离群属性,通过计算其加权距离,计算各对象间的局部可达密度,继而通过计算各对象的离群因子,通过与离群因子阈值比较完成离群属性的判断,完成低压台区线损异常的检测。对比实验结果显示:该方法可大幅提高低压台区的线损异常检测的数据采集成功率与检测准确率,经过适当治理后其异常情况骤减,改善了该台区的线损情况,提高供电质量和供电效率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号