首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
离群点检测算法研究   总被引:1,自引:0,他引:1  
离群点检测是数据挖掘中一项重要内容,通过对当前有代表性的离群点检测算法的分析和比较,对各算法的优缺点进行了总结.针对高维数据中离群点检测算法进行了分析和研究,提出了高维数据中离群点检测需要注意的一些问题,从而便于研究者以这些算法为基础,在此基础上提出新的改进算法.  相似文献   

2.
一种基于包含关系的空间面对象条件离群检测算法   总被引:1,自引:0,他引:1  
提出了一种基于包含关系的空间面对象条件离群检测算法DCOP-IR(detecting conditional outlier polygons based on inclusion relations),该算法针对空间面对象的包含关系和非空间属性,定义了一种相似度度量方法,利用基于密度的离群查找算法,先检测出整体的空间离群对象,然后在一定的条件属性下检测空间条件离群对象。实验结果表明,算法DCOP-IR能准确地检测出满足一定条件属性的空间离群对象,并具有较高的效率。  相似文献   

3.
本研究结合信息熵与粗糙集理论中的属性约简技术,提出了一种新颖的离群点检测算法。这种方法通过在更小的属性子空间去获得相同或相近的离群数据集,使对离群数据的分析更加集中于较小的目标域。该算法对原属性空间进行划分,通过分析计算将具有最大相对熵与负相对势的对象集合判定为离群点集合。为了验证算法的有效性,还在通用数据集上进行了测试,理论分析和实验结果表明该离群点检测算法是有效可行的。  相似文献   

4.
目前研究时间序列离群点检测方法大都没有考虑到数据本身的周期性,有的只能处理名词性属性. 针对实值性属性的时序数据,提出了多粒度周期模式的发现算法,该算法基于不同的时间间隔粒度来探测不同的周期模式, 并利用得到的周期模式来发现那些偏离周期模式的离群点. 该方法可有效避免将正常数据误报为异常值. 通过实验验证了该算法既可正确找出数据在不同粒度下的周期模式,又可有效探测时序数据中的异常值,并与不用周期模式发现的离群点检测算法比较,减少了对特殊事件的离群点误报.  相似文献   

5.
针对传统方法在检测离群点时常因冗余数据的干扰而导致检测用时较长、检测准确率偏低的问题,设计了基于神经网络的大规模数据集离群点检测算法.采用核主成分分析方法对大规模数据集进行降维处理,去除其中存在的冗余数据,利用神经网络在误差函数的基础上实现对离群点的检测.结果表明:该算法的检测时间始终低于0.4 min,且检测准确率始终保持在90%以上,说明该算法能够快速、准确地检测大规模数据集中的离群点.  相似文献   

6.
分布式计算被广泛应用于离群点检测问题,但分布式环境中节点计算性能的差异带来了数据计算性能的下降问题。针对面向大尺度高维数据离群点分布式计算的负载均衡问题,该文提出了一种加权分布式离群点检测方法。首先根据数据节点的计算性能确定数据节点的权值,然后将数据空间划分为若干个网格,最后设计了一种基于网格划分的加权分配算法WGBA,将这些网格分配到数据节点中,实现并行计算。实验验证了该方法的有效性。  相似文献   

7.
针对目前大多数空间聚类算法主要是针对关系数据且没有考虑空间拓扑关系相似性的问题,对基于空间拓扑关系的空间聚类方法进行研究.提出了一种基于线面包含关系的GML(geography markup language)空间聚类算法SCGML-LRI(spatial clustering in GML data based on line region inclusion relations).算法将GML文档中线面空间对象的包含关系作为空间对象相似性度量准则,并用CLOPE算法对空间对象进行聚类.实验结果表明:算法SCGML-LRI能实现GML数据的空间聚类,并具有较高的效率.  相似文献   

8.
针对大数据集中存在海量数据,当数据规模扩大到一定程度时,离散点检测处理效率受到限制的问题,提出了一种基于分类和回归树(CART)决策树的网络大数据集离群点动态检测算法。首先,划分大数据集异常数据标准,利用方差衡量数据离散程度,使用支持向量机建立异常数据样本关联规则矩阵,明确大数据集异常数据范围,并通过动态网格划分策略降低离群点检测计算量;然后,运用CART决策树方法在分支节点采取布尔检测,将待检测数据统一拟作连续数据,升序排列训练数据集,计算数据最高信息增益,剪枝决策树直到没有非叶子节点可被替换,得到离群点动态检测结果。仿真结果证明,本文算法离群点检测准确率高、检测耗时短,具备显著的计算优势,能为大数据集的可靠应用提供积极帮助。  相似文献   

9.
离群点检测的目的是与应用场合密切相关的,检测结果与离群数据的描述方法密切相关。从离群点检测的基本原理出发,在l∞度量意义下给出关于离群点的定义,用于解决一类高维大规模数据集中的离群点检测问题,并提出高效的离群点检测方法。实验结果证明了其显著的优越性。  相似文献   

10.
在MMOD算法的基础上提出一种改进算法IMMOD,该算法考虑各属性的差异对离群点检测的影响,通过引入信息熵来确定属性的重要程度以量化权重向量,进而采用加权距离计算各数据点相异性。此外,在处理高维数据时,确定次要属性后采用属性约简方法,在保证时间效率的同时提高检测精度。理论分析和试验结果表明IMMOD算法参数少、检测准确性高,能很好地适用于高维数据,整体性能优于同类算法。  相似文献   

11.
为了减少基于密度的异常点检测算法邻域查询操作的次数,同时避免ODBSN(Outlier Detection Basedon Square Neighborhood)中有意义异常点的丢失和稀疏聚类中的对象靠近稠密聚类时导致错误的异常点判断,提出了一种基于邻域和密度的异常点检测算法NDOD(Neighborhoodand Densitybased Outlier Detection)。NDOD吸收基于网格方法的思想,以广度优先扩张方形邻域,成倍地减少了邻域查询的次数,从而快速排除聚类点并克服基于网格方法中的“维灾”。新引入的基于邻域的局部异常因子代表候选异常点的异常程度,用于对候选异常点的精选,可避免ODBSN的缺陷,发现更多有意义的异常点。大规模和任意形状的二维空间数据的测试结果表明,该算法是可行有效的。  相似文献   

12.
针对大多数基于距离和密度的异常检测算法敏感于近邻参数k的问题,提出了一种鲁棒性异常检测标准——k-近邻域中心偏移异常因子(COOF).数据结点的k-近邻域中心位置会随着近邻参数k的变化而发生迁移,鉴于异常结点要比正常结点对k-近邻域中心位置偏移量的影响更大,通过累加因递增k而产生的偏移量来表征数据结点的异常程度,并在COOF基础上实现了鲁棒性的异常检测算法.通过综合数据和真实数据的实验仿真可知,COOF不仅对近邻参数k具有鲁棒性,而且相比基于距离的k最近邻算法、基于局部距离的异常因子和基于密度的局部异常因子具有更稳定且更准确的异常检测性能.  相似文献   

13.

基于CLOF的乙烯裂解炉温度测量数据异常值检测

辛一丹1,胡绍林1,2,陈文卓1,宋鹤1

(1. 西安理工大学 自动化与信息工程学院,西安710048;

2. 广东石油化工学院 自动化学院石油化工设备与故障诊断省级重点实验室,广东 茂名525000)

摘要:

烟道温度是表征乙烯裂解炉燃烧状态的重要指标之一,温度采样数据异常值会直接影响裂解炉炉管结焦诊断。使用常规异常检测算法如孤立森林算法对烟道温度测量数据进行异常值检测无法检测出所有的异常值。为提高检测准确率同时降低运算量,本文提出一种基于CLOF(Clipping Local Outlier Factor, CLOF)算法的烟道测量数据异常值检测算法,该算法将聚类剪枝与离群因子检测算法相结合,在原始数据中筛选出异常值候选集,对异常值候选集中的数据点进行离群因子检测,实现了对裂解炉烟道温度测量数据高准确率、高效率异常值检测。采用某石化工厂乙烯裂解炉烟道温度实测数据,根据实验效果对CLOF算法中主要参数进行选定,对比分析孤立森林算法、常规LOF算法与CLOF算法异常值检测效果。结果显示,CLOF算法中合适的裁剪系数能显著提高检测效率与检测准确度,相比孤立森林算法的异常值检测结果,CLOF检测结果的准确率大幅提高,数据计算量也显著减少。

关键词:温度数据;异常检测;乙烯裂解炉;聚类;数据减枝;局部离群因子

  相似文献   

14.
异常数据的检测方法   总被引:1,自引:0,他引:1  
系统地研究了数据挖掘中异常点检测的一般方法,并指明了它们的优缺点.对高维的和基于聚类的异常点挖掘情况进行了分析,希望使用者能够以这些方法为基础提出更好的方法.  相似文献   

15.
对基于单数据集和多数据集的离群点算法进行研究,提出一个基于距离模式进行数据集间参照对比的离群点判别模型,该模型通过数学定义清晰描述了参照集和对比集之间离群点模式的判别检测关系,为深入研究切合金融数据挖掘特点的算法建立形式化描述体系。这一模型也可推广应用于网络入侵检测、财务审计、图像识别、电子商务、医疗疫情监测等领域。  相似文献   

16.
为解决k-means聚类算法中异常样本点破坏数据分布,致使簇中心发生较大偏差的问题,通过计算样本点与潜在簇中心的距离赋予样本点不同的权重,降低外点对数据分布的影响,并通过对权重向量施加0-norm范数在聚类模型中自适应移除外点. 采用交替最小化优化算法求解模型,在人工合成数据集和真实数据集上的实验表明,所提模型能有效降低外点对聚类的影响,可得到更有效的聚类效果.  相似文献   

17.
异常检测问题是不均衡分类问题,Adaboost算法是一种有效的分类方法.分析了标准Adaboost算法,找出了标准Adaboost算法两个可以改进的地方,给出了改进的Adaboost算法,并在此基础上给出了异常检测算法.对医疗数据的异常检测结果表明了该算法的有效性.  相似文献   

18.
针对高维海量数据集中的局部离群数据,利用并行计算和属性相关性分析思想,给出了一种离群数据并行挖掘算法。该算法首先由主节点分配属性相关分析任务,各个子节点并行查找数据集中的冗余属性,将其冗余属性传回主节点,并由主节点删除;其次,主节点分配搜索任务,各子节点采用微粒群算法,并行搜索局部离群子空间;再次,由主节点对局部离群子空间合并计算后,确定全局离群数据;最后,在MPICH2-1.0.3的并行计算环境下,采用恒星光谱数据作为数据集,实验结果验证了算法的正确性和有效性。  相似文献   

19.
小波变换的离群时序数据挖掘分析   总被引:1,自引:0,他引:1  
针对时序数据进行离群数据挖掘方法的研究。通过对时序数据进行离散小波变换,将其从时域空间变换到频域空间,使时序数据映射为多维空间的点。该方法具有多尺度、时移不变性等特点,经离群时间序列进行离散小波变换后,不仅具有良好的保距性又达到降低维数目的。然后提出一种基于距离的离群时序数据挖掘算法。仿真试验表明了该方法的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号