首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
离群点挖掘研究   总被引:9,自引:1,他引:8  
随着人们对欺诈检测、网络入侵、故障诊断等问题的关注,离群点挖掘研究日益受到重视。在充分调研国内外离群点挖掘研究成果的基础上,介绍了数据库领域离群点挖掘的研究进展,并概要地总结和比较了已有的各种离群点挖掘方法,展望了离群点挖掘研究的未来发展方向和面临的挑战。  相似文献   

2.
多向主元分析(MPCA)的统计监控模型,因为易受建模数据中离群点的影响,还需预估新批次未反应完的数据,所以提出一种新的间歇过程鲁棒在线监控法。先利用改进尺度的CDC/MVT算法获取常规建模的批次数据;再用多模型非线性结构代替传统的MPCA单模型线性化结构,并提出确定时滞变量的算法。前者用于监控β-甘露聚糖酶发酵批过程,并与移动窗多向主元分析(MWMPCA)法相比,即使建模数据中存在离群点,前者仍能获得正确的监控结果,减少建模时对数据的要求;同时克服了MPCA不能处理实时性的问题,避免了MPCA在线应用时预测值的误差;更能精确描述过程的故障,准确性和实时性良好。  相似文献   

3.
离群点挖掘方法综述   总被引:10,自引:2,他引:10  
离群点挖掘可揭示稀有事件和现象、发现有趣的模式,有着广阔的应用前景,因此引起广泛关注。首先介绍离群点的定义、引起离群的原因和离群点挖掘算法的分类,对基于距离和基于密度的离群点挖掘算法进行了比较详细的讨论,指出了其优缺点和发展方向,重点对当前研究的热点——高维大数据量的挖掘、空间数据挖掘、时序离群点挖掘和离群点挖掘技术的应用进行了讨论,指出了进一步研究方向。  相似文献   

4.
基于空间约束的离群点挖掘   总被引:1,自引:0,他引:1  
由于现有的空间离群点检测算法没有很好地解决空间数据的自相关性和异质性约束问题,提出用计算邻域距离的方法解决空间自相关性约束问题,用计算空间局部离群系数的方法解决空间异质性约束问题。用离群系数表示对象的离群程度,并将离群系数按降序排列,取离群系数最大的前m个对象为离群点,据此提出基于空间约束的离群点挖掘算法。实验结果表明,所提算法比已有算法具有更高的检测精度、更低的用户依赖性和更高的效率。  相似文献   

5.
基于密度的局部离群点检测算法   总被引:1,自引:0,他引:1  
基于统计学和基于距离的离群点检测都依赖与给定数据点集的全局分布,然而数据通常并非都是均匀分布的。当分析分布密度相差很大的数据时,基于密度的局部离群点检测方法有着很好的识别局部离群点的能力。但存在时间复杂度较大,文章提出了一种改进的算法,能降低时间复杂度,实现有效的局部离群点的检测。  相似文献   

6.
空间离群点是指与其邻居具有明显区别的属性值的空间对象。已有的空间离散点检测算法一个主要的缺陷就是这些方法导致一些真正的离群点被忽略而把一些非离群点当成了空间离群点。本文提出了一种迭代算法,该算法通过多次迭代检测离群点,取得较好效果。实验表明该算法具有较好的实用性。  相似文献   

7.
针对原始曲面变化度的局部离群系数(SVLOF)无法有效滤除三维实体的棱边或棱角处的离群点问题,提出了一种散乱点云近离群点的滤除算法。该算法首先将SVLOF定义在类k邻域上,并将SVLOF的定义内容进行了扩展,使其既能滤除平滑曲面上的离群点,又能滤除三维实体的棱边或棱角点处的离群点,同时仍然保留SVLOF原有的足够宽泛的阈值选取空间。仿真数据和实际数据的实验结果均表明,在效率基本保持不变的情况下,所提算法能比原始SVLOF算法更有效地检测出距离主体点云近的离群点。  相似文献   

8.
散乱点云离群点的分类识别算法   总被引:2,自引:0,他引:2  
散乱点云离群点识别和滤除是重建高质量曲面的前提,也是散乱点云预处理的重要步骤.提出一种散乱点云区域增长策略和一个基于曲面变化度的局部离群指标SVLOF,并将其应用到离群点识别中.通过分析离群点产生的原因,根据离群点到点云主体的距离将离群点分为远离群点和近离群点2类;对远离群点采用基于三维区域增长的方法进行识别,而对于近离群点采用SVLOF系数进行识别.基于仿真数据和实测数据的实验均表明,采用文中算法能够快速、有效地检测出孤立离群点和小型聚类离群点.  相似文献   

9.
局部离群点挖掘算法研究   总被引:14,自引:0,他引:14  
离群点可分为全局离群点和局部离群点.在很多情况下,局部离群点的挖掘比全局离群点的挖掘更有意义.现有的基于局部离群度的离群点挖掘算法存在检测精度依赖于用户给定的参数、计算复杂度高等局限.文中提出将对象属性分为固有属性和环境属性,用环境属性确定对象邻域、固有属性计算离群度的方法克服上述局限;并以空间数据为例,将空间属性与非空间属性分开,用空间属性确定空间邻域,用非空间属性计算空间离群度,设计了空间离群点挖掘算法.实验结果表明,所提算法具有对用户依赖性少、检测精度高、可伸缩性强和运算效率高的优点.  相似文献   

10.
离群点检测是数据挖掘领域的一个重要分支,当前数据流的离群点检测研究越来越受到关注.为了快速准确地检测出数据流中离群点,提出一种在线数据流离群点检测算法ODDS(outlier detection in online data stream s).它利用数据与频繁模式的相异程度来度量数据的离群程度,通过构建ODDS-Tree树,能动态地更新数据流中候选离群点的离群信息.实验结果验证了该算法与其他同类算法相比具有较高的效率与优良的可扩展性能.  相似文献   

11.
12.
基于相似孤立系数的孤立点检测算法   总被引:1,自引:0,他引:1  
基于聚类的孤立点检测算法得到的结果比较粗糙,不够准确。针对该问题,提出一种基于相似孤立系数的孤立点检测算法。定义相似距离以及相似孤立点系数,给出基于相似距离的剪枝策略,根据该策略缩小可疑孤立点候选集,并降低孤立点检测算法的计算复杂度。通过选用公共数据集Iris、Labor和Segment—test进行实验验证,结果表明,该算法在发现孤立点、缩小候选集等方面相比经典孤立点检测算法更有效。  相似文献   

13.
异常检测是数据挖掘的一个重要组成部分,其中基于密度的方法LOF是目前常用的主要方法。然而LOF方法进行检测时需要设定参数k和MinPts,检测结果对参数非常敏感,容易造成检测错误。该文提出了一种基于Voronoi图的异常检测算法VOD,采用Voronoi图来确定对象间的邻近关系,解决了基于密度方法存在的问题,算法的时间复杂性从O(N2)降低到O(NlogN)。  相似文献   

14.
随着移动网络、智能终端的迅猛发展,基于位置的服务LBS(Location-based Service)越来越热门,因此基站位置信息的正确与否成为关注的重点.针对基站地理位置存在部分错误这一现象,提出了基于网格概率的离群点检测算法来核查错误的基站.首先,根据基站分布的规则将数据空间分成若干网格单元;其次,根据用户轨迹签到信息关联出其在动态时间范围内经过的基站序列,将基站序列映射到网格中,计算出临近网格单元集合;最后,根据基站分布特点对网格单元内目标基站的临近基站求隶属概率,筛选出离群点,即错误的基站.实验表明,该算法的时间复杂度低且核实准确率较高.  相似文献   

15.
基于可达邻域的异常检测算法   总被引:1,自引:0,他引:1       下载免费PDF全文
肖辉  龚薇 《计算机工程》2007,33(17):74-76
提出了可达邻域的概念,定义了基于可达邻域的异常RN-Outlier。给出了RNOF异常检测算法,克服了异常检测算法常被参数依赖和参数扰动所困扰的缺点。仿真数据集和真实数据集的实验表明,该算法的性能超过了经典的LOF和LSC算法,降低了参数依赖和参数扰动的影响。  相似文献   

16.
基于R-Tree的高效异常轨迹检测算法   总被引:1,自引:0,他引:1  
提出了异常轨迹检测算法,通过检测轨迹的局部异常程度来判断两条轨迹是否全局匹配,进而检测异常轨迹.算法要点如下:(1) 为了有效地表示轨迹的局部特征,以k个连续轨迹点作为基本比较单元,提出一种计算两个基本比较单元间不匹配程度的距离函数,并在此基础上定义了局部匹配、全局匹配和异常轨迹的概念;(2) 针对异常轨迹检测算法普遍存在计算代价高的不足,提出了一种基于R-Tree的异常轨迹检测算法,其优势在于利用R-Tree和轨迹间的距离特征矩阵找出所有可能匹配的基本比较单元对,然后再通过计算距离确定其是否局部匹配,从而消除大量不必要的距离计算.实验结果表明,该算法不仅具有很好的效率,而且检测出来的异常轨迹也具有实际意义.  相似文献   

17.
提出了一种基于多示例学习(multi-instance learning,MIL)的局部离群点检测算法,称之为MIL-LOF(a local outlier factor based on multi-instance learning).算法采用MIL框架,首先将真实对象提取为多示例形式,然后运用退化策略和权重调整方法,计算综合离群点因子,最后检测离群点.在实际企业监控数据以及公共数据集上将MIL-LOF与经典局部离群点检测算法及其优化算法进行了对比实验,结果表明本文提出的MIL-LOF算法在准确性、全面性及高效性上相对其他算法均可获得较为明显的提高.  相似文献   

18.
一种基于划分的孤立点检测算法   总被引:7,自引:0,他引:7  
孤立点是不具备数据一般特性的数据对象.划分的方法是通过将数据集中的数据点分布的空间划分为不相交的超矩形单元集合,匹配数据对象到单元中,然后通过各个单元的统计信息来发现孤立点.由于大多真实数据集具有较大偏斜,因此划分后会产生影响算法性能的大量空单元.由此,提出了一种新的索引结构--CD-Tree(cell dimension tree),用于索引非空单元.为了优化CD-Tree结构和指导对数据的划分,提出了基于划分的数据偏斜度(skew of data,简称SOD)概念.基于CD-Tree与SOD,设计了新的孤立点检测算法.实验结果表明,该算法与基于单元的算法相比,在效率及有效处理的维数方面均有显著提高.  相似文献   

19.
传统的离群检测方法多数源于单个数据集或多数据源融合后的单一数据集,其检测结果忽略了多源数据之间的关联知识和单数据源中的关键信息.为了检测多源数据之间的离群关联知识,提出一种基于相关子空间的多源离群检测算法RSMOD.结合k近邻集和反向近邻集的双向影响,给出面向多源数据的对象影响空间,提高了离群对象度量的准确性;在影响空...  相似文献   

20.
朱庆生  唐汇  冯骥 《计算机科学》2014,41(3):276-278,305
任何涉及k近邻求解问题的算法被应用于处理不同特征的数据集时,参数k值的选择都会明显影响算法的性能和结果。因而,如何选择k近邻算法中敏感参数k值一直是一个研究难点。提出了一种新的近邻关系———自然最近邻,它不需要设置参数k,每个节点的邻居是由算法自适应计算而形成的。针对离群点检测的特殊性,通过确定自然最近邻居搜索算法的终止条件,提出一种基于自然最近邻的新的离群检测算法ODb3N。实验表明,该算法不仅避免了k近邻中参数的选择问题,而且能够更有效地发现离群簇。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号