共查询到20条相似文献,搜索用时 62 毫秒
1.
离群点是与其他正常点属性不同的一类对象,其检测技术在各行业上均有维护数据纯度、保障业内安全等重要应用,现有算法大多是基于距离、密度等传统方法判断检测离群点.本算法给每个对象分配一个"孤立度",即该点相对其邻点的孤立程度,通过排序进行判定,比传统算法效率更高.在AP(affinity propagation)聚类算法的基础上进行改进与优化,提出能检测异常数据点的算法APO(outlier detection algorithm based on affinity propagation).通过加入孤立度模块并计算处理样本点的孤立信息,并引入放大因子,使其与正常点之间的差异更明显,通过增大算法对离群点的敏感性,提高算法的准确性.分别在模拟数据集和真实数据集上进行对比实验,结果表明:该算法与AP算法相比,对离群点的敏感性更加强烈,且本算法检测离群点的同时也能聚类,是其他检测算法所不具备的. 相似文献
2.
基于共享反K近邻的局部离群点检测算法 总被引:1,自引:0,他引:1
离群点检测和分析离群模式隐含的特征是离群点挖掘的重要研究内容.现有离群点检测算法存在两个明显的不足:根据离群度检测离群点,难以确定离群点的数量;忽略了与离群点邻接的聚类信息,不能提供解析离群模式的有效证据.为此,提出一种基于共享反K近邻的离群点检测算法,首先定义了一种对密度和维数变化不敏感的共享反K近邻相似度,然后应用聚类方法将数据集划分为聚类簇和包含离群点的离群簇,从而获取数据集中的离群点及解析离群点的聚类结构.仿真结果表明,反K近邻算法比现有方法更能精确地检测数据集中的局部离群点,具有很好的控制性能. 相似文献
3.
4.
5.
为解决现有高维海量数据离群点挖掘在时间与空间效率上的不足,提出了一种基于粗约简和网格的离群点检测算法RRGOD。算法在基于密度的离群点检测算法LOF的基础上,结合粗糙集理论特点,引入属性权值概念,淘汰属性权值低于重要度阈值的属性降低维度,从而减少了进行聚类的计算量。在网格聚类阶段,对传统的网格划分方法进行改进,引入属性维半径向量概念,提出了一种可变网格划分方法,根据数据集特点自适应地划分网格空间。在真实数据集和仿真数据集上进行了实验。结果表明,该算法在进行离群点检测时能在保持足够精确度的同时,检测效率有显著的改善。 相似文献
6.
已有的密度离群点检测算法LOF不能适应数据分布异常情况离群点检测,INFLO算法虽引入反向k近邻点集有效地解决了数据分布异常情况的离群点检测问题,但存在需要对所有数据点不加区分地分析其k近邻和反向k近邻点集导致的效率降低问题。针对该问题,提出局部密度离群点检测算法--LDBO,引入强k近邻点和弱k近邻点概念,通过分析邻近数据点的离群相关性,对数据点区别对待;并提出数据点离群性预判断策略,尽可能避免不必要的反向k近邻分析,有效提高数据分布异常情况离群点检测算法的效率。理论分析和实验结果表明,LDBO算法效率优于INFLO,算法是有效可行的。 相似文献
7.
8.
局部离群点检测是近年来数据挖掘领域的热点问题之一.针对交通数据去噪问题,提出一种基于局部估计密度的局部离群点检测算法,算法使用核密度估计方法计算每个数据对象的密度估计值,来表示该数据对象的局部估计密度,并在核函数的带宽函数计算中引入数据对象的k-邻域平均距离作为其邻域信息,然后利用求出的局部估计密度计算数据对象的局部离群因子,依据局部离群因子的大小来判断数据对象是否为离群点.实验表明,该算法在UCI标准数据集与模拟数据集上都可以取得较好的表现. 相似文献
9.
基于反k近邻的流数据离群点挖掘算法 总被引:1,自引:0,他引:1
基于局部离群因子的增量挖掘算法需要多次扫描数据集。反k近邻适用于度量离群程度,根据该性质提出基于反k近邻的流数据离群点挖掘算法(SOMRNN)。采用滑动窗口模型更新当前窗口,仅须进行一次扫描,提高了算法效率。通过查询过程实现在任意指定时刻对当前窗口进行整体查询,及时捕捉数据流概念漂移现象。实验结果证明,SOMRNN具有适用性和有效性。 相似文献
10.
一种基于密度的局部离群点检测算法DLOF 总被引:3,自引:0,他引:3
离群点可分为全局离群点和局部离群点.在很多情况下,局部离群点的挖掘比全局离群点的挖掘更有意义.提出了一种基于密度的局部离群点检测算法DLOF.该方法通过引入信息熵用于确定各对象的离群属性,在计算各对象之间的距离时采用加权距离,并给离群属性较大的权重,从而提高离群点检测的准确度.另外,该算法在计算离群因子时,采用了两步优化技术,并对采用这两步优化技术后算法的时间复杂度进行了详细分析.理论分析和实验结果表明了该方法是有效可行的. 相似文献
11.
12.
目前有很多粗糙集的推广模型通过引入参数的方法处理含有噪音的实际问题。基于粗糙集推广模型的约简算法可以发现保持信息含量不变的最小属性子集,但是其明显的不足是计算不同参数上的约简时,每次都要从头开始执行。将嵌套结构的理论结果应用于k-近邻模糊粗糙集的快速约简算法设计中,并利用嵌套结构,设计了一个基于已有约简的快速约简算法。该算法的特点是在参数改变时,不必重新运行经典的算法,而是利用已有的约简来计算新的约简。数值实验验证了快速约简算法可以显著地节省运行时间,表明了该算法的可行性和有效性。 相似文献
13.
14.
基于细分关系的决策表求核与约简算法 总被引:1,自引:0,他引:1
知识约简是粗糙集理论的核心问题之一。在细分关系下对粗集决策表的核与约简进行了讨论,给出了基于细分关系的求核算法,在此基础上提出了两种决策表约简算法:基于格Hasse图的宽度优先算法和RKCC算法,并结合归纳属性约简算法将这两种算法进行了比较分析。 相似文献
15.
16.
不完全决策表的一种信息熵属性约简算法 总被引:1,自引:0,他引:1
属性约简是粗糙集理论的核心问题之一,也是粗糙集有效算法研究的焦点。为获得最简明的规则集,通常希望能找出最小的属性约简集,但得到最优解NP-hard的问题,通常采取启发式的算法得到近似最优解。文中研究了不完全决策表的属性约简,提出了对不完全决策表的一种基于信息熵的属性约简算法,并通过例子说明算法的具体过程和验证了算法的可行性。对寻找对象的相似类的步骤则在排序和二分查找的基础上提出了一种高效的算法,这样就相应地提高了属性约简算法的效率。 相似文献
17.
18.
19.
粗糙集理论是一种有效的信息处理工具,属性约简是粗糙集理论研究的一个核心内容。为了能够较为有效地获得不相容决策表较优的属性约简,在对文献[7]中属性约简算法分析的基础上,根据不相容决策表约简不改变决策表正域的原则,仅考虑相对差异比较表中与正域相关的实例对,同时结合属性重要性作为特征选取的启发式信息,提出了一种改进的启发式属性约简算法。该算法在不增加算法时间复杂度的前提下能够处理不相容决策表。最后,通过实例完整演示了该方法,表明该算法是有效的。 相似文献
20.
粗糙集理论是一种有效的信息处理工具,属性约简是粗糙集理论研究的一个核心内容.为了能够较为有效地获得不相容决策表较优的属性约简,在对文献[7]中属性约简算法分析的基础上,根据不相容决策表约简不改变决策表正域的原则,仅考虑相对差异比较表中与正域相关的实例对,同时结合属性重要性作为特征选取的启发式信息,提出了一种改进的启发式属性约简算法.该算法在不增加算法时间复杂度的前提下能够处理不相容决策表.最后,通过实例完整演示了该方法,表明该算法是有效的. 相似文献