共查询到20条相似文献,搜索用时 109 毫秒
1.
提出了一种基于主分量分析和属性距离和的孤立点检测算法。该方法首先通过主分量分析方法从众多属性中提取出满足累计贡献率的主分量,同时利用PCA变换矩阵把原始数据集转换到由主分量组成的新的特征空间上,之后对转换后的数据集用属性距离和的方法对孤立点进行检测。实验结果证明了基于主分量分析和属性距离和的孤立点检测算法的有效性。 相似文献
2.
孤立点挖掘是数据挖掘中研究的热点之一.在对已有的孤立点挖掘技术分析的基础上,结合基于密度的聚类算法,提出了一种新的改进的检测孤立点方法即基于属性相似度的孤立点挖掘方法(ADBSCAN).该方法先用基于密度的聚类算法进行聚类,然后再利用对象间的属性相似度进行进一步的检验,确定不包含在任何聚类中的对象是否为真正的孤立点,并通过实验验证了该方法的可行性和有效性. 相似文献
3.
基于最近邻距离差的改进孤立点检测算法 总被引:1,自引:0,他引:1
k最近邻孤立点检测算法的检测结果受用户设置参数的影响较大,并且无法判定孤立点强弱,针对该缺陷,引入阈半径和密集度阈值,提出基于最近邻距离差的孤立点检测算法.通过在多个数据集上的实验表明,改进算法扩大了参数的设置范围,降低了参数对结果的影响,并能够有效检测出强孤立点,用户通过调整密集度阈值,可以判定孤立点强弱,改进算法增强了原算法的稳定性和灵活性. 相似文献
4.
5.
基于2k-距离的孤立点算法研究 总被引:1,自引:0,他引:1
孤立点检测一直是数据挖掘中一个活跃的领域,如信用卡欺诈,入侵检测等。在这些应用领域中研究孤立点的异常行为能够发现隐藏在数据集中更有价值的知识。文章介绍了相关概念,分析了几类有代表性的算法。最后,给出了一个判定孤立点的新的定义,并按此定义进行了检测,用实际数据进行了实验。实验结果表明,该算法能够能够有效地检测出孤立点。 相似文献
6.
基于距离的孤立点检测研究 总被引:15,自引:0,他引:15
孤立点检测是一个重要的知识发现任务,在分析基于距离的孤立点及其检测算法的基础上,文章提出了一个判定孤立点的新定义,并设计了基于抽样的近似检测算法,用实际数据进行了实验。实验结果表明,新的定义不仅与DB(p,d)孤立点定义有着相同的结果,而且简化了孤立点检测对用户的要求,同时给出了数据对象在数据集中的孤立程度。 相似文献
7.
基于距离的分布式RFID数据流孤立点检测 总被引:1,自引:0,他引:1
RFID技术已广泛应用于实时监控、对象标识及跟踪等领域,及时发现被监控标签对象的异常状态显得十分重要.然而,由于无线通信技术的不可靠性及环境因素影响,RFID阅读器收集到的数据常常包含噪声.针对分布式RFID数据流的海量、易变、不可靠及分布等特点,提出了基于距离的局部流孤立点检测算法LSOD和基于近似估计的全局流孤立点检测算法GSOD.LSOD需要维护数据流结构CSL来识别安全内点,然后运用安全内点的特性来节省流数据的存储空间和查询时间.根据基于距离的孤立点定义,在中心节点上的全局孤立点是位于每个分布节点上孤立点集合的子集.GSOD采用抽样方法进行全局孤立点近似估计,以减少中心节点的通信量及计算负荷.实验表明,所给出的算法具有运行时间短、占用内存小、准确率高等特点. 相似文献
8.
基于距离的孤立点检测及其应用 总被引:13,自引:2,他引:13
孤立点检测是一个有趣的知识发现任务,文章介绍了基于距离的孤立点检测及其相关概念,分析了几种有代表性的算法。最后,文章给出了一个判定孤立点的新的定义,并按此定义进行了检测算法,用实际数据进行了实验。实验结果表明,新的定义不仅与DB(p,d)孤立点定义有着相同的结果,而且简化了孤立点检测对用户的需求,同时给出了数据对象在数据集中的孤立程度。 相似文献
9.
ODIC-DBSCAN:一种新的簇内孤立点分析算法 总被引:1,自引:0,他引:1
长期以来,孤立点的检测一直聚焦于簇边缘的离散点,当聚类后簇的数目低于实际数目,或孤立点被伪装在簇内的情况下,簇内孤立点的判定则会更加困难.为判定簇内孤立点,提出一种基于密度聚类DBSCAN(Density based spatial clustering of application with noise)的簇内孤立点检测方法ODIC-DBSCAN(Outlier detection of inner-cluster based on DBSCAN).首先在建立距离矩阵的基础上,通过半径获取策略得到针对该点集的k个有效半径Radius集合,并据此构造密度矩阵;然后建立点集覆盖模型,提出了相邻有效半径构造的覆盖多维体能够覆盖点集的思想,并通过拉格朗日乘子法求取最优的覆盖多维体数目之比,输出点比阈值组;最后重建ODIC-DBSCAN的孤立点检测方法,以簇发生融合现象作为算法终止的判定条件.实验通过模拟数据集,公开benchmark与UCI数据集共同验证了ODIC-DBSCAN算法,展示了聚类过程;分析了算法性能;并通过与其他聚类、孤立点判定方法的对比,验证了算法对簇内孤立点的判定效果. 相似文献
10.
提出一种基于引力的孤立点检测算法.通过综合考虑数据对象周围的密度及数据对象之间的距离等因素对孤立点定义的影响来挖掘出数据集中隐含的孤立点.给出了与该算法相关的概念与技术,详细介绍了该算法,并用实际数据进行了实验.实验表明:该算法对数据集的维度具有很好的扩展性,能有效地识别孤立点,同时能反映出数据对象在数据集中的孤立程度. 相似文献
11.
一种基于关键域子空间的离群数据聚类算法 总被引:4,自引:0,他引:4
离群数据发现与分析是数据挖掘的重要组成部分,现有离群数据挖掘算法主要针对如何检测离群对象,缺乏对挖掘出的离群数据集进行解释与分析的有效方法.通过对离群数据来源及特性进行分析并结合粗糙集理论,定义了离群划分相似度的概念,提出了一种基于关键属性域子空间的离群数据聚类算法COKAS,该算法不仅揭示了离群数据子空间特性,进一步获取了扩展知识,而且有助于对整体数据集的理解.对两个多维数据集的实验结果表明,该算法具有良好的适应性及有效性. 相似文献
12.
随着移动网络、智能终端的迅猛发展,基于位置的服务LBS(Location-based Service)越来越热门,因此基站位置信息的正确与否成为关注的重点.针对基站地理位置存在部分错误这一现象,提出了基于网格概率的离群点检测算法来核查错误的基站.首先,根据基站分布的规则将数据空间分成若干网格单元;其次,根据用户轨迹签到信息关联出其在动态时间范围内经过的基站序列,将基站序列映射到网格中,计算出临近网格单元集合;最后,根据基站分布特点对网格单元内目标基站的临近基站求隶属概率,筛选出离群点,即错误的基站.实验表明,该算法的时间复杂度低且核实准确率较高. 相似文献
13.
14.
针对大多数离群数据检测方法依赖于用户确定参数以及维灾现象,给出了一种基于基尼指标加权的离群子空间与离群数据挖掘方法。该方法通过计算各个维上去一划分的基尼指标值来生成数据对象的离群子空间及属性权向量,在子空间中采用基于统计离群数据挖掘的思想来挖掘离群数据;不需输入参数,结果更具客观性,并且能够适应高维离群数据挖掘;最后采用恒星光谱数据集,验证了可行性和有效性。 相似文献
15.
16.
17.
针对混合属性离群点检测问题,提出基于邻域近似精度的混合属性离群点检测方法。首先,定义异构邻域关系度量来表示混合数据之间的近邻性。然后,定义一种特定的邻域近似精度来构建邻域粒离群度。进而,定义基于邻域近似精度的离群因子及提出基于邻域近似精度的离群点检测(Nighborhood approximation accuracy-based outlier detection,NAAOD)。最后,用UCI数据集对NAAOD算法的有效性进行了验证。理论研究和实验结果均表明,NAAOD算法对混合属性离群点检测是有效的。 相似文献
18.
提出了一种基于多示例学习(multi-instance learning,MIL)的局部离群点检测算法,称之为MIL-LOF(a local outlier factor based on multi-instance learning).算法采用MIL框架,首先将真实对象提取为多示例形式,然后运用退化策略和权重调整方法,计算综合离群点因子,最后检测离群点.在实际企业监控数据以及公共数据集上将MIL-LOF与经典局部离群点检测算法及其优化算法进行了对比实验,结果表明本文提出的MIL-LOF算法在准确性、全面性及高效性上相对其他算法均可获得较为明显的提高. 相似文献
20.
基于相似系数和检测孤立点的聚类算法 总被引:11,自引:2,他引:11
在多目标决策和综合评价中,有个别对象远远偏离群体,成为孤立点集。如果不别除这些对象,就会影响决策和评价的结果。数据挖掘中孤立点集检测算法通常是基于项集属性的,显然不适干多目标决策(MODM)和综合评价中的孤立点集检测。该文提出了一个基于相似系数和检测孤立点的聚类算法,有效地解决了这个问题。 相似文献