共查询到16条相似文献,搜索用时 171 毫秒
1.
梁斌梅 《计算机工程与应用》2012,48(9):101-103,107
孤立数据的存在使数据挖掘结果不准确,甚至错误。现有的孤立点检测算法在通用性、有效性、用户友好性及处理高维大数据集的性能还不完善,为此,提出一种有效的全局孤立点检测方法,该方法进行凝聚层次聚类,根据聚类树和距离矩阵来可视化判断数据孤立程度,确定孤立点数目。从聚类树自顶向下,无监督地去除离群数据点。在多个数据集上的仿真实验结果表明,该方法能有效识别孤立程度最大的前n个全局孤立点,适用于不同形状的数据集,算法效率高,用户友好,且适用于大型高维数据集的孤立点检测。 相似文献
2.
梁斌梅 《计算机工程与应用》2009,45(32):117-119
孤立点检测是数据挖掘过程的重要环节,提出了基于层次聚类的孤立点检测(ODHC)方法。ODHC方法基于层次聚类结果进行分析,对距离矩阵按簇间距离从大到小检测孤立点,可检测出指定离群程度的孤立点,直到达到用户对数据的集中性要求。该方法适用于多维数据集,且算法原理直观,用户友好,对孤立点的检测准确率较高。在iris、balloon等数据集上的仿真实验结果表明,ODHC方法能有效地识别孤立点,是一种简单实用的孤立点检测方法。 相似文献
3.
检测数据集中的孤立点经常需要用户设置一些参数,当用户没有相应的经验时,孤立点检测或者困难或者不完全。本文提出一种无需参数设置,自动查找最可能的孤立点的检测方法。主要贡献包括:提出的一种聚类评价函数和自寻优层次聚类算法,该算法首先产生聚类树,然后通过评价函数,从聚类树上选择最优聚类结果;提出一个孤立类的检测算法,从聚类结果中寻找孤立类,孤立类中的数据就是检测出的孤立点。实验证明了新方法的有效性。 相似文献
4.
传统的聚类算法是一种无监督的学习过程,聚类的精度受到相似性度量方式以及数据集中孤立点的影响,并且算法也没有很好的利用先验知识,无法体现用户的需求。因此提出了基于共享最近邻的孤立点检测及半监督聚类算法。该算法采用共享最近邻为相似度,根据数据点的最近邻居数目来判断是否为孤立点,并在删除孤立点的数据集上进行半监督聚类。在半监督聚类过程中加入了经过扩展的先验知识,同时根据图形分割原理对数据集进行聚类。文中使用真实的数据集进行仿真,其仿真结果表明,本文所提出的算法能有效的检测出孤立点,并具有很好的聚类效果。 相似文献
5.
ODIC-DBSCAN:一种新的簇内孤立点分析算法 总被引:1,自引:0,他引:1
长期以来,孤立点的检测一直聚焦于簇边缘的离散点,当聚类后簇的数目低于实际数目,或孤立点被伪装在簇内的情况下,簇内孤立点的判定则会更加困难.为判定簇内孤立点,提出一种基于密度聚类DBSCAN(Density based spatial clustering of application with noise)的簇内孤立点检测方法ODIC-DBSCAN(Outlier detection of inner-cluster based on DBSCAN).首先在建立距离矩阵的基础上,通过半径获取策略得到针对该点集的k个有效半径Radius集合,并据此构造密度矩阵;然后建立点集覆盖模型,提出了相邻有效半径构造的覆盖多维体能够覆盖点集的思想,并通过拉格朗日乘子法求取最优的覆盖多维体数目之比,输出点比阈值组;最后重建ODIC-DBSCAN的孤立点检测方法,以簇发生融合现象作为算法终止的判定条件.实验通过模拟数据集,公开benchmark与UCI数据集共同验证了ODIC-DBSCAN算法,展示了聚类过程;分析了算法性能;并通过与其他聚类、孤立点判定方法的对比,验证了算法对簇内孤立点的判定效果. 相似文献
6.
7.
8.
现有的大多数孤立点检测算法都需要预先设定孤立点个数,并且还缺乏对不均匀数据集的检测能力。针对以上问题,提出了基于聚类的两段式孤立点检测算法,该算法首先用DBSCAN聚类算法产生可疑孤立点集合,然后利用剪枝策略对数据集进行剪枝,并用基于改进距离的孤立点检测算法产生最可能孤立点排序集合,最终由两个集合的交集确定孤立点集合。该算法不必预先设定孤立点个数,具有较高的准确率与检测效率,并且对数据集的分布状况不敏感。数据集上的实验结果表明,该算法能够高效、准确地识别孤立点。 相似文献
9.
梁斌梅 《计算机工程与应用》2009,45(28):52-54
提出一种基于凝聚层次聚类消除孤立点的新方法,借助聚类树识别孤立点。去除孤立点后,利用RBF网络建立动态预测模型,实验结果表明,网络的训练和泛化性能较消除孤立点前有明显提高。说明凝聚层次聚类方法用在孤立点检测方面是有效可行的,消除孤立点后建立的模型收敛速度快,泛化能力更优。 相似文献
10.
11.
12.
离群点检测问题中的数据可被看作是正常点与异常点在空间中的高度混合,在减少正常点损失的前提下,离群点通常包含在离聚类中心最远的样本集中。受这种思想启发,提出一种针对高维稀疏数据的基于插值的离群点检测方法,该方法在K-means基础上应用遗传算法对原始数据进行插值处理,解决了K-means聚类中稀疏数据容易被合并的问题。实验结果表明,对比基于传统K-means聚类的离群点检测方法以及几种典型的基于改进K-means的检测方法,本文
方法损失的正常点更少,提高了检测的准确率和精确率。 相似文献
13.
基于数学形态学的模糊异常点检测 总被引:1,自引:0,他引:1
异常点检测作为数据挖掘的一项重要任务,可能会导致意想不到的知识发现.但传统的异常点检测技术都忽略了数据的自然结构,即异常点与簇的联系.然而,把异常点得分和聚类方法结合起来有利于对异常点与簇的联系的研究.提出基于数学形态学的模糊异常点检测与分析,把数学形态学技术和基于连接的异常点检测方法集成到一个模糊模型中,从异常隶属度和模糊隶属度这两个方面来分析对象与簇集的模糊关系.通过充分的实验证明,该算法能够对复杂面状和变密度的数据集,正确、高效地找出异常点,同时发现与异常点相关联的簇信息,探索异常点与簇核的关联深度,对异常点本身的意义具有启发作用. 相似文献
14.
基于密度的局部离群点检测算法 总被引:1,自引:0,他引:1
基于统计学和基于距离的离群点检测都依赖与给定数据点集的全局分布,然而数据通常并非都是均匀分布的。当分析分布密度相差很大的数据时,基于密度的局部离群点检测方法有着很好的识别局部离群点的能力。但存在时间复杂度较大,文章提出了一种改进的算法,能降低时间复杂度,实现有效的局部离群点的检测。 相似文献
15.
最近几年,谱聚类思想开始用于数据挖掘领域,并取得了较好的效果;离群数据挖掘是对离群点进行检测,发掘出有用知识。将谱聚类中的NJW算法成功应用到离群数据挖掘领域,并结合离群指数的概念,提出了一种适合离群数据挖掘的谱聚类算法。与原有的基于聚类的离群检测算法相比,具有更好的效率和适应性。实验验证了所提算法的有效性和可行性。 相似文献
16.
异常值的检测问题是时下数据挖掘领域的研究热点。目前已经有许多种成熟的异常值检测方法,但当数据是高维混合型属性,或者存在成片孤立点时,这些方法就变得很不理想甚至不再适用。因此,针对这些现有方法的不足之处,提出了新的孤立点检测方法,并设计了时域和空域的异常值检测平台。对于时间和空间序列数据集,该平台分别采用基于互相关分析和自组织竞争(self-organizing maps, SOM)神经网络的异常值检测方法。经实验验证,检测平台具有较高的检测率和可靠性。同时,在搭建该平台时充分考虑了模块化和层次化的方式,使得平台具有良好的可扩展性和开放性。 相似文献