首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 109 毫秒
1.
现有的孤立点检测算法在通用性、有效性、用户友好性及处理高维大数据集的性能还不完善,为此提出一种快速有效的基于层次聚类的全局孤立点检测方法。该方法基于层次聚类的结果,根据聚类树和距离矩阵可视化判断数据孤立程度,并确定孤立点数目。从聚类树自顶向下,无监督地去除孤立点。仿真实验验证了方法能快速有效识别全局孤立点,具有用户友好性,适用于不同形状的数据集,可用于大型高维数据集的孤立点检测。  相似文献   

2.
基于层次聚类的孤立点检测方法   总被引:2,自引:1,他引:2       下载免费PDF全文
孤立点检测是数据挖掘过程的重要环节,提出了基于层次聚类的孤立点检测(ODHC)方法。ODHC方法基于层次聚类结果进行分析,对距离矩阵按簇间距离从大到小检测孤立点,可检测出指定离群程度的孤立点,直到达到用户对数据的集中性要求。该方法适用于多维数据集,且算法原理直观,用户友好,对孤立点的检测准确率较高。在iris、balloon等数据集上的仿真实验结果表明,ODHC方法能有效地识别孤立点,是一种简单实用的孤立点检测方法。  相似文献   

3.
检测数据集中的孤立点经常需要用户设置一些参数,当用户没有相应的经验时,孤立点检测或者困难或者不完全。本文提出一种无需参数设置,自动查找最可能的孤立点的检测方法。主要贡献包括:提出的一种聚类评价函数和自寻优层次聚类算法,该算法首先产生聚类树,然后通过评价函数,从聚类树上选择最优聚类结果;提出一个孤立类的检测算法,从聚类结果中寻找孤立类,孤立类中的数据就是检测出的孤立点。实验证明了新方法的有效性。  相似文献   

4.
在分析现有的孤立点探测算法的基础上,提出一种新颖的基于聚类的孤立点集挖掘算法.该算法不但能够探测出所有的孤立点,还能根据孤立点产生的原因对这些孤立点进行分类。通过实验数据测试,本算法有较好的稳定性和性能的优越性。  相似文献   

5.
提出了基于聚类的孤立点检测算法,减小了孤立点检测的时间复杂度,理论和实验证明了基于聚类的孤立点检测算法的有效性.  相似文献   

6.
一种基于划分的层次聚类算法   总被引:1,自引:0,他引:1       下载免费PDF全文
CURE算法是针对大规模数据聚类算法的典型代表。提出了一种新的算法K-CURE,该方法基于划分思想对CURE算法作了改进,同时给出了在聚类中剔除孤立点的时机选择方法。测试表明,改进后的算法效率明显高于原算法,且聚类效果良好。  相似文献   

7.
基于相似系数和检测孤立点的聚类算法   总被引:11,自引:2,他引:11  
姜灵敏 《计算机工程》2003,29(11):183-185
在多目标决策和综合评价中,有个别对象远远偏离群体,成为孤立点集。如果不别除这些对象,就会影响决策和评价的结果。数据挖掘中孤立点集检测算法通常是基于项集属性的,显然不适干多目标决策(MODM)和综合评价中的孤立点集检测。该文提出了一个基于相似系数和检测孤立点的聚类算法,有效地解决了这个问题。  相似文献   

8.
周凯 《计算机科学》2006,33(10):196-197
孤立点挖掘是数据挖掘的一个重要领域,而统计分析方法在孤立点检测中具有天然的优势。本文将统计聚类方法融入RBF神经网络,提出了一种基于统计聚类RBF神经网络的新的孤立点检测算法——SCRBF。该算法包括两部分,先用统计聚类方法对神经网络进行初始化,然后根据网络的训练情况进行隐单元的简化,提高了神经网络的泛化能力,同时也降低了过拟合现象的出现概率。与LSC算法的对比实验表明,该算法是有效的。  相似文献   

9.
CURE算法是一种凝聚的层次聚类算法,它首先提出了使用多代表点描述簇的思想。本文通过对已有的基于多代表点的层次聚类算法特点的分析,提出了一种新的基于多代表点的层次聚类算法WRPC。它使用了基于影响因子的簇代表点选取机制和基于k-近邻方法的小簇合并机制,可以发现形状、尺寸更为复杂的簇。实验结果表明,该算法在保证执行效率的情况下取得了更好的聚类效果。  相似文献   

10.
刘彤  郑永果 《福建电脑》2005,(6):42-43,28
CORE算法是一种凝聚的层次聚类算法,它首先提出了使用多代表点描述簇的思想。通过深入分析现有的基干多代表点的层次聚类算法。本文提出了一种新的改进机制,使用了基干影响因子的族代表点选取机制可以发现形状、尺寸更为复杂的族。实验结果表明,该改进取得了更好的聚类结果。  相似文献   

11.
针对基于距离的离群点检测算法受全局阈值的限制, 只能检测全局离群点, 提出了基于聚类划分的两阶段离群点检测算法挖掘局部离群点。首先基于凝聚层次聚类迭代出K-means所需的k值, 然后再利用K-means的方法将数据集划分成若干个微聚类; 其次为了提高挖掘效率, 提出基于信息熵的聚类过滤机制, 判定微聚类中是否包含离群点; 最后从包含离群点的微聚类中利用基于距离的方法挖掘出相应的局部离群点。实验结果表明, 该算法效率高、检测精度高、时间复杂度低。  相似文献   

12.
基于树编辑距离的层次聚类算法   总被引:1,自引:0,他引:1       下载免费PDF全文
为了识别犯罪嫌疑人伪造和篡改的虚假身份,利用树编辑距离计算个体属性相似性,证明了树编辑距离的相关数学性质,对属性应用层次编码方法,提出了一种新的基于树编辑距离的层次聚类算法HCTED(Hi-erarchical Clustering Algorithm Based on Tree Edit Distance)。新算法通过树编辑操作使用最少的代价计算属性相似性,克服了传统聚类算法标称型计算的缺陷,提高了聚类精度,通过设定阈值对给定样本聚类。实验证明了新方法在身份识别上的准确性和有效性,讨论了不同参数对实验结果的影响,对比传统聚类算法,HCTED算法性能明显提高。新算法已经应用到警用流动人口分析中,取得了良好效果。  相似文献   

13.
In this paper, we develop a novel framework, called Monitoring Vehicle Outliers based on a Clustering technique (MVOC), for monitoring vehicle outliers caused by complex vehicle states. The vehicle outlier monitoring is a method to continuously check the current vehicle conditions. Most of previous monitoring methods have conducted simple operations depending on uncomplicated analyses or expected lifetimes in regard to vehicle components. However, many serious vehicle outliers such as turning off during a drive result from the complex vehicle states influenced by correlated components. The proposed method monitors the current vehicle conditions based on not simple components like the previous methods but more complex and various vehicle states using a clustering technique. We perform vehicle data clustering and then analyze the generated clusters with information of vehicle outliers caused by complex correlations of vehicle components. Thus, we can learn vehicle information in more detail. To facilitate MVOC, we also propose related techniques such as sampling cluster data with representative attributes and deciding cluster characteristics on the basis of relations between vehicle data and states. Then, we demonstrate the performance of our approach in terms of monitoring vehicle outliers on the basis of real complex correlations between outliers and vehicle data through various experiments. Experimental results show that the proposed method can not only monitor the complex outliers by predicting their occurrence possibilities in advance but also outperform a standard technique. Moreover, we present statistical significance of the results through significance tests.  相似文献   

14.
离群点检测是数据挖掘一个重要内容,它为分析各种海量的、复杂的、含有噪声的数据提供了新的方法。对离群数据挖掘几类主要的方法进行了分析和评价,并在此基础上了提出了一种基于遗传聚类的离群点检测算法。该算法结合了遗传算法全局搜索的优点和K-均值方法局部收敛速度快的特点,取得较好效果。实验验证该算法很好地检测到数据集中的离群点,同时还完成了数据集的聚类。具有较好的实用性。  相似文献   

15.
基于数据预处理的并行分层聚类算法*   总被引:3,自引:0,他引:3  
分层聚类技术在图像处理、入侵检测和生物信息学等方面有着极为重要的应用,是数据挖掘领域的研究热点之一。针对目前基于SIMD模型的并行分层聚类算法处理海量数据时效果不理想的问题,提出一种基于数据预处理的自适应并行分层聚类算法,在O((λn)2/p)的时间内对n个输入数据点进行聚类。其中1≤p≤n/log n,0.1≤λ≤0.3。将提出的算法与现有文献结论进行的性能对比分析表明,本算法明显改进了现有文献的研究结果。  相似文献   

16.
在分析了当前基于距离的离群数据挖掘算法的基础上,提出了一种基于SOM的离群数据挖掘集成框架,其具有可扩展性、可预测性、交互性、适应性、简明性等特征.实验结果表明,基于SOM的离群数据挖掘是有效的.  相似文献   

17.
聚类是数据挖掘领域中最活跃的研究分支之一,并在其他的科学领域也有广泛的应用。设计了基于加权快速聚类的异常数据挖掘算法,以便能快速发现异常数据。首先通过对数据的每个属性赋予一定权值,权值的大小要体现其对分类的贡献度,并根据属性权值的特点,选择比较优良的初始分区,然后进行多次迭代,得到接近最优分区,接着运用一定规则,发现异常数据类,最后实践证明该技术取得很好的社会效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号