首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 171 毫秒
1.
K-Means聚类算法的研究   总被引:6,自引:0,他引:6  
K-Means算法是一种经典的聚类算法,有很多优点,也存在许多不足.比如初始聚类数K要事先指定,初始聚类中心选择存在随机性,算法容易生成局部最优解,受孤立点的影响很大等.文中主要针对K-Means算法初始聚类中心的选择以及孤立点问题加以改进,首先计算所有数据对象之间的距离,根据距离和的思想排除孤立点的影响,然后提出了一种新的初始聚类中心选择方法,并通过实验比较了改进算法与原算法的优劣.实验表明,改进算法受孤立点的影响明显降低,而且聚类结果更接近实际数据分布.  相似文献   

2.
一种K-means聚类算法的改进与应用   总被引:1,自引:0,他引:1  
K-means算法是基于距离作为相似性度量的聚类算法,传统的K-means算法存在难以确定中心值个数、受噪声及孤立点影响较大的缺点。对此,利用类间相异度与类内相异度改进初始值K,以尽量减少人工干预;同时计算数据库中每一点与剩余点的距离和距离均和,将两者的大小比较作为识别孤立点和噪声点的依据,从而删除孤立点,减少对数据聚类划分的影响。最后将改进后的Kmeans算法应用于入侵检测系统并进行仿真实验,结果表明,基于改进的K-means算法的入侵检测系统一定程度上降低了误报率及误检率,提高了检测的准确率。  相似文献   

3.
传统的K-means算法对于孤立点数据是非常敏感的,少量的该类数据就能对聚类结果产生很大影响。该文提出了一种改进的K-means算法来消弱这种敏感性。算法基于孤立点检测LOF算法中计算K距离的思想,将大于K距离的数据点作为伪聚类中心参与聚类划分,通过对聚类结果的评价来判断该数据点是否为孤立点。若为孤立点则去掉该点,进而来提高聚类质量。  相似文献   

4.
K-Means算法是一种经典的聚类算法,有很多优点,也存在许多不足。比如初始聚类数K要事先指定,初始聚类中心选择存在随机性,算法容易生成局部最优解,受孤立点的影响很大等。文中主要针对K-Means算法初始聚类中心的选择以及孤立点问题加以改进,首先计算所有数据对象之间的距离,根据距离和的思想排除孤立点的影响,然后提出了一种新的初始聚类中心选择方法,并通过实验比较了改进算法与原算法的优劣。实验表明,改进算法受孤立点的影响明显降低,而且聚类结果更接近实际数据分布。  相似文献   

5.
K-means算法的聚类效果与初始聚类中心的选择以及数据中的孤立点有很大关联,具有很强的不确定性。针对这个缺点,提出了一种优化初始聚类中心选择的K-means算法。该算法考虑数据集的分布情况,将样本点分为孤立点、低密度点和核心点,之后剔除孤立点与低密度点,在核心点中选取初始聚类中心,孤立点不参与聚类过程中各类样本均值的计算。按照距离最近原则将孤立点分配到相应类中完成整个算法。实验结果表明,改进的K-means算法能提高聚类的准确率,减少迭代次数,得到更好的聚类结果。  相似文献   

6.
针对传统K-means聚类算法对初始聚类中心和离群孤立点敏感的缺陷,以及现有引入密度概念优化的K-means算法均需要设置密度参数或阈值的缺点,提出一种融合最近邻矩阵与局部密度的自适应K-means聚类算法。受最邻近吸收原则与密度峰值原则启发,通过引入数据对象间的距离差异值构造邻近矩阵,根据邻近矩阵计算局部密度,不需要任何参数设置,采取最近邻矩阵与局部密度融合策略,自适应确定初始聚类中心数目和位置,同时完成非中心点的初分配。人工数据集和UCI数据集的实验测试,以及与传统K-means算法、基于离群点改进的K-means算法、基于密度改进的K-means算法的实验比较表明,提出的自适应K-means算法对人工数据集的孤立点免疫度较高,对UCI数据集具有更准确的聚类结果。  相似文献   

7.
为了解决初始聚类中心的选择、簇个数的确定以及孤立点的避免等问题,提出了一种改进的全局K'-means算法.改进的算法不仅能够利用辅助聚类函数来计算初始点,而且能够利用目标函数在没有预定义聚类个数的前提下,找到实际的聚类中心个数,同时避免r孤立点问题.将改进的算法应用到实际数据集的分类中,并与改进的全局K-means算法以及K'-means算法进行了比较,实验结果证明所提出的算法能获得更好的聚类结果.  相似文献   

8.
潘大胜 《计算机仿真》2010,27(8):165-167,207
在优化文本文件问题的研究中,为了提高文本聚类的准确率,得到更高质量的聚类结果,在深入研究K-means算法的基础上,提出了一种改进的K-means聚类算法,并将算法应用于文本聚类仿真系统中。该算法可以自动计算聚类结果中簇的个数,消除了孤立点对聚类结果的影响,为建立文本聚类系统提供了先决条件。在文本聚类仿真实验中,对数据集进行了多次测试,测试结果表明基于改进K-means算法的文本聚类系统具有更好的聚类特性,取得了良好的应用效果。  相似文献   

9.
张琳  陈燕  汲业  张金松 《计算机应用研究》2011,28(11):4071-4073
针对传统K-means算法必须事先确定聚类数目以及对初始聚类中心的选取比较敏感的缺陷,采用基于密度的思想,通过设定Eps邻域以及Eps邻域内至少包含的对象数minpts来排除孤立点,并将不重复的核心点作为初始聚类中心;采用类内距离和类间距离的比值作为准则评价函数,将准则函数取得最小值时的聚类数作为最佳聚类数,这些改进有效地克服了K-means算法的不足。最后通过几个实例介绍了改进后算法的具体应用,实例表明改进后的算法比原算法有更高的聚类准确性,更能实现类内紧密类间远离的聚类效果。  相似文献   

10.
K-means算法被广泛用于客户细分聚类应用研究,客户细分对移动通信行业具有重要的商业价值.但变量的量纲、维度、聚类数、初始聚点等参数的计算是影响K-means算法聚类应用效果的重要因子.在基于K-means算法移动通信行为特征分析系统的实现过程中,分别从特征维度选择、变量量纲统一、聚类数K值与初始聚点的确定等四个方面改进算法的上述影响参数的计算方法,并利用经验加权的方式使算法与主观经验结合.研究结果表明改进K-means算法对移动通信特征分析客户聚类有效.  相似文献   

11.
现有的大多数孤立点检测算法都需要预先设定孤立点个数,并且还缺乏对不均匀数据集的检测能力。针对以上问题,提出了基于聚类的两段式孤立点检测算法,该算法首先用DBSCAN聚类算法产生可疑孤立点集合,然后利用剪枝策略对数据集进行剪枝,并用基于改进距离的孤立点检测算法产生最可能孤立点排序集合,最终由两个集合的交集确定孤立点集合。该算法不必预先设定孤立点个数,具有较高的准确率与检测效率,并且对数据集的分布状况不敏感。数据集上的实验结果表明,该算法能够高效、准确地识别孤立点。  相似文献   

12.
基于密度与近邻传播的数据流聚类算法   总被引:1,自引:0,他引:1  
针对现有算法聚类精度不高、处理离群点能力较差以及不能实时检测数据流变化的缺陷,提出一种基于密度与近邻传播融合的数据流聚类算法.该算法采用在线/离线两阶段处理框架,通过引 入微簇衰减密度来精确反映数据流的演化信息,并采用在线动态维护和删减微簇机制,使算法模型更 符合原始数据流的内在特性.同时,当模型中检测到新的类模式出现时,采用一种改进的加权近邻传播聚类(Weighted and hierarchical affinity propagation,WAP)算法对模 型进行重建,因而能够实时检测到数据流的变化,并能给出任意时间的聚类结果.在真实数据集和人工 数据集上的实验表明,该算法具有良好的适用性、有效性和可扩展性,能够取得较好的聚类效果.  相似文献   

13.
基于核的可能性聚类算法   总被引:3,自引:3,他引:0  
针对模糊C-均值算法聚类分析时的缺陷,采用能够较好地处理噪音和孤立点的可能性聚类算法,并将核学习方法的思想应用于可能性聚类算法中,提出一种基于核的可能性聚类算法。该方法利用Mercer核将观察空间的待分类样本点经过一个非线性映射后,映射到一个高维的核空间,突出不同类别样本之间的特征差异,使得原来线性不可分的样本点在核空间中变得更加线性可分,从而更好地聚类。经仿真实验表明,基于核的可能性聚类算法比模糊C-均值以及可能性聚类算法具有更好的聚类效果,且算法能够很快地收敛。  相似文献   

14.
发现离群点并合理地解释离群点对数据挖掘结果的运用有重要意义,通过对离群点属性的检测可以发现其离群特性,进而更加准确地解释聚类结果。针对在聚类结果中出现的不同离群点及其特性,提出将层次聚类算法应用于离群点分析,通过元胞自动机距离变换算法实现凝固层次聚类,实现了簇间距离的度量;定义了演化周期上的平均度量距离,能够发现不同聚类层次上的离群点及其离群特性。该算法能够在得到聚类结果的同时,有效地解释离群点的属性,并具有较低的计算复杂度和并行计算以及向高维空间扩展的特性。通过试验数据进行了实证研究,验证了算法的有效性。  相似文献   

15.
基于改进K均值聚类的异常检测算法   总被引:1,自引:0,他引:1  
左进  陈泽茂 《计算机科学》2016,43(8):258-261
通过改进传统K-means算法的初始聚类中心随机选取过程,提出了一种基于改进K均值聚类的异常检测算法。在选择初始聚类中心时,首先计算所有数据点的紧密性,排除离群点区域,在数据紧密的地方均匀选择K个初始中心,避免了随机性选择容易导致局部最优的缺陷。通过优化选取过程,使得算法在迭代前更加接近真实的聚类类簇中心,减少了迭代次数,提高了聚类质量和异常检测率。实验表明,改进算法在聚类性能和异常检测方面都明显优于原算法。  相似文献   

16.
传统的聚类算法是一种无监督的学习过程,聚类的精度受到相似性度量方式以及数据集中孤立点的影响,并且算法也没有很好的利用先验知识,无法体现用户的需求。因此提出了基于共享最近邻的孤立点检测及半监督聚类算法。该算法采用共享最近邻为相似度,根据数据点的最近邻居数目来判断是否为孤立点,并在删除孤立点的数据集上进行半监督聚类。在半监督聚类过程中加入了经过扩展的先验知识,同时根据图形分割原理对数据集进行聚类。文中使用真实的数据集进行仿真,其仿真结果表明,本文所提出的算法能有效的检测出孤立点,并具有很好的聚类效果。  相似文献   

17.
廖纪勇  吴晟  刘爱莲 《控制与决策》2021,36(12):3083-3090
选取合理的初始聚类中心是正确聚类的前提,针对现有的K-means算法随机选取聚类中心和无法处理离群点等问题,提出一种基于相异性度量选取初始聚类中心改进的K-means聚类算法.算法根据各数据对象之间的相异性构造相异性矩阵,定义了均值相异性和总体相异性两种度量准则;然后据此准则来确定初始聚类中心,并利用各簇中数据点的中位数代替均值以进行后续聚类中心的迭代,消除离群点对聚类准确率的影响.此外,所提出的算法每次运行结果保持一致,在初始化和处理离群点方面具有较好的鲁棒性.最后,在人工合成数据集和UCI数据集上进行实验,与3种经典聚类算法和两种优化初始聚类中心改进的K-means算法相比,所提出的算法具有较好的聚类性能.  相似文献   

18.
针对传统k-均值算法对初始聚类中心敏感的问题,提出了启发式初始化独立的k-均值算法。该算法引入prim算法选择k个初始聚类中心,且通过设置阈值参数θ,避免同一类中的多个数据对象同时作为初始聚类中心,否则将导致聚类迭代次数增加,并得到错误的聚类结果。与传统的k-均值算法和基于遗传算法的k-均值聚类算法相比,实验结果表明改进的算法不仅降低了初始聚类中心选取的随机性对聚类性能产生的影响,有效减少了聚类迭代次数,而且降低了离群点对聚类性能的影响,从而验证了算法的可行性和有效性。  相似文献   

19.
针对异常离群点对k-means ■算法的聚类精确度影响较大且在确定中心点过程中会泄露聚类数据隐私的问题,提出DPk-means ■算法。标记离群点,降低离群点对k-means ■算法聚类精确度的影响,将差分隐私应用于k-means ■聚类算法中保护聚类数据隐私。在选择聚类初始中心点和迭代求取均值中心点的过程中,应用拉普拉斯机制注入噪声,解决数据隐私泄露的问题。通过隐私预算动态变化对聚类结果准确性的影响及同类算法对比实验分析验证,DPk-means ■算法能够提供更高的隐私保护水平且保证聚类结果的准确性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号