首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 52 毫秒
1.
优化初始聚类中心的K-means聚类算法   总被引:1,自引:0,他引:1       下载免费PDF全文
针对传统K-means算法对初始中心十分敏感,聚类结果不稳定问题,提出了一种改进K-means聚类算法。该算法首先计算样本间的距离,根据样本距离找出距离最近的两点形成集合,根据点与集合的计算公式找出其他所有离集合最近的点,直到集合内数据数目大于或等于[α]([α]为样本集数据点数目与聚类的簇类数目的比值),再把该集合从样本集中删除,重复以上步骤得到K(K为簇类数目)个集合,计算每个集合的均值作为初始中心,并根据K-means算法得到最终的聚类结果。在Wine、Hayes-Roth、Iris、Tae、Heart-stalog、Ionosphere、Haberman数据集中,改进算法比传统K-means、K-means++算法的聚类结果更稳定;在Wine、Iris、Tae数据集中,比最小方差优化初始聚类中心的K-means算法聚类准确率更高,且在7组数据集中改进算法得到的轮廓系数和F1值最大。对于密度差异较大数据集,聚类结果比传统K-means、K-means++算法更稳定,更准确,且比最小方差优化初始聚类中心的K-means算法更高效。  相似文献   

2.
针对K中心点算法的初始聚类中心可能过于临近、代表性不足、稳定性差等问题,提出一种改进的K中心点算法。将样本集间的平均距离与样本间的平均距离的比值作为样本的密度参数,精简了高密度点集合中候选代表点的数量,采用最大距离乘积法选择密度较大且距离较远的K个样本作为初始聚类中心,兼顾聚类中心的代表性和分散性。在UCI数据集上的实验结果表明,与传统K中心点算法和其他2种改进聚类算法相比,新提出的算法不仅聚类结果更加准确,同时也具有更快的收敛速度和更高的稳定性。  相似文献   

3.
针对传统K—means聚类算法对初始聚类中心的敏感性和随机性,造成容易陷入局部最优解和聚类结果波动性大的问题,结合密度法和最大化最小距离的思想,提出基于最近高密度点间的垂直中心点优化初始聚类中心的K—means聚类算法。该算法选取相互间距离最大的K对高密度点,并以这足对高密度点的均值作为聚类的初始中心,再进行K—means聚类。实验结果表明,该算法有效排除样本中含有的孤立点,并且聚类过程收敛速度快,聚类结果有更好的准确性和稳定性。  相似文献   

4.
对教学反思内容的准确评估是教师基于教学反思过程提升其专业能力的重要保障。基于改进的K-Means算法对相同主题的教学反思文本进行聚类,通过给定初始聚类中心K的取值范围使其可以在给定范围内自动增加,在聚类过程中加入相似度阈值以限定文本间相似度的取值范围,实现对教学反思文本的分类和对自我反思文本的定位。实验结果表明改进的K—Means算法在反思文本聚类的准确率和稳定性方面比传统算法有所提高,且能根据教学反思内容准确地进行自动分类。  相似文献   

5.
一种改进的K—means聚类算法   总被引:1,自引:0,他引:1  
K—means算法是最常用的一种基于划分的聚类算法,但该算法需要事先指定K值、随机选择初始聚类中心等的缺陷,从而影响了K—means聚类结果的稳定性。针对K—means算法中的初始聚类中心是随机选择这一缺点进行改进,利用提出的新算法确定初始聚类中心,然后进行聚类,得出最终的聚类结果。实验证明,该改进算法比随机选择初始聚类中心的算法性能得到了提高,并且具有更高的准确性及稳定性。  相似文献   

6.
针对传统K-means算法对初始聚类中心敏感的问题,提出了基于数据样本分布情况的动态选取初始聚类中心的改进K-means算法。该算法根据数据点的距离构造最小生成树,并对最小生成树进行剪枝得到K个初始数据集合,得到初始的聚类中心。由此得到的初始聚类中心非常地接近迭代聚类算法收敛的聚类中心。理论分析与实验表明,改进的K-means算法能改善算法的聚类性能,减少聚类的迭代次数,提高效率,并能得到稳定的聚类结果,取得较高的分类准确率。  相似文献   

7.
针对K-Means算法所存在的问题,提出了一种改进的K-Means算法,该方法通过选取相互距离最远的数据点作为初始聚类中心,能够很好地排除随机选取初始聚类中心点的影响.通过实验验证,相对于传统K-Means算法,改进K-Means算法能够获得更好的聚类效果.  相似文献   

8.
一种基于改进PSO的K—means优化聚类算法   总被引:1,自引:0,他引:1  
针对传统的K—means算法对初始聚类中心的选取敏感、容易收敛到局部最优的缺点,提出一种基于改进粒子群优化算法(PSO)的K—means优化聚类算法。该算法利用PSO算法强大的全局搜索能力对初始聚类中心的选取进行优化:通过动态调整惯性权重等参数增强PSO算法的性能;利用群体适应度方差决定算法中前部分PSO算法和后部分K—means算法的转换时机;设置变量实时监控各个粒子和粒子群的最优值变化情况,及时地对出现早熟收敛的粒子进行变异操作,从而为K—means算法搜索到全局最优的初始聚类中心,使聚类结果不受初始聚类中心影响,易于获得全局最优解。实验结果表明文中提出的改进算法与传统聚类算法相比具有更高的聚类正确率、更好的聚类质量及全局搜索能力。  相似文献   

9.
采用K—Means聚类算法和神经网络算法,对药物的使用进行建模.通过模型可得到不同临床特征病人更适合服用何种药物的建议结果,正确率高达94.7%,实现用药的合理化。  相似文献   

10.
传统k-means算法随机选取初始聚类中心使聚类结果不稳定,诸多优化算法的时间复杂度较高,为了提高聚类稳定性并降低时间复杂度,提出了基于个体轮廓系数自适应地选取优秀样本以确定初始聚类中心的改进k-means算法.该算法多次调用传统k-means算法聚类,根据k个类中心的个体轮廓系数以及各样本与类中心的距离,自适应地选取优秀样本,求其均值作为初始聚类中心.在多个UCI数据集上的实验表明,该算法聚类时间短,具有较高的轮廓系数和准确率.  相似文献   

11.
基于初始聚类中心优化的K-均值算法   总被引:2,自引:0,他引:2       下载免费PDF全文
针对传统的K-均值算法对初始聚类中心的选取和孤立点敏感的问题,本文提出了一种基于点密度的初始聚类中心选取方法。利用该方法选出初始聚类中心,再应用K-均值算法进行聚类,同时对孤立点进行特殊处理。实验表明,该方法能够产生高质量的聚类结果。  相似文献   

12.
王宏杰  师彦文 《计算机科学》2017,44(Z11):457-459, 502
为了提高传统K-Means聚类算法的聚类准确性,提出一种结合初始中心优化和特征加权的改进K-Means聚类算法。首先,根据样本特征对聚类的贡献程度获得初始特征权重,构建一种加权距离度量。其次,利用提出的初始聚类中心选择方法获得k个初始聚类中心,并结合初始特征权重进行初步聚类。然后,根据聚类精度来调整特征权重并再次执行聚类过程。重复执行上述过程直到聚类精度不再变化,获得最终的聚类结果。在UCI数据库上的实验结果表明,与现有相关K-Means聚类算法相比,该算法具有较高的聚类准确性。  相似文献   

13.
K-means算法的聚类效果与初始聚类中心的选择以及数据中的孤立点有很大关联,具有很强的不确定性.针对这个缺点,提出了一种优化初始聚类中心选择的K-means算法.该算法考虑数据集的分布情况,将样本点分为孤立点、低密度点和核心点,之后剔除孤立点与低密度点,在核心点中选取初始聚类中心,孤立点不参与聚类过程中各类样本均值的...  相似文献   

14.
初始聚类中心优化的k-means算法   总被引:37,自引:0,他引:37       下载免费PDF全文
传统的k-means算法对初始聚类中心敏感,聚类结果随不同的初始输入而波动。为消除这种敏感性,提出一种优化初始聚类中心的方法,此方法计算每个数据对象所在区域的密度,选择相互距离最远的k个处于高密度区域的点作为初始聚类中心。实验表明改进后的k-means算法能产生质量较高的聚类结果,并且消除了对初始输入的敏感性。  相似文献   

15.
迄今为止,在数据挖掘领域,人们已经实现了多种聚类算法,其中使用最广泛的当属K-means聚类算法.然而,在数据挖掘中,K-means算法面临的一个主要问题就是初始中心点选择问题.本文提出了一种结合关系矩阵和度中心性(Degree Centrality)的分析方法,从而确定K-means算法初始的k个中心点.与传统方法相比,本文算法可得到更加优质的聚类结果.实验结果表明该算法的有效性和可行性.  相似文献   

16.
初始聚类中心优化选取的核C-均值聚类算法   总被引:4,自引:1,他引:3  
在通常的核C-均值聚类算法中,聚类结果对初始聚类中心敏感,随机选取初始聚类中心时,会使得迭代次数较多、分类结果不稳定.针对该问题提出一种优化选取仞始聚类中心的算法.该方法采用一种改进的最大最小距离算法对原始空间中的数据进行粗分类,将粗分类结果中每类类心作为初始聚类中心,再运用核C-均值聚类算法进行分类.仿真实验结果表明方法能有效减少迭代次数,使分类结果更加稳定,分类识别率也有一定程度的提高.  相似文献   

17.
为了提高传统K-均值聚类的稳定性和可靠性,提出了一种自适应的K-均值聚类算法,其基本思想是通过分析样本集的最小树并切割其中所有超过一定阈值的较长边,根据样本集的结构特征事先自动地计算出合理的聚类个数和合理的初始聚类中心.理论分析和计算实验表明,该算法不仅能够保证聚类结果的惟一性,而且在样本集的各个聚类具有大致凸的形状时,如果类间距离明显大于类内距离,不需要人工选择参数就能直接获得较好的聚类结果.对于同样的数据集而言,即使选择了正确的聚类个数,传统的K-均值算法也可能给出不合理的聚类结果,因此自适应的K-均值聚类算法具有更好的性能.  相似文献   

18.
一种基于粗糙集的K-Means聚类算法   总被引:5,自引:0,他引:5  
冯征 《计算机工程与应用》2006,42(20):141-142,146
在传统的硬聚类过程中,得到的簇中数据对象是确定的,然而在现实世界,边界数据是不能被准确划分到任何一个簇的。粗糙集是处理这种边界不确定性的工具,基于此提出了一种基于粗糙集的K-Means聚类算法,这种算法生成的簇包括上近似集和下近似集,可以处理边界对象。试验证明,这种算法是有效的。  相似文献   

19.
K-Means聚类算法研究综述   总被引:2,自引:0,他引:2       下载免费PDF全文
K-均值(K-Means)算法是聚类分析中一种基于划分的算法,同时也是无监督学习算法。其具有思想简单、效果好和容易实现的优点,广泛应用于机器学习等领域。但是K-Means算法也有一定的局限性,比如:算法中聚类数目K值难以确定,初始聚类中心如何选取,离群点的检测与去除,距离和相似性度量等。从多个方面对K-Means算法的改进措施进行概括,并和传统K-Means算法进行比较,分析了改进算法的优缺点,指出了其中存在的问题。对K-Means算法的发展方向和趋势进行了展望。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号