共查询到20条相似文献,搜索用时 15 毫秒
1.
基于邻域模型的K-means初始聚类中心选择算法 总被引:3,自引:0,他引:3
传统的K-means算法由于其方法简单,在模式识别和机器学习中被广泛讨论和应用。但由于K—means算法随机选择初始聚类中心,而初始聚类中心的选择对最终的聚类结果有着直接的影响,因此算法不能保证得到一个唯一的聚类结果。利用邻域模型中对象邻域的上下近似,定义了对象邻域耦合度和分离度的概念,给出了对象在初始聚类中心选择中的重要性,提出了一种初始聚类中心的选择算法。另外,分析了邻域模型中三种范数对聚类精度的影响,并和随机选择初始聚类中心、CCIA选择初始聚类中心算法进行了比较,实验结果表明,该算法是有效的。 相似文献
2.
针对K-means算法的不足,提出了一种优化初始中心的聚类算法。首先,采用密度敏感的相似性度量来计算对象的密度,基于对象之间的距离和对象的邻域,选择相互距离尽可能远的数据点作为初始聚类中心。然后,采用基于粗糙集的K-means聚类算法处理边界对象,同时利用均衡化函数自动生成聚类数目。实验表明,算法具有较好的聚类效果和综合性能。 相似文献
3.
K-means算法的聚类效果与初始聚类中心的选择以及数据中的孤立点有很大关联,具有很强的不确定性。针对这个缺点,提出了一种优化初始聚类中心选择的K-means算法。该算法考虑数据集的分布情况,将样本点分为孤立点、低密度点和核心点,之后剔除孤立点与低密度点,在核心点中选取初始聚类中心,孤立点不参与聚类过程中各类样本均值的计算。按照距离最近原则将孤立点分配到相应类中完成整个算法。实验结果表明,改进的K-means算法能提高聚类的准确率,减少迭代次数,得到更好的聚类结果。 相似文献
4.
针对传统K-means算法对初始聚类中心敏感的问题,提出了基于数据样本分布情况的动态选取初始聚类中心的改进K-means算法。该算法根据数据点的距离构造最小生成树,并对最小生成树进行剪枝得到K个初始数据集合,得到初始的聚类中心。由此得到的初始聚类中心非常地接近迭代聚类算法收敛的聚类中心。理论分析与实验表明,改进的K-means算法能改善算法的聚类性能,减少聚类的迭代次数,提高效率,并能得到稳定的聚类结果,取得较高的分类准确率。 相似文献
5.
6.
针对传统K-means算法对初始中心十分敏感,聚类结果不稳定问题,提出了一种改进K-means聚类算法。该算法首先计算样本间的距离,根据样本距离找出距离最近的两点形成集合,根据点与集合的计算公式找出其他所有离集合最近的点,直到集合内数据数目大于或等于[α]([α]为样本集数据点数目与聚类的簇类数目的比值),再把该集合从样本集中删除,重复以上步骤得到K(K为簇类数目)个集合,计算每个集合的均值作为初始中心,并根据K-means算法得到最终的聚类结果。在Wine、Hayes-Roth、Iris、Tae、Heart-stalog、Ionosphere、Haberman数据集中,改进算法比传统K-means、K-means++算法的聚类结果更稳定;在Wine、Iris、Tae数据集中,比最小方差优化初始聚类中心的K-means算法聚类准确率更高,且在7组数据集中改进算法得到的轮廓系数和F1值最大。对于密度差异较大数据集,聚类结果比传统K-means、K-means++算法更稳定,更准确,且比最小方差优化初始聚类中心的K-means算法更高效。 相似文献
7.
《计算机科学与探索》2016,(2):230-247
针对快速K-medoids聚类算法和方差优化初始中心的K-medoids聚类算法存在需要人为给定类簇数,初始聚类中心可能位于同一类簇,或无法完全确定数据集初始类簇中心等缺陷,受密度峰值聚类算法启发,提出了两种自适应确定类簇数的K-medoids算法。算法采用样本x i的t最近邻距离之和倒数度量其局部密度ρi,并定义样本x i的新距离δi,构造样本距离相对于样本密度的决策图。局部密度较高且相距较远的样本位于决策图的右上角区域,且远离数据集的大部分样本。选择这些样本作为初始聚类中心,使得初始聚类中心位于不同类簇,并自动得到数据集类簇数。为进一步优化聚类结果,提出采用类内距离与类间距离之比作为聚类准则函数。在UCI数据集和人工模拟数据集上进行了实验测试,并对初始聚类中心、迭代次数、聚类时间、Rand指数、Jaccard系数、Adjusted Rand index和聚类准确率等经典聚类有效性评价指标进行了比较,结果表明提出的K-medoids算法能有效识别数据集的真实类簇数和合理初始类簇中心,减少聚类迭代次数,缩短聚类时间,提高聚类准确率,并对噪音数据具有很好的鲁棒性。 相似文献
8.
为了提高传统K-Means聚类算法的聚类准确性,提出一种结合初始中心优化和特征加权的改进K-Means聚类算法。首先,根据样本特征对聚类的贡献程度获得初始特征权重,构建一种加权距离度量。其次,利用提出的初始聚类中心选择方法获得k个初始聚类中心,并结合初始特征权重进行初步聚类。然后,根据聚类精度来调整特征权重并再次执行聚类过程。重复执行上述过程直到聚类精度不再变化,获得最终的聚类结果。在UCI数据库上的实验结果表明,与现有相关K-Means聚类算法相比,该算法具有较高的聚类准确性。 相似文献
9.
传统的K-means算法选取初始聚类中心时的不确定性会导致聚类结果不稳定。论文提出了基于相异度的邻域及其结构系数的概念,从最小的结构系数开始,按照其递增顺序寻找初始聚类中心;随后采用依次缩小邻域的技巧逐步探索,直到找到K个初始聚类中心。该方法同时得到li(i=0,1,2,…,q)个初始聚类中心及其对应的数据分类结果。实验证明,对比于以往的算法,新算法具有更高的分类准确率以及更少的迭代次数。 相似文献
10.
针对传统K-means算法的聚类不稳定性,提出一种基于相异度与邻域的初始聚类中心选择算法.该算法首先构造相异度矩阵,建立每个样本点的邻域,选取K个相互距离较远且邻域内样本点较密集的初始聚类中心.采用K-means算法思想,利用UCI中的三种数据集进行实验.结果表明,相比传统K-means算法,新算法有稳定的聚类结果,且对比于已经提出的两种改进算法,新的算法在保持准确率的前提下,迭代次数有较大程度的减少. 相似文献
11.
基于初始聚类中心选取的改进FCM聚类算法 总被引:11,自引:1,他引:11
针对模糊C-均值(Fuzzy C-Means,FCM)算法聚类效果往往受到初始聚类中心影响,收敛结果易陷入局部极小的问题,提出了一种改进的模糊C均值聚类算法.算法给出了一种简洁快速的初始聚类中心的选取规则,并根据聚类中心的分离特性改进了目标函数,从而使获得的聚类结果为全局最优.仿真结果证明新算法与传统FCM方法相比,迭代次数少,准确率高,同时也更加适用于样本数据分类不均衡的聚类问题. 相似文献
12.
田腾浩 《网络安全技术与应用》2014,(9):42-43
针对K-Means算法所存在的问题,提出了一种改进的K-Means算法,该方法通过选取相互距离最远的数据点作为初始聚类中心,能够很好地排除随机选取初始聚类中心点的影响.通过实验验证,相对于传统K-Means算法,改进K-Means算法能够获得更好的聚类效果. 相似文献
13.
针对快速K-medoids聚类算法存在密度计算复杂耗时和初始聚类中心可能位于同一类簇的缺陷,以及基于邻域的K-medoids算法的邻域半径需要人为给定一个调节系数的主观性缺陷,分别以样本间距离均值和相应样本的标准差为邻域半径,以方差作为样本分布密集程度的度量,选取方差值最小且其间距离不低于邻域半径的样本为K-medoids的初始聚类中心,提出了两种方差优化初始中心的K-medoids算法。在UCI数据集和人工模拟数据集上进行了实验测试,并对各种聚类指标进行了比较,结果表明该算法需要的聚类时间短,得到的聚类结果优,适用于较大规模数据集的聚类。 相似文献
14.
15.
基于样本空间分布密度的初始聚类中心优化K-均值算法* 总被引:2,自引:1,他引:1
针对传统K-均值聚类算法对初始聚类中心敏感、现有初始聚类中心优化算法缺乏客观性,提出一种基于样本空间分布密度的初始聚类中心优化K-均值算法。该算法利用数据集样本的空间分布信息定义数据对象的密度,并根据整个数据集的空间信息定义了数据对象的邻域;在此基础上选择位于数据集样本密集区且相距较远的数据对象作为初始聚类中心,实现K-均值聚类。UCI机器学习数据库数据集以及随机生成的带有噪声点的人工模拟数据集的实验测试证明,本算法不仅具有很好的聚类效果,而且运行时间短,对噪声数据有很强的抗干扰性能。基于样本空间分布密度的初始聚类中心优化K-均值算法优于传统K-均值聚类算法和已有的相关K-均值初始中心优化算法。 相似文献
16.
传统的K-means算法对初始聚类中心敏感,聚类结果随不同的初始输入而波动,针对K-means算法存在的问题,提出了基于密度的改进的K-means算法,该算法采取聚类对象分布密度方法来确定初始聚类中心,选择相互距离最远的K个处于高密度区域的点作为初始聚类中心,理论分析与实验结果表明,改进的算法能取得更好的聚类结果。 相似文献
17.
针对快速K-me doids聚类算法所选初始聚类中心可能位于同一类簇的缺陷,以及基于粒计算的K-medoids算法构造样本去模糊相似矩阵时需要主观给定阈值的缺陷,提出了粒计算优化初始聚类中心的K-medoids聚类算法。该算法结合粒计算与最大最小距离法,优化K-medoids算法初始聚类中心的选取,选择处于样本分布密集区域且相距较远的K个样本作为初始聚类中心;使用所有样本的相似度均值作为其构造去模糊相似矩阵的阈值。人工模拟数据集和UCI机器学习数据库数据集的实验测试表明,新K-medoids聚类算法具有更稳定的聚类效果,其准确率和Adjusted Rand Index等聚类结果评价指标值优于传统K-medoids聚类算法、快速K-medoids聚类算法和基于粒计算的K-medoids聚类算法。 相似文献
18.
传统k-means算法随机选取初始聚类中心使聚类结果不稳定,诸多优化算法的时间复杂度较高,为了提高聚类稳定性并降低时间复杂度,提出了基于个体轮廓系数自适应地选取优秀样本以确定初始聚类中心的改进k-means算法.该算法多次调用传统k-means算法聚类,根据k个类中心的个体轮廓系数以及各样本与类中心的距离,自适应地选取优秀样本,求其均值作为初始聚类中心.在多个UCI数据集上的实验表明,该算法聚类时间短,具有较高的轮廓系数和准确率. 相似文献