共查询到19条相似文献,搜索用时 58 毫秒
1.
为了提高传统K-Means聚类算法的聚类准确性,提出一种结合初始中心优化和特征加权的改进K-Means聚类算法。首先,根据样本特征对聚类的贡献程度获得初始特征权重,构建一种加权距离度量。其次,利用提出的初始聚类中心选择方法获得k个初始聚类中心,并结合初始特征权重进行初步聚类。然后,根据聚类精度来调整特征权重并再次执行聚类过程。重复执行上述过程直到聚类精度不再变化,获得最终的聚类结果。在UCI数据库上的实验结果表明,与现有相关K-Means聚类算法相比,该算法具有较高的聚类准确性。 相似文献
2.
K-Means聚类算法的研究 总被引:6,自引:0,他引:6
K-Means算法是一种经典的聚类算法,有很多优点,也存在许多不足.比如初始聚类数K要事先指定,初始聚类中心选择存在随机性,算法容易生成局部最优解,受孤立点的影响很大等.文中主要针对K-Means算法初始聚类中心的选择以及孤立点问题加以改进,首先计算所有数据对象之间的距离,根据距离和的思想排除孤立点的影响,然后提出了一种新的初始聚类中心选择方法,并通过实验比较了改进算法与原算法的优劣.实验表明,改进算法受孤立点的影响明显降低,而且聚类结果更接近实际数据分布. 相似文献
3.
K-Means算法是一种经典的聚类算法,有很多优点,也存在许多不足。比如初始聚类数K要事先指定,初始聚类中心选择存在随机性,算法容易生成局部最优解,受孤立点的影响很大等。文中主要针对K-Means算法初始聚类中心的选择以及孤立点问题加以改进,首先计算所有数据对象之间的距离,根据距离和的思想排除孤立点的影响,然后提出了一种新的初始聚类中心选择方法,并通过实验比较了改进算法与原算法的优劣。实验表明,改进算法受孤立点的影响明显降低,而且聚类结果更接近实际数据分布。 相似文献
4.
针对传统K-means算法对初始中心十分敏感,聚类结果不稳定问题,提出了一种改进K-means聚类算法。该算法首先计算样本间的距离,根据样本距离找出距离最近的两点形成集合,根据点与集合的计算公式找出其他所有离集合最近的点,直到集合内数据数目大于或等于[α]([α]为样本集数据点数目与聚类的簇类数目的比值),再把该集合从样本集中删除,重复以上步骤得到K(K为簇类数目)个集合,计算每个集合的均值作为初始中心,并根据K-means算法得到最终的聚类结果。在Wine、Hayes-Roth、Iris、Tae、Heart-stalog、Ionosphere、Haberman数据集中,改进算法比传统K-means、K-means++算法的聚类结果更稳定;在Wine、Iris、Tae数据集中,比最小方差优化初始聚类中心的K-means算法聚类准确率更高,且在7组数据集中改进算法得到的轮廓系数和F1值最大。对于密度差异较大数据集,聚类结果比传统K-means、K-means++算法更稳定,更准确,且比最小方差优化初始聚类中心的K-means算法更高效。 相似文献
5.
针对快速K-me doids聚类算法所选初始聚类中心可能位于同一类簇的缺陷,以及基于粒计算的K-medoids算法构造样本去模糊相似矩阵时需要主观给定阈值的缺陷,提出了粒计算优化初始聚类中心的K-medoids聚类算法。该算法结合粒计算与最大最小距离法,优化K-medoids算法初始聚类中心的选取,选择处于样本分布密集区域且相距较远的K个样本作为初始聚类中心;使用所有样本的相似度均值作为其构造去模糊相似矩阵的阈值。人工模拟数据集和UCI机器学习数据库数据集的实验测试表明,新K-medoids聚类算法具有更稳定的聚类效果,其准确率和Adjusted Rand Index等聚类结果评价指标值优于传统K-medoids聚类算法、快速K-medoids聚类算法和基于粒计算的K-medoids聚类算法。 相似文献
6.
针对传统K-means算法对初始聚类中心敏感的问题,提出了基于数据样本分布情况的动态选取初始聚类中心的改进K-means算法。该算法根据数据点的距离构造最小生成树,并对最小生成树进行剪枝得到K个初始数据集合,得到初始的聚类中心。由此得到的初始聚类中心非常地接近迭代聚类算法收敛的聚类中心。理论分析与实验表明,改进的K-means算法能改善算法的聚类性能,减少聚类的迭代次数,提高效率,并能得到稳定的聚类结果,取得较高的分类准确率。 相似文献
7.
K-均值(K-Means)算法是聚类分析中一种基于划分的算法,同时也是无监督学习算法。其具有思想简单、效果好和容易实现的优点,广泛应用于机器学习等领域。但是K-Means算法也有一定的局限性,比如:算法中聚类数目K值难以确定,初始聚类中心如何选取,离群点的检测与去除,距离和相似性度量等。从多个方面对K-Means算法的改进措施进行概括,并和传统K-Means算法进行比较,分析了改进算法的优缺点,指出了其中存在的问题。对K-Means算法的发展方向和趋势进行了展望。 相似文献
8.
K-Means算法随机选择聚类中心初始点,导致聚类器性能不稳定。对此,提出基于可变阈值的初始聚类中心选择方法(VTK-Means)。该算法选择距已有初始点距离大于一个阈值的样例作为初始聚类中心,并根据满足条件的初始聚类中心个数适当调整阈值。在10个UCI数据集上的实验结果表明,该算法性能明显优于K-Means算法。 相似文献
9.
初始聚类中心优化选取的核C-均值聚类算法 总被引:4,自引:1,他引:3
在通常的核C-均值聚类算法中,聚类结果对初始聚类中心敏感,随机选取初始聚类中心时,会使得迭代次数较多、分类结果不稳定.针对该问题提出一种优化选取仞始聚类中心的算法.该方法采用一种改进的最大最小距离算法对原始空间中的数据进行粗分类,将粗分类结果中每类类心作为初始聚类中心,再运用核C-均值聚类算法进行分类.仿真实验结果表明方法能有效减少迭代次数,使分类结果更加稳定,分类识别率也有一定程度的提高. 相似文献
10.
对k-means初始聚类中心的优化 总被引:1,自引:0,他引:1
针对传统k-means算法对初始聚类中心敏感的问题,提出了基于数据样本分布选取初始聚类中心的改进k-means算法。该算法利用贪心思想构建K个数据集合,集合的大小与数据的实际分布密切相关,集合中的数据彼此间相互靠近。取集合中数据的平均值作为初始聚类中心,由此得到的初始聚类中心非常接近迭代聚类算法期待的聚类中心。理论分析和实验结果表明,改进算法能改善其聚类性能,并能得到稳定的聚类结果,取得较高的分类准确率。 相似文献
11.
针对初始聚类中心对传统K-means算法的聚类结果有较大影响的问题,提出一种依据样本点类内距离动态调整中心点类间距离的初始聚类中心选取方法,由此得到的初始聚类中心点尽可能分散且具代表性,能有效避免K-means算法陷入局部最优。通过UCI数据集上的数据对改进算法进行实验,结果表明改进的算法提高了聚类的准确性。 相似文献
12.
13.
遗传算法具有良好的全局搜索能力,但有过早收敛和过慢结束的缺点。K-Means算法具有很强的局部搜索能力,但算法有对初始聚类中心敏感而易陷入局部最优解。针对上述问题,提出了基于K-Means变异算子的混合遗传算法聚类,将K-Means算法的局部搜索能力与遗传算法的全局寻优搜索能力相结合,在遗传算法中引入K-Means变异算子,采用符号编码、自适应变异、最优个体保留策略的混合遗传算法。仿真实验表明,该算法有效克服了遗传算法过慢收敛和K-Means算法陷入局部收敛的问题,从而得到更好的聚类效果。 相似文献
14.
针对传统K-均值聚类算法需要事先确定聚类数,以及对初始质心的选择具有敏感性,从而容易陷入局部极值点的缺点,使用了一种基于可变染色体编码长度的遗传算法对传统K-均值聚类进行改进.该算法可以在事先不确定K值的情况下,通过多次的选择、交叉.变异的遗传操作,最终得到最优的聚类数,以及最优的初始质心集.通过Reuters数据集的实验结果表明,基于该算法的聚类划分结果明显优于传统K-均值聚类算法,并且好过基于固定染色体编码长度遗传算法的K-均值聚类算法. 相似文献
15.
In this paper, a novel gene expression clustering method known as eXploratory K-Means (XK-Means) is proposed. The method is based on the integration of the K-Means framework, and an exploratory mechanism to prevent premature convergence of the clustering process. Experimental results reveal that the performance of XK-Means in grouping gene expressions, measured in terms of speed, error and stability, is superior to existing methods that are based on evolutionary algorithm. In addition, the complexity of the proposed method is lower and the method can be easily implemented in practice. 相似文献
16.
电力企业通常根据电力负荷数据,采用传统的K-Means算法对客户进行划分,而这种方法最大的缺陷就是必须由用户手动指定聚类簇数。提出了一种将Canopy算法和K-Means算法结合应用于负荷聚类的方法,无需手动指定聚类簇数。收集到的用户历史用电数据,使用并行计算框架MapReduce对原始数据进行预处理。应用Canopy和K-Means算法建立自动负荷聚类模型。在真实用电数据上进行实证分析,通过使用Silhouette指标对结果进行评估,证明提出的方法更加稳定和具有广泛的适用性。 相似文献
17.
EM算法与K-Means算法比较 总被引:1,自引:0,他引:1
聚类是广泛应用的基本数据挖掘方法之一,它按照数据的相似性和差异性将数据分为若干簇,并使得同簇的尽量相似,不同簇的尽量相异.目前存在大量的聚类算法,本文仅考察了划分方法中的两个常用算法:EM算法和K-Means算法,并重点剖析了EM算法,对实验结果进行了分析.最后对算法进行了总结与讨论. 相似文献
18.
基于样本空间分布密度的初始聚类中心优化K-均值算法* 总被引:1,自引:1,他引:1
针对传统K-均值聚类算法对初始聚类中心敏感、现有初始聚类中心优化算法缺乏客观性,提出一种基于样本空间分布密度的初始聚类中心优化K-均值算法。该算法利用数据集样本的空间分布信息定义数据对象的密度,并根据整个数据集的空间信息定义了数据对象的邻域;在此基础上选择位于数据集样本密集区且相距较远的数据对象作为初始聚类中心,实现K-均值聚类。UCI机器学习数据库数据集以及随机生成的带有噪声点的人工模拟数据集的实验测试证明,本算法不仅具有很好的聚类效果,而且运行时间短,对噪声数据有很强的抗干扰性能。基于样本空间分布密度的初始聚类中心优化K-均值算法优于传统K-均值聚类算法和已有的相关K-均值初始中心优化算法。 相似文献
19.
针对K-Means算法所存在的问题进行了深入研究,提出了基于密度的K-Means算法(KMAD算法)。该算法采用聚类对象区域空间的密度分布方法来确定聚类个数K的值,然后用高密度区域的质心作为K-Means算法的初始聚类中心。理论分析与实验结果表明了改进算法的有效性和稳定性,并将改进的算法应用于客户细分研究中。 相似文献