首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 93 毫秒
1.
王勇  唐靖  饶勤菲  袁巢燕 《计算机应用》2014,34(5):1331-1335
针对K-means聚类算法通常无法事先设定聚类数,而人为设定初始聚类数目容易导致聚类结果不够稳定的问题,提出一种新的高效率的K-means最佳聚类数确定算法。该算法通过样本数据分层来得到聚类数搜索范围的上界,并设计了一种聚类有效性指标来评价聚类后类内与类间的相似性程度,从而在聚类数搜索范围内获得最佳聚类数。仿真实验结果表明,该算法能够快速、高效地获得最佳聚类数,对数据集聚类效果良好。  相似文献   

2.
孙秀娟  刘希玉 《计算机应用》2008,28(12):3244-3247
在K-means算法中,聚类数k是影响聚类质量的关键因素之一。目前,已经提出了许多确定最佳k值的聚类有效性方法,但这些方法都不能很好地处理两种数据集:类(簇)密度不同的数据集和类间距比较小的数据集(含有合并簇的数据集)。为此,提出了一种新的聚类有效性函数,该函数定义为数据特征轴总长度的平方与最小类间距的比值,最佳聚类数为这个比值达到最小时对应的k值。同时,为减小K-means算法对噪声和孤立点数据的敏感性,使用了基于加权的改进K-平均的方法计算类中心。实验证明,与其他算法相比,基于新聚类有效性函数的K-wmeans算法不仅降低了噪声和孤立点数据对聚类结果的影响,而且能有效地处理上面提到的两种数据集,明显提高了数据聚类质量。  相似文献   

3.
确定数据集的最佳聚类数是聚类研究中的一个重要难题。为了更有效地确定数据集的最佳聚类数,该文提出了通过改进K-means算法并结合一个不依赖于具体算法的有效性指标Q(c)对数据集的最佳聚类数进行确定的方法。理论分析和实验结果证明了该方法具有良好的性能和有效性。  相似文献   

4.
在目前聚类方法中, k-means与势函数是最常用的算法,虽然两种算法有很多优点,但也存在自身的局限性。 k-means聚类算法:其聚类数目无法确定,需要提前进行预估,同时对初始聚类中心敏感,且容易受到异常点干扰;势函数聚类算法:其聚类区间范围有限,对多维数据进行聚类其效率低。针对以上两种算法的缺点,提出了一种基于 K-means 与势函数法的改进聚类算法。它首先采用势函数法确定聚类数目与初始中心,然后利用K-means法进行聚类,该改进算法具有势函数法“盲”特性及K-means法高效性的优点。实验对改进算法的有效性进行了验证,结果表明,改进算法在聚类精度及收敛速度方面有很大提高。  相似文献   

5.
在传统的K-means算法中,聚类数K是随机给定的,K值选取不合理会造成K—meall$算法陷入局部最优。针对这个缺点,提出一种新的K—means聚类数确定方法,根据聚类算法中类内相似度最大差异度最小和类问差异度最大相似度最小的基本原则.提出距离评价函数作为最佳聚类数的检验函数,建立相应的数学模型,并通过实例结果进一步验证新算法的有效性。  相似文献   

6.
模糊聚类是模式识别、机器学习和图像处理等领域的重要研究内容。模糊C-均值聚类算法是最常用的模糊聚类实现算法,该算法需要预先给定聚类数才能对数据集进行聚类。提出了一种新的聚类有效性指标,对聚类结果进行有效性验证。该指标从划分熵、隶属度、几何结构角度,定义了紧凑度、分离度、重叠度三个重要特征测量。在此基础上,提出了一种最佳聚类数确定方法。将新聚类有效性指标和传统有效性指标在6个人工数据集和3个真实数据集进行实验验证。实验结果表明,所提出的指标和方法能够有效地对聚类结果进行评估,适合确定样本的最佳聚类数。  相似文献   

7.
K-均值聚类算法(K-means)是基于划分的聚类算法中的典型算法,针对K-means算法初始聚类中心存在对K依赖的缺陷,提出一种新的选取K-means算法初始聚类中心的方法,该方法提高聚类结果的有效性和稳定性;还提出一种极值选择法,将最大距离法和最小距离法相结合,进一步提高初始聚类中心选择的准确性。  相似文献   

8.
在传统确定数据集聚类数算法原理的基础上,提出一种新的算法——MHC算法。该算法采用自底向上的策略生成不同层次的数据集划分,计算每个层次的聚类划分质量,通过聚类质量选择最佳的聚类数。还设计一种新的有效性指标——BIP指标,用于衡量不同划分的聚类质量,该指标主要依托数据集的几何结构。实验结果表明,该算法能准确地确定多维数据集中的最佳聚类数。  相似文献   

9.
张妨妨  钱雪忠 《计算机应用》2012,32(9):2476-2479
针对传统GK聚类算法无法自动确定聚类数和对初始聚类中心比较敏感的缺陷,提出一种改进的GK聚类算法。该算法首先通过基于类间分离度和类内紧致性的权和的新有效性指标来确定最佳聚类数;然后,利用改进的熵聚类的思想来确定初始聚类中心;最后,根据判定出的聚类数和新的聚类中心进行聚类。实验结果表明,新指标能准确地判断出类间有交叠的数据集的最佳聚类数,且改进后的算法具有更高的聚类准确率。  相似文献   

10.
新的K-均值算法最佳聚类数确定方法   总被引:8,自引:0,他引:8       下载免费PDF全文
K-均值聚类算法是以确定的类数k和随机选定的初始聚类中心为前提对数据集进行聚类的。通常聚类数k事先无法确定,随机选定的初始聚类中心容易使聚类结果不稳定。提出了一种新的确定K-均值聚类算法的最佳聚类数方法,通过设定AP算法的参数,将AP算法产生的聚类数作为聚类数搜索范围的上界kmax,并通过选择合适的有效性指标Silhouette指标,以及基于最大最小距离算法思想设定初始聚类中心,分析聚类效果,确定最佳聚类数。仿真实验和分析验证了以上算法方案的可行性。  相似文献   

11.
基于初始中心优化的遗传K-means聚类新算法   总被引:2,自引:2,他引:0  
一个好的K-means聚类算法至少要满足两个要求:(1)能反映聚类的有效性,即所分类别数要与实际问题相符;(2)具有处理噪声数据的能力。传统的K-means算法是一种局部搜索算法,存在着对初始化敏感和容易陷入局部极值的缺点。针对此缺点,提出了一种优化初始中心的K-means算法,该算法选择相距最远的处于高密度区域的k个数据对象作为初始聚类中心。实验表明该算法不仅具有对初始数据的弱依赖性,而且具有收敛快,聚类质量高的特点。为体现聚类的有效性,获得更高精度的聚类结果,提出了将优化的K-means算法(PKM)和遗传算法相结合的混合算法(PGKM),该算法在提高紧凑度(类内距)和分离度(类间距)的同时自动搜索最佳聚类数k,对k个初始中心优化后再聚类,不断地循环迭代,得到满足终止条件的最优聚类。实验证明该算法具有更好的聚类质量和综合性能。  相似文献   

12.
传统的K-means算法敏感于初始中心点的选取,并且无法事先确定准确的聚类数目[k],不利于聚类结果的稳定性。针对传统K-means算法的以上不足,提出了基于全局中心的高密度不唯一的新方法--NDK-means,该方法通过标准差确定有效密度半径,并从高密度区域中选取具有代表性的样本点作为初始聚类中心。此外算法针对最高密度点不唯一的情况进行特别分析,选取距离全局中心最远的点集作为最优的初始中心点集合。在NDK-means算法基础上结合有效性指标BWP对聚类结果进行分析,从而解决了最佳有效聚类数目无法事先确定的不足。理论研究与实验结果表明所提方法的聚类结果具有更好的稳定性和可行性。  相似文献   

13.
传统尽均值聚类算法虽然收敛速度快,但存在聚类数后无法预先确定,并且算法对初始中心点敏感的缺点。针对上述缺点,提出了基于密度期望和聚类有效性Silhouette指标的K-均值优化算法。给出了基于密度期望的初始中心点选取方案,将处于密度期望区间内相距最远的石个样本作为初始聚类中心。该方案可有效降低尽均值算法对初始中心点的依赖,从而获得较高的聚类质量。在此基础上,可进一步通过选择合适的聚类有效性指标Silhouette4指标分析不同后值下的每次聚类结果,确定最佳聚类数,则可有效改善k-值无法预先确定的缺点。实验及分析结果验证了所提出方案的可行性和有效性。  相似文献   

14.
传统K-均值算法对初始聚类中心敏感大,易陷入局部最优值.将遗传算法与K均值算法结合起来进行探讨并提出一种改进的基于K-均值聚类算法的遗传算法,改进后的算法是基于可变长度的聚类中心的实际数目来实现的.同时分别设计出新的交叉算子和变异算子,并且使用的聚类有效性指标DB-Index作为目标函数,该算法很好地解决了聚类中心优化问题,与之前的两种算法相比,改进后的算法改善了聚类的质量,提高了全局的收敛速度.  相似文献   

15.
针对高维数据在聚类过程中存在迭代次数多、运算耗时长等问题,提出一种改进的聚类算法,首先采用谱聚类对样本降维,再选取k个首尾相连且距离乘积最大的数据对象作为初始聚类中心,在簇中心更新过程中,选取与簇均值距离最近的数据对象作为簇中心,并将其他数据对象按最小距离划分至相应簇中,反复迭代,直至收敛。实验结果表明,新算法的Rand指数、Jaccard系数和Adjusted Rand Index等聚类指标全部优于K-means算法及其他3种改进聚类算法,在运行效率方面,新算法的聚类耗时更短、迭代次数更少。  相似文献   

16.
K-means聚类算法可以实现对指纹库的软划分,提高定位系统的查询效率和定位精度。由于K-means算法聚类中心选择和聚类数设定的随机性,使其稳定性较差,影响定位系统的性能,在此提出采用融合聚类的方式对K-means算法进行优化。采用基于密度峰值的聚类算法得到指纹库中每一个指纹点的局部密度和局部距离,然后计算综合决策量γ;选取跳跃点前的前k个点作为K-means算法的初始聚类中心,同时确定最佳聚类数k。试验结果表明,融合聚类算法相较于传统K-means算法定位误差在1.5 m内的概率提高了约9%,定位系统的定位精度得到明显提高。  相似文献   

17.
基于密度的改进K均值算法及实现   总被引:4,自引:1,他引:3  
傅德胜  周辰 《计算机应用》2011,31(2):432-434
传统的K均值算法的初始聚类中心从数据集中随机产生,聚类结果很不稳定。提出一种基于密度算法优化初始聚类中心的改进K-means算法,该算法选择相互距离最远的k个处于高密度区域的点作为初始聚类中心。实验证明,改进的K-means算法能够消除对初始聚类中心的依赖,聚类结果有了较大的改进。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号