首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
针对传统K-means聚类算法的聚类结果易随不同的初始聚类中心波动的问题,采用最大距离积法优化K-means聚类算法的初始聚类中心。传统的K-means聚类算法都假定样本的各维特征对聚类的贡献相同,影响了聚类效果和模型估计精度。为了考虑样本各维特征对聚类的不同影响,利用一种新型的特征加权K-means聚类算法逐步调整特征权值,最终有效改善了聚类效果。利用本文方法建立组合支持向量机模型,将其用于双酚A生产过程质量指标的软测量建模中,仿真结果表明该算法能够有效改进数据的分类效果并提高软测量模型的估计精度。  相似文献   

2.
针对初始聚类中心对传统K-means算法的聚类结果有较大影响的问题,提出一种依据样本点类内距离动态调整中心点类间距离的初始聚类中心选取方法,由此得到的初始聚类中心点尽可能分散且具代表性,能有效避免K-means算法陷入局部最优。通过UCI数据集上的数据对改进算法进行实验,结果表明改进的算法提高了聚类的准确性。  相似文献   

3.
K-means聚类算法简单高效,应用广泛。针对传统K-means算法初始聚类中心点的选择随机性导致算法易陷入局部最优以及K值需要人工确定的问题,为了得到最合适的初始聚类中心,提出一种基于距离和样本权重改进的K-means算法。该聚类算法采用维度加权的欧氏距离来度量样本点之间的远近,计算出所有样本的密度和权重后,令密度最大的点作为第一个初始聚类中心,并剔除该簇内所有样本,然后依次根据上一个聚类中心和数据集中剩下样本点的权重并通过引入的参数[τi]找出下一个初始聚类中心,不断重复此过程直至数据集为空,最后自动得到[k]个初始聚类中心。在UCI数据集上进行测试,对比经典K-means算法、WK-means算法、ZK-means算法和DCK-means算法,基于距离和权重改进的K-means算法的聚类效果更好。  相似文献   

4.
针对传统K-means算法对初始聚类中心敏感的问题,提出了基于数据样本分布情况的动态选取初始聚类中心的改进K-means算法。该算法根据数据点的距离构造最小生成树,并对最小生成树进行剪枝得到K个初始数据集合,得到初始的聚类中心。由此得到的初始聚类中心非常地接近迭代聚类算法收敛的聚类中心。理论分析与实验表明,改进的K-means算法能改善算法的聚类性能,减少聚类的迭代次数,提高效率,并能得到稳定的聚类结果,取得较高的分类准确率。  相似文献   

5.
基于密度的改进K均值算法及实现   总被引:4,自引:1,他引:3  
傅德胜  周辰 《计算机应用》2011,31(2):432-434
传统的K均值算法的初始聚类中心从数据集中随机产生,聚类结果很不稳定。提出一种基于密度算法优化初始聚类中心的改进K-means算法,该算法选择相互距离最远的k个处于高密度区域的点作为初始聚类中心。实验证明,改进的K-means算法能够消除对初始聚类中心的依赖,聚类结果有了较大的改进。  相似文献   

6.
文本聚类是文本信息进行有效组织、摘要和导航的重要手段,其中基于余弦相似度的K-means算法是最重要且使用最广泛的文本聚类算法之一。针对基于余弦相似度的K-means算法改进方案设计困难,且众多优异的基于欧氏距离的K-means改进方法无法适用的问题,对余弦相似度与欧氏距离的关系进行探讨,得到标准向量前提下二者的转化公式,并在此基础上定义一种与欧氏距离意义相近关系紧密的余弦距离,使原有基于欧氏距离的K-means改进方法可通过余弦距离迁移到基于余弦相似度的K-means算法中。在此基础上理论推导出余弦K-means算法及其拓展算法的簇内中心点计算方法,并进一步改进了聚类初始簇中心的选取方案,形成新的文本聚类算法MCSKM++。通过实验验证,该算法在迭代次数减少、运行时间缩短的同时,聚类精度得到提高。  相似文献   

7.
K-means算法的初始聚类中心的优化   总被引:10,自引:3,他引:7       下载免费PDF全文
传统的K-means算法对初始聚类中心敏感,聚类结果随不同的初始输入而波动,针对K-means算法存在的问题,提出了基于密度的改进的K-means算法,该算法采取聚类对象分布密度方法来确定初始聚类中心,选择相互距离最远的K个处于高密度区域的点作为初始聚类中心,理论分析与实验结果表明,改进的算法能取得更好的聚类结果。  相似文献   

8.
优化初始聚类中心的K-means聚类算法   总被引:1,自引:0,他引:1       下载免费PDF全文
针对传统K-means算法对初始中心十分敏感,聚类结果不稳定问题,提出了一种改进K-means聚类算法。该算法首先计算样本间的距离,根据样本距离找出距离最近的两点形成集合,根据点与集合的计算公式找出其他所有离集合最近的点,直到集合内数据数目大于或等于[α]([α]为样本集数据点数目与聚类的簇类数目的比值),再把该集合从样本集中删除,重复以上步骤得到K(K为簇类数目)个集合,计算每个集合的均值作为初始中心,并根据K-means算法得到最终的聚类结果。在Wine、Hayes-Roth、Iris、Tae、Heart-stalog、Ionosphere、Haberman数据集中,改进算法比传统K-means、K-means++算法的聚类结果更稳定;在Wine、Iris、Tae数据集中,比最小方差优化初始聚类中心的K-means算法聚类准确率更高,且在7组数据集中改进算法得到的轮廓系数和F1值最大。对于密度差异较大数据集,聚类结果比传统K-means、K-means++算法更稳定,更准确,且比最小方差优化初始聚类中心的K-means算法更高效。  相似文献   

9.
传统的K-means算法随机选取初始聚类中心,聚类结果不稳定,容易陷入局部最优解。针对聚类中心的敏感性,提出一种优化初始聚类中心的K-means算法。此算法利用数据集样本的分布特征计算样本点的密度并进行分类,在高密度区域中选择K个密度最大且相互距离超过某特定阈值的点作为初始聚类中心,并对低密度区域的噪声点单独处理。实验证明,优化后的算法能取得更好的聚类效果,且稳定性增强。  相似文献   

10.
针对K-means算法中聚类结果易受初始聚类中心影响的缺点,提出一种改进初始聚类中心选择的算法.该算法不断寻找最大聚类,并利用距离最大的两个数据对象作为开始的聚类中心对该聚类进行分裂,如此反复,直到得到指定聚类中心个数.用KDD CUP99数据集对改进算法进行仿真实验,实验数据表明,用该算法获得的聚类中心进行聚类相对原始的K-means算法,能获得更好的聚类结果.  相似文献   

11.
陈利跃  杭钟灵  余亮  黄剑  何星 《控制工程》2015,22(2):360-364
通过对电力远动监测系统和数据挖掘技术的讨论,提出一种基于马氏距离的双层聚类异常检测算法。针对远动系统数据非球面分布的特点,该算法通过K-means聚类改进算法对数据进行初始分类,然后使用基于马氏距离的Clustering Using Representatives(CURE)聚类改进算法对初始分类结果进行优化,以较少的计算成本去除K值设定的影响,达到预期的检测结果。同时,基于马氏距离的CURE聚类改进算法对球面和非球面分布的数据有非常好的适应能力。  相似文献   

12.
为解决传统聚类算法初始中心易陷入局部最优、耗时长的问题,提出一种改进的K-means聚类优化算法。该算法引入最大最小距离和加权欧氏距离,从剩余聚类点距离均值和出发,避免孤立点和边缘数据的影响。利用比重法对主成分进行改进,以由此获得的特征影响因子作为初始特征权重,构建一种加权欧氏距离度量。根据特征贡献率对聚类的影响,筛选具有代表性的特征因子凸显聚类效果,最终合成汽车行驶工况,分析瞬时油耗。结果表明,所提算法构建行驶工况的速度-加速度联合分布差异值仅为105%,比传统K-means聚类省时44.2%,行驶工况拟合度较高,能反映实际车辆的运行特征及油耗。   相似文献   

13.
分析了K-means聚类算法在图像检索中的缺点,提出了一种改进的K-means聚类算法的图像检索方法。它首先计算图像特征库里面的所有颜色直方图特征之间的欧氏距离;然后根据“两个对象距离越近,相似度越大”[1]这一原理,找到符合条件的特征向量作为K-means聚类的初始类心进行聚类;最后进行图像检索。实验结果表明,本算法具有较高的检索准确率。  相似文献   

14.
基于SOM网和K-means的聚类算法   总被引:1,自引:1,他引:0  
K-means算法因对初始中心依赖性而导致聚类结果可能陷入局部极小.而恰当的选取初始中心向量就成为改进K-means算法的关键所在.因此可以先通过SOM进行聚类,较快确定聚类范围,再将其结果作为K-means方法的初始中心向量加以使用.实验证明结合这两种算法能够弥补这两种方法的缺陷,较好改善聚类效果.  相似文献   

15.
一种更有效的K-means聚类算法   总被引:1,自引:0,他引:1  
一个好的聚类算法不仅要考虑“同类内尽可能的相似,不同类间尽可能的相异”,而且也要考虑算法的时间复杂度。针对K-means算法依赖于初始聚类中心而影响聚类结果,提出了一种基于样本分布选取初始聚类中心的方法;针对K-means算法中每次调整聚类中心后指定聚类所需要的大量的距离计算,提出了三角不等式原理避免冗余计算的方法。将两种方法结合进行实验,结果表明新的方法更加有效,不仅较原算法有良好的聚类划分,而且加快了原算法的运行速度。  相似文献   

16.
基于改进K-means聚类算法的组合模型建模   总被引:1,自引:0,他引:1  
杨慧中  董陶  陶洪峰 《控制工程》2013,20(2):201-203,208
在传统的K-means聚类算法中,初始聚类是随机选取的,其聚类结果易随着不同的初始聚类中心波动.针对这一问题,首先采用最大距离积法对传统K-means聚类算法的初始聚类中心进行了优化.同时定义了一种新的目标函数并将其引用到传统的K-means聚类算法中,以实现对聚类结构类别数K的优化选择.将训练集样本数据经上述方法聚类后,再将各个子类分别建立基于支持向量机的子模型,通过开关切换的方式连接各子模型得到组合的支持向量机模型.将该方法应用于双酚A生产过程的缩合反应单元溶解罐出口苯酚含量的软测量建模.工业实例仿真结果表明:该算法能较好地跟踪苯酚含量的变化趋势,有效地改善了数据分类效果,提高了软测量模型的估计精度,显示了它在工业领域的应用潜力.  相似文献   

17.
在目前聚类方法中, k-means与势函数是最常用的算法,虽然两种算法有很多优点,但也存在自身的局限性。 k-means聚类算法:其聚类数目无法确定,需要提前进行预估,同时对初始聚类中心敏感,且容易受到异常点干扰;势函数聚类算法:其聚类区间范围有限,对多维数据进行聚类其效率低。针对以上两种算法的缺点,提出了一种基于 K-means 与势函数法的改进聚类算法。它首先采用势函数法确定聚类数目与初始中心,然后利用K-means法进行聚类,该改进算法具有势函数法“盲”特性及K-means法高效性的优点。实验对改进算法的有效性进行了验证,结果表明,改进算法在聚类精度及收敛速度方面有很大提高。  相似文献   

18.
王巧玲  乔非  蒋友好 《计算机应用》2019,39(9):2586-2590
针对传统K均值聚类(K-means)算法随机选择初始中心及K值导致的聚类结果不确定且精度不高问题,提出了一种基于聚合距离的改进K-means算法。首先,基于聚合距离参数筛选出优质的初始聚类中心,并将其作用于K-means算法。然后,引入戴维森堡丁指数(DBI)作为算法的准则函数,循环更新聚类直到准则函数收敛,最后完成聚类。改进算法提供了优质的初始聚类中心及K值,避免了聚类结果的随机性。二维数值型仿真数据的聚类结果表明,改进算法在数据样本数达到10000时仍能保持较好的聚类效果。针对Iris和Seg这两个UCI标准数据集的调整兰德系数,改进算法比传统算法性能分别提高了83.7%和71.0%,最终验证了改进算法比传统算法聚类结果的准确性更高。  相似文献   

19.
初始聚类中心优化的k-means算法   总被引:37,自引:0,他引:37       下载免费PDF全文
传统的k-means算法对初始聚类中心敏感,聚类结果随不同的初始输入而波动。为消除这种敏感性,提出一种优化初始聚类中心的方法,此方法计算每个数据对象所在区域的密度,选择相互距离最远的k个处于高密度区域的点作为初始聚类中心。实验表明改进后的k-means算法能产生质量较高的聚类结果,并且消除了对初始输入的敏感性。  相似文献   

20.
最大距离法选取初始簇中心的K-means文本聚类算法的研究   总被引:1,自引:0,他引:1  
由于初始簇中心的随机选择, K-means算法在聚类时容易出现聚类结果局部最优、聚类结果不稳定、总迭代次数较多等问题。为了解决K-means算法所存在的以上问题, 提出了最大距离法选取初始簇中心的K-means文本聚类算法。该算法基于这样的事实:距离最远的样本点最不可能分到同一个簇中。为使该算法能应用于文本聚类, 构造了一种将文本相似度转换为文本距离的方法, 同时也重新构造了迭代中的簇中心计算公式和测度函数。在实例验证中, 对分属于五个类别的1 500篇文本组成的文本集进行了文本聚类分析, 其结果表明, 与原始的K-means聚类算法以及其他的两种改进的K-means聚类算法相比, 新提出的文本聚类算法在降低了聚类总耗时的同时, F度量值也有了明显提高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号