首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 187 毫秒
1.
基于样本空间分布密度的初始聚类中心优化K-均值算法*   总被引:2,自引:1,他引:1  
针对传统K-均值聚类算法对初始聚类中心敏感、现有初始聚类中心优化算法缺乏客观性,提出一种基于样本空间分布密度的初始聚类中心优化K-均值算法。该算法利用数据集样本的空间分布信息定义数据对象的密度,并根据整个数据集的空间信息定义了数据对象的邻域;在此基础上选择位于数据集样本密集区且相距较远的数据对象作为初始聚类中心,实现K-均值聚类。UCI机器学习数据库数据集以及随机生成的带有噪声点的人工模拟数据集的实验测试证明,本算法不仅具有很好的聚类效果,而且运行时间短,对噪声数据有很强的抗干扰性能。基于样本空间分布密度的初始聚类中心优化K-均值算法优于传统K-均值聚类算法和已有的相关K-均值初始中心优化算法。  相似文献   

2.
针对用模糊C-均值聚类算法选择初始聚类中心敏感及模糊加权指数m对模糊C-均值聚类算法的聚类性能影响较大等问题,利用粒子群优化算法的全局寻优能力强及收敛速度较快的特点,结合模糊C-均值算法提出一种新的模糊聚类算法;采用了一种简单有效的粒子编码方法,将初始聚类中心和模糊加权指数m同时进行粒子群优化搜索,在得到最优适应度的同时,m也收敛到一个稳定的最优解,从而有效地解决了上述问题。算法在人工合成数据集和多个UCI数据集上都取得了较好的效果。  相似文献   

3.
针对二分K-均值算法由于随机选取初始中心及人为定义聚类数而造成的聚类结果不稳定问题,提出了基于密度和中心指标的Canopy二分K-均值算法SDCBisecting K-Means。首先计算样本中数据密度及其邻域半径;然后选出密度最小的数据并结合Canopy算法的思想进行聚类,将得到的簇的个数及其中心作为二分K-均值算法的输入参数;最后在二分K-均值算法的基础上引入指数函数和中心指标对原始样本进行聚类。利用UCI数据集和自建数据集进行模拟实验对比,结果表明SDCBisecting K-Means不仅使得聚类结果更精确,同时算法的运行速度更快、稳定性更好。  相似文献   

4.
基于可变染色体长度的遗传K均值聚类算法   总被引:2,自引:2,他引:0  
针对传统K-均值聚类算法需要事先确定聚类数,以及对初始质心的选择具有敏感性,从而容易陷入局部极值点的缺点,使用了一种基于可变染色体编码长度的遗传算法对传统K-均值聚类进行改进.该算法可以在事先不确定K值的情况下,通过多次的选择、交叉.变异的遗传操作,最终得到最优的聚类数,以及最优的初始质心集.通过Reuters数据集的实验结果表明,基于该算法的聚类划分结果明显优于传统K-均值聚类算法,并且好过基于固定染色体编码长度遗传算法的K-均值聚类算法.  相似文献   

5.
基于半监督学习的K-均值聚类算法研究   总被引:4,自引:3,他引:1  
定义了一个欧氏距离和监督信息相混合的新的最近邻计算函数,从而将K-均值算法很好地应用于半监督聚类问题。针对K-均值算法初始质心敏感的缺陷,用粒子群算法的搜索空间模拟聚类的欧氏空间,迭代搜索找到较优的聚类质心,同时提出动态管理种群的策略以提高粒子群算法搜索效率。算法在UCI的多个数据集上测试都得到了较好的聚类准确率。  相似文献   

6.
K-均值算法是广泛使用的聚类算法,但该算法的聚类数目难以确定,且聚类结果对初始聚类中心比较敏感.本文提出一种基于微粒群优化聚类数目的K-均值算法,该算法采用聚类中心的坐标和通配符表示微粒位置,通过定义微粒更新公式中新的加减运算符,动态调整聚类中心的数目及坐标,此外,以改进的聚类有效性指标Davies-Bouldin准则作为适应度函数.5个人工和真实数据集的聚类结果验证了所提算法的优越性.  相似文献   

7.
结合近邻和密度思想的K-均值算法的研究   总被引:1,自引:0,他引:1       下载免费PDF全文
为了解决K-均值算法对初始聚类中心的依赖性,提出了一种新的选取初始聚类中心的算法。采用数据区内的最高密度点作为初始中心,基于近邻点属于同一聚类的特性,找到距离初始中心最远的点,将其加入初始聚类中心后再进行计算并依次下去的方法。该改进算法的初始聚类中心分布比较合理,而且剔除了孤立点对初始聚类中心的影响,从而可以得到更好的划分效果。实验表明,用改进的算法进行聚类更能够得到较高且稳定的准确率。  相似文献   

8.
新的K-均值算法最佳聚类数确定方法   总被引:8,自引:0,他引:8       下载免费PDF全文
K-均值聚类算法是以确定的类数k和随机选定的初始聚类中心为前提对数据集进行聚类的。通常聚类数k事先无法确定,随机选定的初始聚类中心容易使聚类结果不稳定。提出了一种新的确定K-均值聚类算法的最佳聚类数方法,通过设定AP算法的参数,将AP算法产生的聚类数作为聚类数搜索范围的上界kmax,并通过选择合适的有效性指标Silhouette指标,以及基于最大最小距离算法思想设定初始聚类中心,分析聚类效果,确定最佳聚类数。仿真实验和分析验证了以上算法方案的可行性。  相似文献   

9.
冷明伟  陈晓云  颜清 《计算机应用》2007,27(12):3042-3044
K-均值聚类算法的执行时间过度依赖于初始点的选取,但是在实际问题中并不知道k的取值和怎样才能有效地选取初始点。在对K-均值算法中初始点的选取进行深入研究的基础上,提出了一种有效的初始点选取算法。现存的类间相似度并不能很好地度量两个类的相似性,为此提出了一种新颖的度量方法:类间影响因子,使用类间影响因子对类进行合并。该方法和上面提出的初始点选取算法能够根据数据集本身的特性快速地自动选取初始中心并给出初始点的个数。最后用高斯数据集对算法进行测试,得到了一个令人满意的结果。  相似文献   

10.
贺靖  王磊  周喜  王瑞 《计算机工程》2012,38(19):188-190,194
在教辅系统使用过程中,儿童角色存在类别数目未知、交互状态调研数据量大、噪音多的问题.为此,提出一种基于K-均值系统聚类融合算法的交互角色挖掘方法.通过数据清理和数据变化预处理初始数据,利用K-均值聚类对角色实现初始聚类,使用动态系统聚类的方法对初始聚类结果进行处理,得到角色的分类结果.实验结果表明,该方法的分类情况较好、效率较高.  相似文献   

11.
Clustering is an important unsupervised learning technique widely used to discover the inherent structure of a given data set. Some existing clustering algorithms uses single prototype to represent each cluster, which may not adequately model the clusters of arbitrary shape and size and hence limit the clustering performance on complex data structure. This paper proposes a clustering algorithm to represent one cluster by multiple prototypes. The squared-error clustering is used to produce a number of prototypes to locate the regions of high density because of its low computational cost and yet good performance. A separation measure is proposed to evaluate how well two prototypes are separated. Multiple prototypes with small separations are grouped into a given number of clusters in the agglomerative method. New prototypes are iteratively added to improve the poor cluster separations. As a result, the proposed algorithm can discover the clusters of complex structure with robustness to initial settings. Experimental results on both synthetic and real data sets demonstrate the effectiveness of the proposed clustering algorithm.  相似文献   

12.
谱聚类将数据聚类问题转化成图划分问题,通过寻找最优的子图,对数据点进行聚类。谱聚类的关键是构造合适的相似矩阵,将数据集的内在结构真实地描述出来。针对传统的谱聚类算法采用高斯核函数来构造相似矩阵时对尺度参数的选择很敏感,而且在聚类阶段需要随机确定初始的聚类中心,聚类性能也不稳定等问题,本文提出了基于消息传递的谱聚类算法。该算法采用密度自适应的相似性度量方法,可以更好地描述数据点之间的关系,然后利用近邻传播(Affinity propagation,AP)聚类中“消息传递”机制获得高质量的聚类中心,提高了谱聚类算法的性能。实验表明,新算法可以有效地处理多尺度数据集的聚类问题,其聚类性能非常稳定,聚类质量也优于传统的谱聚类算法和k-means算法。  相似文献   

13.
优化初始聚类中心的K-means聚类算法   总被引:1,自引:0,他引:1       下载免费PDF全文
针对传统K-means算法对初始中心十分敏感,聚类结果不稳定问题,提出了一种改进K-means聚类算法。该算法首先计算样本间的距离,根据样本距离找出距离最近的两点形成集合,根据点与集合的计算公式找出其他所有离集合最近的点,直到集合内数据数目大于或等于[α]([α]为样本集数据点数目与聚类的簇类数目的比值),再把该集合从样本集中删除,重复以上步骤得到K(K为簇类数目)个集合,计算每个集合的均值作为初始中心,并根据K-means算法得到最终的聚类结果。在Wine、Hayes-Roth、Iris、Tae、Heart-stalog、Ionosphere、Haberman数据集中,改进算法比传统K-means、K-means++算法的聚类结果更稳定;在Wine、Iris、Tae数据集中,比最小方差优化初始聚类中心的K-means算法聚类准确率更高,且在7组数据集中改进算法得到的轮廓系数和F1值最大。对于密度差异较大数据集,聚类结果比传统K-means、K-means++算法更稳定,更准确,且比最小方差优化初始聚类中心的K-means算法更高效。  相似文献   

14.
模糊K-Prototypes(FKP)算法能够对包含数值属性和分类属性相混合的数据集进行有效聚类,但是存在对初始值敏感、容易陷入局部极小值的问题.为了克服该缺点,提出了一种基于粒子群优化(PSO)算法和FKP算法的混合聚类算法,先利用PSO算法确定FKP的初始聚类中心,再将PSO聚类结果作为后续FKP算法的初始值.实验结果表明,新算法具有良好的收敛性和稳定性,聚类效果优于单一使用FKP算法.  相似文献   

15.
邵伦  周新志  赵成萍  张旭 《计算机应用》2018,38(10):2850-2855
K-means算法是被广泛使用的一种聚类算法,传统的K-means算法中初始聚类中心的选择具有随机性,易使算法陷入局部最优,聚类结果不稳定。针对此问题,引入多维网格空间的思想,首先将样本集映射到一个虚拟的多维网格空间结构中,然后从中搜索出包含样本数最多且距离较远的子网格作为初始聚类中心网格,最后计算出各初始聚类中心网格中所包含样本的均值点来作为初始聚类中心。此法选择出来的初始聚类中心与实际聚类中心拟合度高,进而可据此初始聚类中心稳定高效地得到最终的聚类结果。通过使用计算机模拟数据集和UCI机器学习数据集进行测试,结果表明改进算法的迭代次数和错误率比较稳定,且均小于传统K-means算法测试结果的平均值,能有效避免陷入局部最优,并且聚类结果稳定。  相似文献   

16.
Clustering is a popular data analysis and data mining technique. A popular technique for clustering is based on k-means such that the data is partitioned into K clusters. However, the k-means algorithm highly depends on the initial state and converges to local optimum solution. This paper presents a new hybrid evolutionary algorithm to solve nonlinear partitional clustering problem. The proposed hybrid evolutionary algorithm is the combination of FAPSO (fuzzy adaptive particle swarm optimization), ACO (ant colony optimization) and k-means algorithms, called FAPSO-ACO–K, which can find better cluster partition. The performance of the proposed algorithm is evaluated through several benchmark data sets. The simulation results show that the performance of the proposed algorithm is better than other algorithms such as PSO, ACO, simulated annealing (SA), combination of PSO and SA (PSO–SA), combination of ACO and SA (ACO–SA), combination of PSO and ACO (PSO–ACO), genetic algorithm (GA), Tabu search (TS), honey bee mating optimization (HBMO) and k-means for partitional clustering problem.  相似文献   

17.
解决文本聚类集成问题的两个谱算法   总被引:8,自引:0,他引:8  
徐森  卢志茂  顾国昌 《自动化学报》2009,35(7):997-1002
聚类集成中的关键问题是如何根据不同的聚类器组合为最终的更好的聚类结果. 本文引入谱聚类思想解决文本聚类集成问题, 然而谱聚类算法需要计算大规模矩阵的特征值分解问题来获得文本的低维嵌入, 并用于后续聚类. 本文首先提出了一个集成算法, 该算法使用代数变换将大规模矩阵的特征值分解问题转化为等价的奇异值分解问题, 并继续转化为规模更小的特征值分解问题; 然后进一步研究了谱聚类算法的特性, 提出了另一个集成算法, 该算法通过求解超边的低维嵌入, 间接得到文本的低维嵌入. 在TREC和Reuters文本数据集上的实验结果表明, 本文提出的两个谱聚类算法比其他基于图划分的集成算法鲁棒, 是解决文本聚类集成问题行之有效的方法.  相似文献   

18.
K-means初始聚类中心的选择算法   总被引:1,自引:0,他引:1  
郑丹  王潜平 《计算机应用》2012,32(8):2186-2192
K-means算法随机选取初始聚类中心,容易造成聚类准确率低且聚类结果不稳定。针对这一问题,提出一种初始聚类中心的选择算法。通过k-dist的差值(DK)图分析,确定数据点在k-dist图上的位置,选择主要密度水平曲线上k-dist值最小的点作为初始聚类中心。实验证明,改进算法选择的初始聚类中心唯一,聚类结果稳定,聚类准确率高,迭代次数少。  相似文献   

19.
针对传统K均值聚类算法对初始值敏感、易陷入局部极值点,导致数据分类结果不理想的问题,本文提出一种基于犹豫模糊Canopy-K均值聚类算法。首先利用Canopy算法对原始数据进行初步分类,形成多个数据重合的Canopy中心集合,即得到K均值算法的初始聚类中心。然后再利用K均值聚类算法进行聚类,得到最终的聚类结果。最后结合疫情后复工复产企业评价信息数据进行实例分析,从6个方面对复工复产的5个企业发展情况进行评估。将新提出的算法和基于层次分析的K均值聚类算法进行对比分析。结果表明,新提出的方法较大地减少了迭代次数,聚类结果更加合理、稳定和有效。  相似文献   

20.
数据聚类在智能信息处理中具有非常重要的作用。传统的数据聚类方法,如K-means算法,存在对初始聚类中心敏感等问题。随着智能优化算法的发展,人们用智能优化算法进行数据聚类取得了一定的效果,但存在容易陷入局部最优等问题。为此,本文将在高维优化问题中取得良好效果的竞争型群体优化算法中引入数据聚类,利用竞争型群体优化算法强大的全局探索能力搜索聚类中心进行数据聚类,在UCI的5个数据集上的实验结果表明竞争型群体优化算法比遗传算法、粒子群算法不仅能得到更好的聚类效果,而且收敛性能更好。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号