首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到15条相似文献,搜索用时 125 毫秒
1.
雷小锋  谢昆青  林帆  夏征义 《软件学报》2008,19(7):1683-1692
K-Means聚类算法只能保证收敛到局部最优,从而导致聚类结果对初始代表点的选择非常敏感.许多研究工作都着力于降低这种敏感性.然而,K-Means的局部最优和结果敏感性却构成了K-MeanSCAN聚类算法的基础.K-MeanSCAN算法对数据集进行多次采样和K-Means预聚类以产生多组不同的聚类结果,来自不同聚类结果的子簇之间必然会存在交集.算法的核心思想是,利用这些交集构造出关于子簇的加权连通图,并根据连通性合并子簇.理论和实验证明,K-MeanScan算法可以在很大程度上提高聚类结果的质量和算法的效率.  相似文献   

2.
摘 要 针对传统K-Means聚类算法对初始聚类中心的敏感性和随机性,造成容易陷入局部最优解和聚类结果波动性大的问题。结合密度法和最大化最小距离的思想,本文提出基于最近高密度点间的垂直中心点优化初始聚类中心的K-Means聚类算法,该算法首先选取相互间距离最大的K对高密度点,并以这K对高密度点的均值作为聚类的初始中心,然后再进行K-Means聚类。实验结果表明,该算法有效排除样本中含有的孤立点,并且聚类过程收敛速度快,聚类结果有更好的准确性和稳定性。  相似文献   

3.
张宇  邵良衫  邱云飞  刘威 《计算机工程》2011,37(15):40-42,45
K-Means算法的聚类结果对初始簇的选择非常敏感,通常获得的是局部最优解而非全局最优解.为此,在K-Means聚类算法基础上,引入组合聚类和竞争学习概念,提出一种基于竞争学习的K质心组合聚类算法CLK-Centroid.该算法采用竞争学习策略计算簇的质心,以适应噪声数据和分布异常数据的要求,使用组合聚类策略提高聚类的...  相似文献   

4.
初始中心优化的K—Means聚类算法   总被引:22,自引:1,他引:22  
1.引言聚类分析(clustering)是人工智能研究的重要领域。聚类方法被广泛研究并应用于机器学习、统计分析、模式识别以及数据库数据挖掘与知识发现等不同的领域。各种聚类方法中,基于目标函数的K-Means聚类方法应用极为广泛,根据聚类结果的表达方式又可分为硬K-Means(HCM)算法、模糊K-Means算法(FCM)和概率K-Means算法(PCM)。各种K-Means算法都以确定的目标函数来测度聚类的效果,最佳的聚类效果对应于目标函数的极值点。由于目标函数局部极小值点的存在以及算法的贪心性,导致聚类结果对初始中心敏感,往往达不到全局最优。  相似文献   

5.
基于免疫遗传的K-Means聚类算法分析   总被引:2,自引:1,他引:1  
聚类算法是数据挖掘中的一个重要研究领域,在所有的聚类算法中K.Means算法应用得最为广泛.针对K-Means算法容易陷入局部最优解的缺点,提出了基于免疫遗传的K-Means聚类算法来避免这个问题.理论分析和实验表明,该算法比传统的K-Means聚类有更好的效果.  相似文献   

6.
一种基于元启发式策略的迭代自学习K-Means算法   总被引:1,自引:0,他引:1  
类内误差平方和最小化的聚类准则求解是NP难问题,K-Means采用的迭代重定位方法本质上是一种局部搜索的爬山算法,因此聚类结果对初始代表点的选择非常敏感,只能保证局部最优.为此,引入元启发式策略,通过建立评估函数对K-Means初始代表点和目标函数之间的依赖关系进行近似,然后利用近似评估函数指导新的初始代表点的选择,构成一种迭代自学习框架下的K-Means算法.实验表明算法可以很好地克服K-Means对初始代表点的依赖性,获得较高质量的聚类结果.  相似文献   

7.
遗传算法具有良好的全局搜索能力,但有过早收敛和过慢结束的缺点。K-Means算法具有很强的局部搜索能力,但算法有对初始聚类中心敏感而易陷入局部最优解。针对上述问题,提出了基于K-Means变异算子的混合遗传算法聚类,将K-Means算法的局部搜索能力与遗传算法的全局寻优搜索能力相结合,在遗传算法中引入K-Means变异算子,采用符号编码、自适应变异、最优个体保留策略的混合遗传算法。仿真实验表明,该算法有效克服了遗传算法过慢收敛和K-Means算法陷入局部收敛的问题,从而得到更好的聚类效果。  相似文献   

8.
K-Means聚类算法的结果质量依赖于初始聚类中心的选择。该文将局部搜索的思想引入K-Means算法,提出一种改进的KMLS算法。该算法对K-Means收敛后的结果使用局部搜索来使其跳出局部极值点,进而再次迭代求优。同时对局部搜索的结果使用K-Means算法使其尽快到达一个局部极值点。理论分析证明了算法的可行性和有效性,而在标准文本集上的文本聚类实验表明,相对于传统的K-Means算法,该算法改进了聚类结果的质量。  相似文献   

9.
针对K-Means算法在文本聚类过程中易陷入局部最优,造成文本聚类结果不准确的问题,提出了一种基于改进灰狼优化算法的K-Means文本聚类方法。在对文本数据进行分词、去停用词、特征提取以及文本向量化后,通过免疫克隆选择选出精英个体,并对精英个体进行深度探索以增加灰狼种群的多样性,避免早熟收敛现象的发生;将粒子群位置更新思想与灰狼位置更新结合,降低灰狼优化算法陷入局部极值的风险;与K-Means算法结合进行文本聚类。所提算法与K-Means算法、GWO-KMeans以及IPSK-Means算法相比,其准确率、召回率和F值平均都有明显提高,文本聚类结果更可靠。  相似文献   

10.
传统的K-Means聚类算法只能保证收敛到局部最优,从而导致聚类结果对初始代表点的选择非常敏感;凝聚层次聚类虽无需选择初始的聚类中心,但计算复杂度较高,而且凝聚过程不可逆。结合网络舆情的特点,深入剖析了K-Means聚类算法和凝聚层次聚类算法的优缺点,对K-Means聚类算法进行改进。改进后算法的核心思想是,结合两种算法分别在初始点选择和聚类过程两个方面的优势,进行整合优化。通过实验分析及实际应用表明,改进后的文本聚类算法在很大程度上可以提高网络舆情信息聚类结果的准确性、有效性以及算法的效率。  相似文献   

11.
一种基于网格的改进的K-Means聚类算法   总被引:1,自引:0,他引:1  
K-Means算法对数据集中的每个数据点进行多次处理,因此对于大数据集时间效率不高.为提高K-Means算法的时间性能并使聚类结果更优,利用网格方法定义了单元密度聚合度概念,提出了一种基于网格的改进的K-Means聚类算法(IKMG).IKMG利用网格连通性原理并借助树形结构,将多个密集网格单元作为初始根节点,周围网格作为它的子节点,以此类推,广度优先扩展树最终得到K个聚类树.实验结果表明,IKMG不但大大缩短了K-Means算法对大数据集的处理时间,而且能有效消除聚类结果对初始聚类中心的敏感性,无需人为指定K值,能找出不同大小、不同形状的聚类.  相似文献   

12.
This work proposes a novel data clustering algorithm based on the potential field model, with a hierarchical optimization mechanism on the algorithm. There are two stages in this algorithm. Firstly, we build an edge-weighted tree based on the mutual distances between all data points and their hypothetical potential values derived from the data distribution. Using the tree structure, the dataset can be divided into an appropriate number of initial sub-clusters, with the cluster centers close to the local minima of the potential field. Then the sub-clusters are further merged according to the well-designed merging criteria by analyzing their border potential values and the cluster average potential values. The proposed clustering algorithm follows a hierarchical clustering mechanism, and aims to optimize the initial sub-cluster results in the first stage. The algorithm takes advantage of the cluster merging criteria to merge the sub-clusters, so it can automatically stop the clustering process without designating the number of clusters in advance. The experimental results show that the proposed algorithm produces the most satisfactory clustering results in most cases compared with other existing methods, and can effectively identify the data clusters with arbitrary shape, size and density.  相似文献   

13.
基于遗传算法的K均值聚类分析   总被引:23,自引:0,他引:23       下载免费PDF全文
传统K均值算法对初始聚类中心敏感,聚类结果随不同的初始输入而波动,容易陷入局部最优值。针对上述问题,该文提出一种基于遗传算法的K均值聚类算法,将K均值算法的局部寻优能力与遗传算法的全局寻优能力相结合,在自适应交叉概率和变异概率的遗传算法中引入K均值操作,以克服传统K均值算法的局部性和对初始中心的敏感性,实验证明,该算法有较好的全局收敛性,聚类效果更好。  相似文献   

14.
经典[K]-Means算法不能有效处理非球型数据集的聚类问题,且聚类目标数需预先指定。SMCL(Self-adaptive Multiprototype-based Competitive Learning)算法是一种[K]-Means的改进算法,它引入Multi-Prototypes机制,并将距离相近的Prototypes所代表的样本簇融合成聚类簇。在SMCL算法基础上提出DP-SMCL(Density Peak-SMCL)算法,使用密度峰值聚类算法确定初始聚类中心集,借助1-D高斯混合概率密度模型合并以Prototypes为中心的相近子簇来获得精确聚类结果。实验结果表明,DP-SMCL算法可应用于非球型数据集聚类,且能自动确认聚类的目标类别数,相比于[K]-Means和DBSCAN(Density-Based Spatial Clustering of Applications with Noise)等经典聚类算法能够获得更加准确的聚类结果。同时,与SMCL算法相比,DP-SMCL可以快速完成初始Prototypes的选定,显著提升算法准确率和执行效率。  相似文献   

15.
王宏杰  师彦文 《计算机科学》2017,44(Z11):457-459, 502
为了提高传统K-Means聚类算法的聚类准确性,提出一种结合初始中心优化和特征加权的改进K-Means聚类算法。首先,根据样本特征对聚类的贡献程度获得初始特征权重,构建一种加权距离度量。其次,利用提出的初始聚类中心选择方法获得k个初始聚类中心,并结合初始特征权重进行初步聚类。然后,根据聚类精度来调整特征权重并再次执行聚类过程。重复执行上述过程直到聚类精度不再变化,获得最终的聚类结果。在UCI数据库上的实验结果表明,与现有相关K-Means聚类算法相比,该算法具有较高的聚类准确性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号