首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
为了克服经典K-means算法对初始聚类中心过分依赖的缺点,该文提出采用竞争神经网络和密度思想对经典k-means算法进行预处理,从而改变经典K-means算法对初始聚类中心的随机选择。实验结果表明,这两种方法是有效的。  相似文献   

2.
K-means算法因其原理简单和聚类效果尚佳的优点在机器学习和数据挖掘领域得到广泛使用,但其仍存在一些缺点:K-means算法需指定分类类别数K;K-means算法对于初始聚类中心的选取策略是随机选择,这可能会影响到最终聚类结果的准确率及计算速度。以上缺点都限制了K-means算法的计算效率的进一步提升。论文针对以上问题,提出了一种基于Flink并行化的K-means优化算法,该算法在传统K-means算法的基础上引入Canopy算法来完成初始聚类,得到类别数K,然后采用最大距离算法来计算初始聚类中心,并利用Flink框架的并行计算能力,对多个数据集进行聚类实验。实验结果表明,论文算法可以减少聚类过程迭代次数,并且在聚类准确率方面也有一定的提高,在大规模数据集环境下同样具有良好的计算效率。  相似文献   

3.
基于密度的改进K均值算法及实现   总被引:4,自引:1,他引:3  
傅德胜  周辰 《计算机应用》2011,31(2):432-434
传统的K均值算法的初始聚类中心从数据集中随机产生,聚类结果很不稳定。提出一种基于密度算法优化初始聚类中心的改进K-means算法,该算法选择相互距离最远的k个处于高密度区域的点作为初始聚类中心。实验证明,改进的K-means算法能够消除对初始聚类中心的依赖,聚类结果有了较大的改进。  相似文献   

4.
基于SOM网和K-means的聚类算法   总被引:1,自引:1,他引:0  
K-means算法因对初始中心依赖性而导致聚类结果可能陷入局部极小.而恰当的选取初始中心向量就成为改进K-means算法的关键所在.因此可以先通过SOM进行聚类,较快确定聚类范围,再将其结果作为K-means方法的初始中心向量加以使用.实验证明结合这两种算法能够弥补这两种方法的缺陷,较好改善聚类效果.  相似文献   

5.
K-means聚类算法在入侵检测的运用中存在两个重要的缺陷:一是初始聚类中心是随机选择的,二是容易陷入局部最优解。提出一种改进的K-means算法,首先通过数据筛选确定高密度区域,然后确定两个最远点作为初始聚类中心以及非模糊型的集群评估指标来确定剩下的初始聚类中心,最后再进行聚类分析。实验表明,改进后的K-means算法不再依靠随机的K值和聚类中心,使得聚类过程可以依据数据集本身进行自适应的调整,同时保证了较高的网络入侵的检测率和较低的误报率。  相似文献   

6.
针对传统K-means算法随机选取初始聚类中心,易造成准则函数收敛速度慢、聚类结果陷入局部最优等问题,提出一种基于网格和图论的初始聚类中心确定算法。该算法将数据空间网格化,通过在网格单元上形成树的连通分支来选取初始中心点。采用模拟和真实数据集对该算法选取的初始中心进行测试,实验结果表明,改进后的K-means算法在降低时间复杂度、减少迭代次数以及提高聚类精度方面都取到了较好的效果。  相似文献   

7.
介绍了K-means和GAAC聚类算法思想和两种特征提取方法对维吾尔文文本表示及聚类效率的影响.在较大规模文本语料库基础上,分别用K-means和GAAC的方法进行维吾尔文文本聚类实验及性能对比分析,针对经典K-means算法对初始聚类中心的过分依赖性及不稳定性缺点以及GAAC的高计算复杂性,提出了一种结合GACC和K-means的维吾尔文聚类算法.本算法分两步完成聚类操作,首先是GAAC模块从少量文本集中获取最优的初始类中心,然后是K-means模块对大量文本集进行快速聚类.实验结果表明,新算法在聚类准确率和时间复杂度上都有了显著的提高.  相似文献   

8.
K-means算法的初始聚类中心的优化   总被引:10,自引:3,他引:7       下载免费PDF全文
传统的K-means算法对初始聚类中心敏感,聚类结果随不同的初始输入而波动,针对K-means算法存在的问题,提出了基于密度的改进的K-means算法,该算法采取聚类对象分布密度方法来确定初始聚类中心,选择相互距离最远的K个处于高密度区域的点作为初始聚类中心,理论分析与实验结果表明,改进的算法能取得更好的聚类结果。  相似文献   

9.
牛雷  孙忠林 《计算机科学》2018,45(2):226-230
初始聚类中心是指在聚类的过程中首次被选为中心的点或对象。针对传统的K-means算法由于随机选择初始聚类中心而造成的聚类结果不稳定的问题,提出PCA-AKM算法。该算法利用主成分分析方法提取数据集中的主要成分,实现数据降维,使用自定义指标密权值选择初始聚类中心,避免聚类中心局部最优问题。将该算法与K-means算法在UCI数据集上进行聚类对比,其聚类稳定性高于传统K-means算法。 在KDD CUP99数据集上,对所提算法进行入侵检测仿真,实验结果证明该算法检测率高,误检率低,能够有效提高入侵检测的准确率。  相似文献   

10.
K-means算法是经典的基于划分的聚类算法。针对K-means算法的类簇数目难以确定、对初始聚类中心敏感的缺陷,提出了改进的K-means算法,重新定义了计算样本对象密度的方法,并且运用残差分析的方法从决策图中自动获取初始聚类中心和类簇数目。实验结果表明该算法可获得更好的聚类效果。  相似文献   

11.
针对K-means算法中的初始聚类中心是随机选择这一缺点进行改进,利用提出的新算法选出初始聚类中心,并进行聚类。这种算法比随机选择初始聚类中心的算法性能有所提高,具有更高的准确性。  相似文献   

12.
针对K-means聚类算法受初始类中心影响,聚类结果容易陷入局部最优导致聚类准确率较低的问题,提出了一种基于自适应布谷鸟搜索的K-means 聚类改进算法,并利用MapReduce编程模型实现了改进算法的并行化。通过搭建的Hadoop分布式计算平台对不同样本数据集分别进行10次准确性实验和效率实验,结果表明:(1)聚类的平均准确率在实验所采用的4种UCI标准数据集上,相比原始K-means聚类算法和基于粒子群优化算法改进的K-means聚类算法都有所提高;(2) 聚类的平均运行效率在实验所采用的5种大小递增的随机数据集上,当数据量较大时,显著优于原始K-means串行算法,稍好于粒子群优化算法改进的并行K-means聚类算法。可以得出结论,在大数据情景下,应用该算法的聚类效果较好。  相似文献   

13.
基于并行遗传算法的K-means聚类研究   总被引:1,自引:0,他引:1  
针对传统K-means聚类算法对初始聚类中心的选择敏感,以及聚类数K难以确定的问题,提出一种基于并行遗传算法的K-means聚类方法.该方法采用一种新型的可变长染色体编码方案,随机选择样本点作为初始聚类中心形成染色体,然后结合K-means算法的高效性和并行遗传算法的全局优化能力,通过种群内的遗传、变异和种群间的并行进化、联姻,有效地避免了局部最优解的出现,同时得到了优化的聚类数目和聚类结果.实验表明该方法是一种精确高效的聚类方法.  相似文献   

14.
K-means算法的初始聚类中心是随机选取的,不同的初始中心输入会得出不同的聚类结果。针对K-means算法存在的问题,提出一种融合K-means算法与聚类的快速搜索和发现密度峰算法的聚类算法(K-CBFSAFODP)。该算法是这样考虑的:类簇中心被具有较低局部密度的邻居点包围,且与具有更高密度的任何点都有相对较大的距离,以此来刻画聚类中心;再运用K-means算法进行迭代聚类,弥补了K-means聚类中心随机选取导致容易陷入局部最优的缺点;并且引入了熵值法用来计算距离,从而实现优化聚类。在UCI数据集和人工模拟数据集上的实验表明,融合算法不仅能得到较好的聚类结果,而且聚类很稳定,同时也有较快的收敛速度,证实了该融合算法的可行性。  相似文献   

15.
基于数据分段的K-means的优化研究   总被引:1,自引:0,他引:1  
K-means聚类算法是一种主流的迭代下降聚类算法,收敛于局部最优化状态.由于K-means随机选取k个初始聚类中心,使得聚类结果的有效性随初始输入而波动,为此文中采取一种预处理的方式来选取初始聚类中心.首先在某种范数的意义下,确定相隔最远的两个数据点之间的距离,然后采用数据分段的方法,将数据集分成k段,在每段中选取一个中心,以此来减小聚类结果随初始输入的波动.实验显示优化后的K-means有效地消除了初始输入的影响,并显著地减少了算法迭代次数和聚类误差.  相似文献   

16.
传统K-means算法随机选取初始聚类中心,容易导致聚类结果不稳定,而优化初始聚类中心的K-means算法需要一定的参数选择,也会使聚类结果缺乏客观性。为此,根据样本空间分布紧密度信息,提出利用最小方差优化初始聚类中心的K-means算法。该算法运用样本空间分布信息,通过计算样本空间分布的方差得到样本紧密度信息,选择方差最小(即紧密度最高)且相距一定距离的样本作为初始聚类中心,实现优化的K-means聚类。在UCI机器学习数据库数据集和含有噪音的人工模拟数据集上的实验结果表明,该算法不仅能得到较好的聚类结果,且聚类结果稳定,对噪音具有较强的免疫性能。  相似文献   

17.
在传统的K-means算法中,聚类结果很大程度依赖于随机选择的初始聚类中心点以及人工指定的k值.为了提高聚类精度,本文提出了利用最小距离与平均聚集度来对初始聚类中心点进行选取,将层次聚类CURE算法得到的聚簇数作为k值,从而使聚类精度得到提高.最后,将改进后的K-means算法应用到微博话题发现中,通过对实验结果分析,证明该算法提高了聚类结果精度.  相似文献   

18.
传统的K-means算法随机选取初始聚类中心,聚类结果不稳定,容易陷入局部最优解。针对聚类中心的敏感性,提出一种优化初始聚类中心的K-means算法。此算法利用数据集样本的分布特征计算样本点的密度并进行分类,在高密度区域中选择K个密度最大且相互距离超过某特定阈值的点作为初始聚类中心,并对低密度区域的噪声点单独处理。实验证明,优化后的算法能取得更好的聚类效果,且稳定性增强。  相似文献   

19.
针对初始聚类中心对传统K-means算法的聚类结果有较大影响的问题,提出一种依据样本点类内距离动态调整中心点类间距离的初始聚类中心选取方法,由此得到的初始聚类中心点尽可能分散且具代表性,能有效避免K-means算法陷入局部最优。通过UCI数据集上的数据对改进算法进行实验,结果表明改进的算法提高了聚类的准确性。  相似文献   

20.
廖纪勇  吴晟  刘爱莲 《控制与决策》2021,36(12):3083-3090
选取合理的初始聚类中心是正确聚类的前提,针对现有的K-means算法随机选取聚类中心和无法处理离群点等问题,提出一种基于相异性度量选取初始聚类中心改进的K-means聚类算法.算法根据各数据对象之间的相异性构造相异性矩阵,定义了均值相异性和总体相异性两种度量准则;然后据此准则来确定初始聚类中心,并利用各簇中数据点的中位数代替均值以进行后续聚类中心的迭代,消除离群点对聚类准确率的影响.此外,所提出的算法每次运行结果保持一致,在初始化和处理离群点方面具有较好的鲁棒性.最后,在人工合成数据集和UCI数据集上进行实验,与3种经典聚类算法和两种优化初始聚类中心改进的K-means算法相比,所提出的算法具有较好的聚类性能.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号