首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 156 毫秒
1.
基于密度的改进K均值算法及实现   总被引:4,自引:1,他引:3  
傅德胜  周辰 《计算机应用》2011,31(2):432-434
传统的K均值算法的初始聚类中心从数据集中随机产生,聚类结果很不稳定。提出一种基于密度算法优化初始聚类中心的改进K-means算法,该算法选择相互距离最远的k个处于高密度区域的点作为初始聚类中心。实验证明,改进的K-means算法能够消除对初始聚类中心的依赖,聚类结果有了较大的改进。  相似文献   

2.
最大距离法选取初始簇中心的K-means文本聚类算法的研究   总被引:1,自引:0,他引:1  
由于初始簇中心的随机选择, K-means算法在聚类时容易出现聚类结果局部最优、聚类结果不稳定、总迭代次数较多等问题。为了解决K-means算法所存在的以上问题, 提出了最大距离法选取初始簇中心的K-means文本聚类算法。该算法基于这样的事实:距离最远的样本点最不可能分到同一个簇中。为使该算法能应用于文本聚类, 构造了一种将文本相似度转换为文本距离的方法, 同时也重新构造了迭代中的簇中心计算公式和测度函数。在实例验证中, 对分属于五个类别的1 500篇文本组成的文本集进行了文本聚类分析, 其结果表明, 与原始的K-means聚类算法以及其他的两种改进的K-means聚类算法相比, 新提出的文本聚类算法在降低了聚类总耗时的同时, F度量值也有了明显提高。  相似文献   

3.
基于信息熵的精确属性赋权K-means聚类算法   总被引:4,自引:0,他引:4  
为了进一步提高聚类的精确度,针对传统K-means算法的初始聚类中心产生方式和数据相似性判断依据,提出一种基于信息熵的精确属性赋权K-means聚类算法。首先利用熵值法对数据对象的属性赋权来修正对象间的欧氏距离,然后通过比较初聚类的赋权类别目标价值函数,选择高质量的初始聚类中心来进行更高精度和更加稳定的聚类,最后通过Matlab编程实现。实验证明该算法的聚类精确度和稳定性要明显高于传统K-means算法。  相似文献   

4.
K-means聚类算法简单高效,应用广泛。针对传统K-means算法初始聚类中心点的选择随机性导致算法易陷入局部最优以及K值需要人工确定的问题,为了得到最合适的初始聚类中心,提出一种基于距离和样本权重改进的K-means算法。该聚类算法采用维度加权的欧氏距离来度量样本点之间的远近,计算出所有样本的密度和权重后,令密度最大的点作为第一个初始聚类中心,并剔除该簇内所有样本,然后依次根据上一个聚类中心和数据集中剩下样本点的权重并通过引入的参数[τi]找出下一个初始聚类中心,不断重复此过程直至数据集为空,最后自动得到[k]个初始聚类中心。在UCI数据集上进行测试,对比经典K-means算法、WK-means算法、ZK-means算法和DCK-means算法,基于距离和权重改进的K-means算法的聚类效果更好。  相似文献   

5.
K-means算法的初始聚类中心的优化   总被引:10,自引:3,他引:7       下载免费PDF全文
传统的K-means算法对初始聚类中心敏感,聚类结果随不同的初始输入而波动,针对K-means算法存在的问题,提出了基于密度的改进的K-means算法,该算法采取聚类对象分布密度方法来确定初始聚类中心,选择相互距离最远的K个处于高密度区域的点作为初始聚类中心,理论分析与实验结果表明,改进的算法能取得更好的聚类结果。  相似文献   

6.
针对初始聚类中心不合理的选择会导致K-means算法的聚类结果局部最优,且降低聚类算法收敛速度的问题,提出一种基于近邻传播算法和最大最小距离算法联合计算初始聚类中心的算法(APMMD).该算法通过近邻传播算法从整个样本集中获得Kap(Kap>k)个具有代表性的候选中心点,再利用最大最小距离算法从Kap个候选中心点中选择k个初始聚类中心.在多个UCI数据集上实验,结果表明APMMD算法获得初始聚类中心应用于K-means聚类,迭代次数明显降低,聚类结果稳定且具有较高准确率.  相似文献   

7.
传统的基于欧氏距离和K-means聚类算法的空值估计算法容易因为欧氏距离对量纲的敏感性和初始聚类中心对K-means聚类效果的影响产生估值误差。将层次聚类算法和K-means聚类算法有机结合起来的H-K聚类算法克服了K-means算法对初始聚类中心的敏感性,从而改善了聚类效果。与欧氏距离不同,马氏距离可以避免量纲的影响。为此提出一种改进的空值估计算法,将H-K聚类应用到空值估计算法中进行聚类,在聚类时采用马氏距离代替欧氏距离,在聚类后使用多元线性回归法计算样本中的空值。实验结果表明改进后的空值估计算法使得估计值的绝对误差率(MAER)得到降低。  相似文献   

8.
一种优化初始中心的K-means粗糙聚类算法   总被引:3,自引:0,他引:3       下载免费PDF全文
针对K-means算法的不足,提出了一种优化初始中心的聚类算法。首先,采用密度敏感的相似性度量来计算对象的密度,基于对象之间的距离和对象的邻域,选择相互距离尽可能远的数据点作为初始聚类中心。然后,采用基于粗糙集的K-means聚类算法处理边界对象,同时利用均衡化函数自动生成聚类数目。实验表明,算法具有较好的聚类效果和综合性能。  相似文献   

9.
针对初始聚类中心对传统K-means算法的聚类结果有较大影响的问题,提出一种依据样本点类内距离动态调整中心点类间距离的初始聚类中心选取方法,由此得到的初始聚类中心点尽可能分散且具代表性,能有效避免K-means算法陷入局部最优。通过UCI数据集上的数据对改进算法进行实验,结果表明改进的算法提高了聚类的准确性。  相似文献   

10.
聚类是数据挖掘领域最重要的技术之一,K-means是其中使用频率最高的举足轻重的聚类算法。然而,Kmeans算法表现严重依赖于初始中心,选取多少个初始中心以及选择哪些数据点作为初始中心对K-means算法十分重要。基于此,提出一种初始中心选取方法 DPCC(Density Peak Clustering Centers)。DPCC方法基于密度和距离生成一个选取决策图,将数据集中所有的密度峰值点凸显出来。这些密度峰值点即为DPCC方法为K-means算法提供的初始中心。实验表明,DPCC方法不仅可为K-means提供初始中心数量,还能有效提高K-means算法的准确度,并缩减K-means算法的执行时间。  相似文献   

11.
一种基于广度优先搜索的K-means初始化算法   总被引:1,自引:0,他引:1       下载免费PDF全文
K-means算法是在现实应用中非常广泛的聚类算法,K-means算法对初始中心的选择非常敏感,对已存在的有代表性的初始算法进行了研究,提出了一种基于广度优先搜索的K-means初始化算法。该算法综合考虑了密度与距离因素,选择初始点。分析表明该算法选择的初始点非常接近期望的中心点。  相似文献   

12.
针对传统K-means算法对初始聚类中心敏感的问题,提出了基于数据样本分布情况的动态选取初始聚类中心的改进K-means算法。该算法根据数据点的距离构造最小生成树,并对最小生成树进行剪枝得到K个初始数据集合,得到初始的聚类中心。由此得到的初始聚类中心非常地接近迭代聚类算法收敛的聚类中心。理论分析与实验表明,改进的K-means算法能改善算法的聚类性能,减少聚类的迭代次数,提高效率,并能得到稳定的聚类结果,取得较高的分类准确率。  相似文献   

13.
改进的K-means聚类算法及应用   总被引:1,自引:3,他引:1  
唐波 《软件》2012,(3):100-104
传统的K-means算法需要事先确定初始聚类中心,聚类精确程度不高。针对以上问题,本文结合熵值法和动态规划算法来对传统的K-means算法进行改进,提出了基于熵值法及动态规划的改进K-means算法。熵值法用来修订算法的距离计算公式,以提高算法的聚类精确程度,动态规划算法用来确定算法的初始聚类中心。将改进算法应用于矿井监测传感器聚类中,结果显示较传统的K-means算法,改进算法效率有了明显提高,聚类精确程度有较大增强。  相似文献   

14.
为了解决K-means算法在聚类数量增多的情况下,因选择了不合适的中心初值而影响到聚类效果这一问题,提出了一种局部迭代的快速K-means聚类算法(PIFKM+?)。该算法在K-means聚类的基础上,不断寻找能够被分割的聚类簇和能够被删除的聚类簇,并对受影响的局部数据进行重新聚类处理,降低了整个聚类更新的时间复杂度,提高了聚类的效果。PIFKM+?算法在面对聚类数量众多的情况下,具有能够快速更新聚类、对聚类中心初值不敏感、能够提高聚类精确度等优势。通过与K-means和K-means++两种算法的比较,在仿真数据集和真实数据集的综合实验下,验证了该算法的精确性、高效率性和可扩展性,同时实验结果的统计分析表明该算法在提高了聚类精确度的同时并没有损失太多的时间效率。  相似文献   

15.
邓滨玥 《软件》2020,(2):188-192
k-means算法源于信号处理中的一种向量量化方法,现在则更多地作为一种聚类分析方法流行于数据挖掘领域。在数据挖掘技术中常常使用聚类方法,而k-means算法作为最典型、最常见、实用度最广的一种聚类算法,具有简单易操作等优点。但此算法需要人工设定聚类中心的数量,初始聚类中心,容易陷入局部最优,使得算法的时间复杂度变得较大,得到的聚类结果易受到k值与设定的初始聚类中心的影响,针对这些问题,本文介绍了k-means算法的改进方法,分析其优缺点并提出了优化算法的下一步研究方向。  相似文献   

16.
基于密度和最近邻的Kk-means文本聚类算法   总被引:4,自引:0,他引:4  
张文明  吴江  袁小蛟 《计算机应用》2010,30(7):1933-1935
初始中心点的选择对于传统的K-means算法聚类效果影响较大,容易使聚类陷入局部最优解。针对这个问题,引入密度和最近邻思想,提出了生成初始聚类中心的算法,将所选聚类中心用于K-means算法,得到了更好的应用于文本聚类的DN-K-means算法。实验结果表明,该算法可以生成聚类质量较高并且稳定性较好的结果。  相似文献   

17.
针对K-means算法易受初始聚类中心影响而陷入局部最优的问题,提出一种基于萤火虫智能优化和混沌理论的FCMM算法。首先利用最大最小距离算法确定聚类类别值K和初始聚类中心位置;然后以各聚类中心为基准点,利用Tent映射构建混沌空间,通过混沌搜索更新聚类中心,以降低初始聚类中心过于临近的影响,并改善算法易陷入局部最优的问题。仿真结果表明,FCMM算法的平均聚类精度相较于经典K-means算法和FA算法分别提高了7.51%和2.2%,成功避免算法陷入局部最优解,提高了划分初始数据集的效率和寻优精度。  相似文献   

18.
张亚萍  胡学钢 《微机发展》2007,17(11):33-35
将K-means算法引入到朴素贝叶斯分类研究中,提出一种基于K-means的朴素贝叶斯分类算法。首先用K-means算法对原始数据集中的完整数据子集进行聚类,计算缺失数据子集中的每条记录与k个簇重心之间的相似度,把记录赋给距离最近的一个簇,并用该簇相应的属性均值来填充记录的缺失值,然后用朴素贝叶斯分类算法对处理后的数据集进行分类。实验结果表明,与朴素贝叶斯相比,基于K-means思想的朴素贝叶斯算法具有较高的分类准确率。  相似文献   

19.
Partitional clustering of categorical data is normally performed by using K-modes clustering algorithm, which works well for large datasets. Even though the design and implementation of K-modes algorithm is simple and efficient, it has the pitfall of randomly choosing the initial cluster centers for invoking every new execution that may lead to non-repeatable clustering results. This paper addresses the randomized center initialization problem of K-modes algorithm by proposing a cluster center initialization algorithm. The proposed algorithm performs multiple clustering of the data based on attribute values in different attributes and yields deterministic modes that are to be used as initial cluster centers. In the paper, we propose a new method for selecting the most relevant attributes, namely Prominent attributes, compare it with another existing method to find Significant attributes for unsupervised learning, and perform multiple clustering of data to find initial cluster centers. The proposed algorithm ensures fixed initial cluster centers and thus repeatable clustering results. The worst-case time complexity of the proposed algorithm is log-linear to the number of data objects. We evaluate the proposed algorithm on several categorical datasets and compared it against random initialization and two other initialization methods, and show that the proposed method performs better in terms of accuracy and time complexity. The initial cluster centers computed by the proposed approach are close to the actual cluster centers of the different data we tested, which leads to faster convergence of K-modes clustering algorithm in conjunction to better clustering results.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号