首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
一种有效的k-means聚类初始中心选取方法   总被引:5,自引:0,他引:5  
针对传统k-means聚类算法中对初始聚类中心随意选取和人为指定的缺陷,提出一种改进的初始聚类中心的选取方法,利用差异矩阵将新的聚类初始中心计算方法用在传统的k-means算法思想中,对传统的k-means算法进行改进。降低k-means算法的复杂度和对异常点的敏感度,提高算法的可伸缩性。  相似文献   

2.
基于k-means聚类算法的研究   总被引:4,自引:0,他引:4  
分析研究聚类分析方法,对多种聚类分析算法进行分析比较,讨论各自的优点和不足,同时针对原k-means算法的聚类结果受随机选取初始聚类中心的影响较大的缺点,提出一种改进算法.通过将对数据集的多次采样,选取最终较优的初始聚类中心,使得改进后的算法受初始聚类中心选择的影响度大大降低;同时,在选取初始聚类中心后,对初值进行数据标准化处理,使聚类效果进一步提高.通过UCI数据集上的数据对新算法Hk-means进行检测,结果显示Hk-means算法比原始的k-means算法在聚类效果上有显著的提高,并对相关领域有借鉴意义.  相似文献   

3.
k-means算法以其算法简单、计算效率高而被广泛应用在数据挖掘、机器学习、计算机视觉等领域。然而,k-means算法的性能严重依赖于其初始聚类中心的选取。不同的初始聚类中心导致k-means算法的聚类结果变化很大。一个合理的方式是选取处在数据相对密集区域的数据样本作为初始聚类中心。鉴于此,提出一种基于数据近邻图的k-means初始中心选取算法。该算法分为三个阶段:1)构建数据集的局部近邻图;2)选取初始聚类中心的候选集合;3)确定恰当的初始聚类中心。实验结果表明,该算法选取的初始聚类中心是合理的,同时,可以加快k-means的收敛速度。  相似文献   

4.
一种改进的k-means初始聚类中心选取算法   总被引:3,自引:0,他引:3       下载免费PDF全文
在传统的k-means聚类算法中,聚类结果会随着初始聚类中心点的不同而波动,针对这个缺点,提出一种优化初始聚类中心的算法。该算法通过计算每个数据对象的密度参数,然后选取k个处于高密度分布的点作为初始聚类中心。实验表明,在聚类类别数给定的情况下,通过用标准的UCI数据库进行实验比较,发现采用改进后方法选取的初始类中心的k-means算法比随机选取初始聚类中心算法有相对较高的准确率和稳定性。  相似文献   

5.
传统k-means算法随机选取初始聚类中心使聚类结果不稳定,诸多优化算法的时间复杂度较高,为了提高聚类稳定性并降低时间复杂度,提出了基于个体轮廓系数自适应地选取优秀样本以确定初始聚类中心的改进k-means算法.该算法多次调用传统k-means算法聚类,根据k个类中心的个体轮廓系数以及各样本与类中心的距离,自适应地选取优秀样本,求其均值作为初始聚类中心.在多个UCI数据集上的实验表明,该算法聚类时间短,具有较高的轮廓系数和准确率.  相似文献   

6.
传统k-means算法由于初始聚类中心的选择是随机的,因此会使聚类结果不稳定。针对这个问题,提出一种基于离散量改进k-means初始聚类中心选择的算法。算法首先将所有对象作为一个大类,然后不断从对象数目最多的聚类中选择离散量最大与最小的两个对象作为初始聚类中心,再根据最近距离将这个大聚类中的其他对象划分到与之最近的初始聚类中,直到聚类个数等于指定的k值。最后将这k个聚类作为初始聚类应用到k-means算法中。将提出的算法与传统k-means算法、最大最小距离聚类算法应用到多个数据集进行实验。实验结果表明,改进后的k-means算法选取的初始聚类中心唯一,聚类过程的迭代次数也减少了,聚类结果稳定且准确率较高。  相似文献   

7.
对k-means聚类算法的改进   总被引:17,自引:6,他引:17  
袁方  孟增辉  于戈 《计算机工程与应用》2004,40(36):177-178,232
提出了一种k-means聚类算法中寻找初始聚类中心的新方法。算法首先计算样本间的距离,然后根据样本点之间的距离寻找有可能是一类的数据,依据这些样本点形成初始聚类中心,从而得到较好的聚类结果。实验表明,改进后的方法相对于随机选取初始聚类中心具有较高的准确率。  相似文献   

8.
基于PSO的k-means算法及其在网络入侵检测中的应用   总被引:2,自引:1,他引:1  
在传统k-means算法中,初始聚类中心随机选择,聚类结果随初始聚类中心的不同而波动,从而导致聚类结果不稳定。提出的PSO-based k-means算法使用PSO算法优化生成初始聚类中心,得到的聚类结果全局最优,不会陷入局部最优解。实验结果表明,将PSO-based k-means算法用于入侵检测系统的规则挖掘处理模块,其入侵检测率明显高于传统k-means算法,而误报率则大大低于后者。显然,PSO-based k-means算法可有效提高网络入侵检测系统的性能。  相似文献   

9.
一种改进的k-均值聚类算法   总被引:4,自引:0,他引:4  
针对k-均值(k-means)聚类算法中随机选取初始聚类中心的缺陷,提出了一种新的基于数据样本分布选取初始聚类中心的方法.实验结果表明,改进后的算法能改善其聚类性能,并能取得较高的分类准确率.  相似文献   

10.
针对现有聚类算法在初始聚类中心优化过程中存在首个初始聚类中心点落于边界非密集区域的不足,导致出现算法聚类效果不均衡问题,提出一种基于可拓距优选初始聚类中心的改进k-means算法。将样本经典距离向可拓区间映射,并通过可拓侧距计算方法得到可拓左侧距及可拓右侧距;引入平均可拓侧距概念,将平均可拓左侧距和平均可拓右侧距分别作为样本密集度和聚类中心疏远度的量化指标;在此基础上,给出初始聚类中心选取准则。通过与传统k-means聚类算法进行对比,结果表明改进后的k-means聚类算法选取的初始聚类中心分布更加均匀,聚类效果更好,尤其在对高维数据聚类时具有更高的聚类准确率和更好的均衡性。  相似文献   

11.
聚类是数据挖掘中重要组成部分,为了提高聚类的处理效率,将并行处理技术运用于k-means和PAM算法中,对k-means与PAM算法进行了改进。实验结果表明:并行k-means算法相对串行k-means算法有更好的执行效率;且k-means算法有比PAM算法更好的并行性和可扩展性。最后,该文提出和介绍了将并行技术引入谱聚类算法。  相似文献   

12.
基于Web日志挖掘的Web文档聚类   总被引:3,自引:1,他引:2  
Web日志挖掘是Web挖掘的一种,介绍了Web日志挖掘的一般过程,研究了k-means聚类算法,并分析了k-means聚类算法的不足.k-means聚类算法迭代过程中每次都需要计算每个数据对象到簇质心的距离,使得聚类效率不高,针对这个问题,提出了k-means聚类算法的改进算法,该算法避免了重复计算数据对象到簇质心的距离,并用这两种算法实现了Web文档的聚类.试验结果表明,该改进算法提高了聚类效率.  相似文献   

13.
为了解决k-means算法的离群点检测容易受到初始聚类中心的影响陷入局部最优的问题,本文提出一种基于改进布谷鸟搜索的k-means算法的离群点检测方法。首先,对原始布谷鸟搜索算法中的发现概率和莱维飞行步长做自适应策略改进并进行实验仿真;其次讨论改进后的布谷鸟搜索算法的收敛性问题;最后将改进后的布谷鸟搜索算法与k-means的离群点检测算法融合成一种新的离群点检测算法——基于改进布谷鸟搜索的k-means算法的离群点检测。通过对UCI数据集进行仿真实验,结果表明,本文算法不仅精确度方面有着明显优势,而且在3个数据集上收敛速度均有改善,可有效地抑制k-means算法的离群点检测容易陷入局部最优的问题,缩短运行时间。  相似文献   

14.
改进的k-平均聚类算法研究   总被引:2,自引:0,他引:2       下载免费PDF全文
孙士保  秦克云 《计算机工程》2007,33(13):200-201
聚类算法的好坏直接影响聚类的效果。该文讨论了经典的k-平均聚类算法,说明了它存在不能很好地处理符号数据和对噪声与孤立点数据敏感等不足,提出了一种基于加权改进的k-平均聚类算法,克服了k-平均聚类算法的缺点,并从理论上分析了该算法的复杂度。实验证明,用该方法实现的数据聚类与传统的基于平均值的方法相比较,能有效提高数据聚类效果。  相似文献   

15.
针对经典的K-means算法在多维数据聚类效率上还有待提高的问题,本文提出一种称为CK-means的改进聚类算法。该算法在k-means算法的基础上,通过引入Kd树空间数据结构,初始聚类中心从多维数据某一维的区间等间隔集中选取,以及在数据对象分配过程中采用剪枝策略来提高算法的运行效率。实验结果表明,CK-means聚类算法较经典的k-means聚类算法运行效率更高。  相似文献   

16.
针对k-means算法对于远离群点敏感和k值难以确定等缺陷,在分析已有的k-means改进算法的基础上,引进肘部法则的思想对数据进行优化处理并且根据自适应思想结合误差平方和SSE(sum of squared error),提出一种自适应调整k值的k-means改进算法。选取机器学习库中的真实数据集进行仿真实验,其结果表明,改进后的k-means算法中的剔除远离群点和自适应调整k值的方法均可行,准确性高、聚类效果质量更优。  相似文献   

17.
针对k-means聚类算法效率底、优化不足等问题,提出了一种基于变异的迭代k-meaus算法(ik-means)。该算法从k-means算法(随机k-means算法)所产生的初始解向量中随机选取一定比例的位置,对其中的类标号进行随机变异并优化;再通过多次迭代获得了相应的优化解。实验表明在数据集相同、基本k—means算法调用次数相同的条件下,ik-means算法相对于k-means算法具有运行效率高、解更优化的特点。  相似文献   

18.
针对经典k_均值聚类方法只能处理静态数据聚类的问题,本文提出一种能够处理动态数据的改进动态k-均值聚类算法,称为Dynamical K-means算法.该方法在经典k-均值方法的基础上,通过对动态变化的数据集中 新加入样本进行分析和处理,根据聚类目标函数改变的实际情况选择最相似的类别进行局部更新或进行全局经典k_均值聚类,有效检测发生聚类概念漂移和没有发生聚类概念漂移的情况,从而实现了动态数据的在线聚类,避免了经典k_均值方法在动态数据中每次都要对全部数据重新聚类而导致算法速度过慢的问题.标准数据集和人工社会网络数据集上的实验结果表明,与经典k_均值聚类方法相比,本文提出的动态k_均值聚类方法能快速高效地处理动态数据聚类问题,并有效地检测动态数据聚类过程中所产生的概念漂移问题.  相似文献   

19.
为克服mean shift算法计算复杂度高、运行速度慢的缺点,提出一种基于GPU的快速mean shift算法.首先使用k-means算法对图像像素进行预分类,之后在预分类、下采样后缩小的数据集上进行mean shift聚类,以有效地降低算法复杂度.此外,借助GPU的通用计算功能对k-means和mean shift分别进行并行了处理.实验结果表明,通过对图像进行预处理,有效地提高了几何模板查找在强噪声、低信噪比图像中的识别率;同时,改进后的mean shift算法的运行速度提高了近40倍,满足了高速机器视觉检测的实时性要求.  相似文献   

20.
Automated variable weighting in k-means type clustering   总被引:9,自引:0,他引:9  
This paper proposes a k-means type clustering algorithm that can automatically calculate variable weights. A new step is introduced to the k-means clustering process to iteratively update variable weights based on the current partition of data and a formula for weight calculation is proposed. The convergency theorem of the new clustering process is given. The variable weights produced by the algorithm measure the importance of variables in clustering and can be used in variable selection in data mining applications where large and complex real data are often involved. Experimental results on both synthetic and real data have shown that the new algorithm outperformed the standard k-means type algorithms in recovering clusters in data.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号