首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 156 毫秒
1.
《软件工程师》2019,(5):32-34
针对传统k-means算法中初始聚类中心随机确定的问题,提出k-means改进算法。首先,定义变量权值,权值的大小等于样本密度乘以簇间距离除以簇内样本平均距离,通过最大权值来确定聚类中心,克服了随机确定聚类中心的不稳定性。然后在Hadoop平台上用Map-Reduce框架下实现算法的并行化。最后以南通公交IC刷卡记录为例,通过改进的k-means聚类算法进行IC卡刷卡记录的分析。实验表明,在Hadoop平台下改进k-means算法运行稳定、可靠,具有很好的聚类效果。  相似文献   

2.
随机选取初始聚类中心和根据经验设置[K]值对[K]-means聚类结果都有一定的影响,针对这一问题,提出了一种基于加权密度和最大最小距离的[K]-means聚类算法,称为[KWDM]算法。该算法利用加权密度法选取初始聚类中心点集,减少了离群点对聚类结果的影响,通过最大最小距离准则启发式地选择聚类中心,避免了聚类结果陷入局部最优,最后使用准则函数即簇内距离和簇间距离的比值来确定[K]值,防止了根据经验来设置[K]值。在人工数据集和UCI数据集上的实验结果表明,KWDM算法不仅提高了聚类的准确率,而且减少了算法的平均迭代次数,增强了算法的稳定性。  相似文献   

3.
针对传统[K]均值聚类算法中存在的聚类结果依赖于初始聚类中心及易陷入局部最优等问题,提出一种基于样本密度的全局优化[K]均值聚类算法(KMS-GOSD)。在迭代过程中,KMS-GOSD算法首先通过高斯模型得到所有聚类中心的预估计密度,然后将实际密度低于预估计密度最大的聚类中心进行偏移操作。通过优化聚类中心位置,KMS-GOSD算法不仅能提升全局探索能力,而且可以克服对聚类初始中心点的依赖性。采用标准的UCI数据集进行实验对比,发现改进后的算法相比传统的算法有较高的准确率和稳定性。  相似文献   

4.
K-means聚类算法简单高效,应用广泛。针对传统K-means算法初始聚类中心点的选择随机性导致算法易陷入局部最优以及K值需要人工确定的问题,为了得到最合适的初始聚类中心,提出一种基于距离和样本权重改进的K-means算法。该聚类算法采用维度加权的欧氏距离来度量样本点之间的远近,计算出所有样本的密度和权重后,令密度最大的点作为第一个初始聚类中心,并剔除该簇内所有样本,然后依次根据上一个聚类中心和数据集中剩下样本点的权重并通过引入的参数[τi]找出下一个初始聚类中心,不断重复此过程直至数据集为空,最后自动得到[k]个初始聚类中心。在UCI数据集上进行测试,对比经典K-means算法、WK-means算法、ZK-means算法和DCK-means算法,基于距离和权重改进的K-means算法的聚类效果更好。  相似文献   

5.
一种改进的K均值文本聚类算法   总被引:1,自引:0,他引:1  
提出了一种改进的K均值文本聚类算法.该算法的改进基于以下两点:1)基于簇密度与文本间距离选取初始簇中心,引入置信半径来得到簇密度,即选取距离最远且簇密度最大的点为初始簇中心;2)基于权重的海明距离来计算文本相似度,同时采用轮廓系数来衡量不同算法的聚类质量.实验结果表明:该算法相比原始的K均值文本聚类算法和文献[1]中算法具有更好的聚类质量.  相似文献   

6.
作为使用最广泛的个性化推荐算法之一,协同过滤有着其他推荐算法无法比拟的优势,但在实际的应用中也面临着一些亟待解决的问题。针对冷启动问题,通过K-means聚类与改进的遗传算法相结合的混合算法实现协同过滤算法中聚类模型的构建,自适应地获取聚类算法中的K值及初始聚类中心集,由新用户或新项目自身属性信息计算熵值,来对其进行归类及近邻搜索,最终实现新用户和新项目的最优推荐。针对扩展性问题,利用基于云计算平台MapReduce分布式框架,完成相关算法的并行化计算。最后,在UCI数据集上验证了用户或项目聚类模型构建的有效性,在MovieLens数据集上,分别进行单机环境和Hadoop平台上的实验,验证了改进算法的有效性及推荐质量。  相似文献   

7.
经典[K]-Means算法不能有效处理非球型数据集的聚类问题,且聚类目标数需预先指定。SMCL(Self-adaptive Multiprototype-based Competitive Learning)算法是一种[K]-Means的改进算法,它引入Multi-Prototypes机制,并将距离相近的Prototypes所代表的样本簇融合成聚类簇。在SMCL算法基础上提出DP-SMCL(Density Peak-SMCL)算法,使用密度峰值聚类算法确定初始聚类中心集,借助1-D高斯混合概率密度模型合并以Prototypes为中心的相近子簇来获得精确聚类结果。实验结果表明,DP-SMCL算法可应用于非球型数据集聚类,且能自动确认聚类的目标类别数,相比于[K]-Means和DBSCAN(Density-Based Spatial Clustering of Applications with Noise)等经典聚类算法能够获得更加准确的聚类结果。同时,与SMCL算法相比,DP-SMCL可以快速完成初始Prototypes的选定,显著提升算法准确率和执行效率。  相似文献   

8.
一种改进的K—means聚类算法   总被引:1,自引:0,他引:1  
K—means算法是最常用的一种基于划分的聚类算法,但该算法需要事先指定K值、随机选择初始聚类中心等的缺陷,从而影响了K—means聚类结果的稳定性。针对K—means算法中的初始聚类中心是随机选择这一缺点进行改进,利用提出的新算法确定初始聚类中心,然后进行聚类,得出最终的聚类结果。实验证明,该改进算法比随机选择初始聚类中心的算法性能得到了提高,并且具有更高的准确性及稳定性。  相似文献   

9.
基于密度的改进K均值算法及实现   总被引:4,自引:1,他引:3  
傅德胜  周辰 《计算机应用》2011,31(2):432-434
传统的K均值算法的初始聚类中心从数据集中随机产生,聚类结果很不稳定。提出一种基于密度算法优化初始聚类中心的改进K-means算法,该算法选择相互距离最远的k个处于高密度区域的点作为初始聚类中心。实验证明,改进的K-means算法能够消除对初始聚类中心的依赖,聚类结果有了较大的改进。  相似文献   

10.
研究保证网络安全有效阻止入侵行为,针对网络入侵检测问题,传统 K 均值聚类算法在网络入侵检测应用过程中,存在对聚类中心初始值敏感、易陷入局部最优值等不足,从而使网络入侵检测正确率低,误检测率高难题.为了提高检测准确性,提出一种改进的 K 均值聚类网络入检测算法.采用有效指数法自动调整初始聚类数,降低了检测结果对初始聚类数的依赖,可通过自适应最佳密度半径函数来选择聚类中心,降低聚类中心对检测结果不利影响,加快聚类速度,最后通过最优初始聚类数 K 和聚类中心对网络入侵进行检测.在 Manab 平台上,采用改进算法对 KDD 99 网络入侵数据进行测试,实验结果表明,改进的 K 均值聚类算法提高了网络入侵检测正确率,误检率降低,为网络检测优化提供有效参考.  相似文献   

11.
针对k-means算法过度依赖初始聚类中心、收敛速度慢等局限性及其在处理海量数据时存在的内存不足问题,提出一种新的针对大数据集的混合聚类算法super-k-means,将改进的基于超网络的高维数据聚类算法与k-means相结合,并经过MapReduce并行化后部署在Hadoop集群上运行。实验表明,该算法不仅在收敛性以及聚类精度两方面得到优化,其加速比和扩展性也有了大幅度的改善。  相似文献   

12.
针对K-means算法处理海量数据的聚类效果和速率,提出一种基于MapReduce框架下的K-means算法分布式并行化编程模型。首先对K-means聚类算法初始化敏感的问题,给出一种新的相异度函数,根据数据间的相异程度来确定k值,并选取相异度较小的点作为初始聚类中心,再把K-means算法部署在MapReduce编程模型上,通过改进MapReduce编程模型来加快K-means算法处理海量数据的速度。实验表明,基于MapReduce框架下改进的K-means算法与传统的K-means算法相比,准确率及收敛时间方面均有所提高,并且并行聚类模型在不同数据规模和计算节点数目上具有良好的扩展性。  相似文献   

13.
针对K中心点算法的初始聚类中心可能过于临近、代表性不足、稳定性差等问题,提出一种改进的K中心点算法。将样本集间的平均距离与样本间的平均距离的比值作为样本的密度参数,精简了高密度点集合中候选代表点的数量,采用最大距离乘积法选择密度较大且距离较远的K个样本作为初始聚类中心,兼顾聚类中心的代表性和分散性。在UCI数据集上的实验结果表明,与传统K中心点算法和其他2种改进聚类算法相比,新提出的算法不仅聚类结果更加准确,同时也具有更快的收敛速度和更高的稳定性。  相似文献   

14.
针对传统模糊C均值聚类算法和基于K-means++优化聚类中心的模糊C均值算法存在初始聚类中心敏感、聚类速度收敛慢、聚类算法需要人为给定聚类数目等缺陷,受密度峰值聚类算法(Clustering by Fast Search and Find of Density Peaks,CFSFDP)的启发,提出了基于密度峰值算法优化的模糊C均值聚类算法,自适应产生初始聚类中心,确定聚类数目,并优化算法收敛过程。实验结果表明,改进后的算法与传统模糊聚类C均值算法相比能够准确地得到簇的数目,性能有明显的提高,并加快算法的收敛速度,达到相对更好的聚类效果。  相似文献   

15.
潘楚  罗可 《计算机应用》2014,34(7):1997-2000
针对传统K-medoids聚类算法对初始聚类中心敏感、收敛速度缓慢以及聚类精度不够高等缺点,提出一种基于改进粒计算、粒度迭代搜索策略和优化适应度函数的新算法。该算法利用粒计算思想在有效粒子中选择K个密度大且距离较远的粒子,选择其中心点作为K个聚类初始中心点;并在对应的K个有效粒子中进行中心点更新,来减少迭代次数;采用类间距离和类内距离优化适应度函数来提高聚类的精度。实验结果表明:该算法在UCI多个标准数据集中测试,在有效缩短迭代次数的同时提高了算法聚类准确率。  相似文献   

16.
针对K-means聚类算法对初始聚类中心敏感和易陷入局部最优解的缺点,提出一种基于K-means的人工蜂群(ABC)聚类算法。将改进的人工蜂群算法和K-means迭代相结合,使算法对初始聚类中心的依赖性和陷入局部最优解的可能性降低,提高了算法的稳定性。通过基于反向学习的初始化策略,增强了初始群体的多样性。利用非线性选择策略,改善了过早收敛问题,提高了搜索效率。通过对邻域搜索范围的动态调整,提高了算法收敛速度,增强了局部寻优能力。实验结果表明,该算法不仅克服了K-means算法稳定性差的缺点,而且具有良好的性能和聚类效果。  相似文献   

17.
优化初始聚类中心的K-means聚类算法   总被引:1,自引:0,他引:1       下载免费PDF全文
针对传统K-means算法对初始中心十分敏感,聚类结果不稳定问题,提出了一种改进K-means聚类算法。该算法首先计算样本间的距离,根据样本距离找出距离最近的两点形成集合,根据点与集合的计算公式找出其他所有离集合最近的点,直到集合内数据数目大于或等于[α]([α]为样本集数据点数目与聚类的簇类数目的比值),再把该集合从样本集中删除,重复以上步骤得到K(K为簇类数目)个集合,计算每个集合的均值作为初始中心,并根据K-means算法得到最终的聚类结果。在Wine、Hayes-Roth、Iris、Tae、Heart-stalog、Ionosphere、Haberman数据集中,改进算法比传统K-means、K-means++算法的聚类结果更稳定;在Wine、Iris、Tae数据集中,比最小方差优化初始聚类中心的K-means算法聚类准确率更高,且在7组数据集中改进算法得到的轮廓系数和F1值最大。对于密度差异较大数据集,聚类结果比传统K-means、K-means++算法更稳定,更准确,且比最小方差优化初始聚类中心的K-means算法更高效。  相似文献   

18.
针对模糊C均值(Fuzzy C-Means,FCM)聚类算法对初始聚类中心和噪声敏感、对边界样本聚类不够准确且易收敛于局部极小值等问题,提出了一种K邻近(KNN)优化的密度峰值(DPC)算法和FCM相结合的融合聚类算法(KDPC-FCM)。算法利用样本的K近邻信息定义样本局部密度,快速准确搜索样本的密度峰值点样本作为初始类簇中心,改善FCM聚类算法存在的不足,从而达到优化FCM聚类算法效果的目的。在多个UCI数据集、单个人造数据集、多种基准数据集和Geolife项目中的6个较大规模数据集上的实验结果表明,改进后的新算法与传统FCM算法、DSFCM算法对比,有着更好的抗噪性、聚类效果和更快的全局收敛速度,证明了新算法的可行性和有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号