首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
为了能够及时了解Spark环境下经典聚类算法K-means的最新研究进展,把握K-means算法当前的研究热点和方向,针对K-means算法的初始中心点优化研究进行综述。首先介绍了内存计算框架Spark和K-means算法,并分析了K-means算法聚类不稳定性的成因和影响,其目的在于指出优化K-means算法的重要性;详细介绍了目前在Spark环境下优化K-means初始中心点的主要方法和最新研究现状,并展望了K-means初始中心点优化问题的未来研究方向。  相似文献   

2.
迄今为止,在数据挖掘领域,人们已经实现了多种聚类算法,其中使用最广泛的当属K-means聚类算法.然而,在数据挖掘中,K-means算法面临的一个主要问题就是初始中心点选择问题.本文提出了一种结合关系矩阵和度中心性(Degree Centrality)的分析方法,从而确定K-means算法初始的k个中心点.与传统方法相比,本文算法可得到更加优质的聚类结果.实验结果表明该算法的有效性和可行性.  相似文献   

3.
针对K-means聚类算法存在的初始中心点选择及异常点、离群点极易影响聚类结果等待改进问题,提出了一个基于Tukey规则与优化初始中心点选择的K-means改进算法。该算法利用Tukey规则构造核心与非核心子集,将聚类过程划分成2个阶段。同时,在核心子集上执行中心点逐个递增优化选择策略,选出初始中心点。在来自UCI的20个数据集上聚类结果表明,本文提出的算法优于K-means++聚类算法,有效地提升了聚类性能。  相似文献   

4.
针对初始聚类中心不合理的选择会导致K-means算法的聚类结果局部最优,且降低聚类算法收敛速度的问题,提出一种基于近邻传播算法和最大最小距离算法联合计算初始聚类中心的算法(APMMD).该算法通过近邻传播算法从整个样本集中获得Kap(Kap>k)个具有代表性的候选中心点,再利用最大最小距离算法从Kap个候选中心点中选择k个初始聚类中心.在多个UCI数据集上实验,结果表明APMMD算法获得初始聚类中心应用于K-means聚类,迭代次数明显降低,聚类结果稳定且具有较高准确率.  相似文献   

5.
在传统的K-means算法中,聚类结果很大程度依赖于随机选择的初始聚类中心点以及人工指定的k值.为了提高聚类精度,本文提出了利用最小距离与平均聚集度来对初始聚类中心点进行选取,将层次聚类CURE算法得到的聚簇数作为k值,从而使聚类精度得到提高.最后,将改进后的K-means算法应用到微博话题发现中,通过对实验结果分析,证明该算法提高了聚类结果精度.  相似文献   

6.
针对初始聚类中心对传统K-means算法的聚类结果有较大影响的问题,提出一种依据样本点类内距离动态调整中心点类间距离的初始聚类中心选取方法,由此得到的初始聚类中心点尽可能分散且具代表性,能有效避免K-means算法陷入局部最优。通过UCI数据集上的数据对改进算法进行实验,结果表明改进的算法提高了聚类的准确性。  相似文献   

7.
基于密度和最近邻的Kk-means文本聚类算法   总被引:4,自引:0,他引:4  
张文明  吴江  袁小蛟 《计算机应用》2010,30(7):1933-1935
初始中心点的选择对于传统的K-means算法聚类效果影响较大,容易使聚类陷入局部最优解。针对这个问题,引入密度和最近邻思想,提出了生成初始聚类中心的算法,将所选聚类中心用于K-means算法,得到了更好的应用于文本聚类的DN-K-means算法。实验结果表明,该算法可以生成聚类质量较高并且稳定性较好的结果。  相似文献   

8.
K-means聚类算法简单高效,应用广泛。针对传统K-means算法初始聚类中心点的选择随机性导致算法易陷入局部最优以及K值需要人工确定的问题,为了得到最合适的初始聚类中心,提出一种基于距离和样本权重改进的K-means算法。该聚类算法采用维度加权的欧氏距离来度量样本点之间的远近,计算出所有样本的密度和权重后,令密度最大的点作为第一个初始聚类中心,并剔除该簇内所有样本,然后依次根据上一个聚类中心和数据集中剩下样本点的权重并通过引入的参数[τi]找出下一个初始聚类中心,不断重复此过程直至数据集为空,最后自动得到[k]个初始聚类中心。在UCI数据集上进行测试,对比经典K-means算法、WK-means算法、ZK-means算法和DCK-means算法,基于距离和权重改进的K-means算法的聚类效果更好。  相似文献   

9.
《微型机与应用》2014,(14):78-81
针对私人微博内容进行聚类研究,结合私人微博的内容和结构特点提出了基于K-means的改进聚类算法。通过添加引用和评论内容丰富了文本内容,降低了短文本矩阵向量严重稀疏性带来的聚类算法准确性降低的影响;通过甄别"微话题"内容和改进相似度的计算,找到初始化类别并进行初步计算得到合适的类别数目和初始中心点,解决了K-means算法中聚类数目K需人工指定和初始中心点选取随机性的问题。实验结果表明,改进后的算法不仅可以自适应地得到K值,较普通的K-means算法在聚类的准确率上有所提高。  相似文献   

10.
针对K-means算法的不足,提出一种优化初始点的方法,并对此方法和随机初始化法进行仿真实验比对,并用此法对K-means算法进行改进,在标准UCI数据集上进行实验比对,发现此方法相对于随机选取初始聚类中心点的K-means算法,在聚类中心确定方面,准确率较高、稳定性强、可伸缩性好。  相似文献   

11.
基于遗传算法的两相流电容层析成像图像重建算法   总被引:2,自引:0,他引:2  
该文提出了一种新的基于遗传算法的ECT图像重建方法,该方法利用流型数据作为初始值在一定的范围内搜索最优解,能以较高的精度重建两相流体的断层图像,为ECT图像重建算法的研究提供了一个新的思路。  相似文献   

12.
针对目前许多局部双目立体匹配方法在缺乏纹理区域、遮挡区域、深度不连续区域匹配精度低的问题,提出了基于多特征表示和超像素优化的立体匹配算法。通过在代价计算步骤中加入边缘信息特征,与图像局部信息代价相融合,增加了在视差计算时边缘区域的辨识度;在代价聚合步骤,基于超像素分割形成的超像素区域,利用米字骨架自适应搜索,得到聚合区域,对初始代价进行聚合;在视差精化步骤利用超像素分割信息,对匹配错误视差进行修正,提高匹配精度。基于Middlebury立体视觉数据集测试平台,与自适应权重AD-Census、FA等方法得出的视差图进行比较,该算法在深度不连续区域和缺乏纹理区域的匹配效果显著改善,提高了立体匹配精度。  相似文献   

13.
针对传统K-means算法对初始聚类中心敏感的问题,提出了基于数据样本分布情况的动态选取初始聚类中心的改进K-means算法。该算法根据数据点的距离构造最小生成树,并对最小生成树进行剪枝得到K个初始数据集合,得到初始的聚类中心。由此得到的初始聚类中心非常地接近迭代聚类算法收敛的聚类中心。理论分析与实验表明,改进的K-means算法能改善算法的聚类性能,减少聚类的迭代次数,提高效率,并能得到稳定的聚类结果,取得较高的分类准确率。  相似文献   

14.
传统k-means算法由于初始聚类中心的选择是随机的,因此会使聚类结果不稳定。针对这个问题,提出一种基于离散量改进k-means初始聚类中心选择的算法。算法首先将所有对象作为一个大类,然后不断从对象数目最多的聚类中选择离散量最大与最小的两个对象作为初始聚类中心,再根据最近距离将这个大聚类中的其他对象划分到与之最近的初始聚类中,直到聚类个数等于指定的k值。最后将这k个聚类作为初始聚类应用到k-means算法中。将提出的算法与传统k-means算法、最大最小距离聚类算法应用到多个数据集进行实验。实验结果表明,改进后的k-means算法选取的初始聚类中心唯一,聚类过程的迭代次数也减少了,聚类结果稳定且准确率较高。  相似文献   

15.
徐沁  罗斌 《计算机工程》2013,(12):204-210
针对初始点选择不当导致K—means陷入局部最小值问题,提出一种结合自适应mean-shift与最小生成树(MST)的K—means聚类算法。将数据对象投影到主成分分析(PCA)子空间,给出自适应mean.shift算法,并在PCA子空间内将数据向密度大的区域聚集,再利用MST与图连通分量算法,找出数据的类别数和类标签,据此计算原始空间的密度峰值,并将其作为K.means聚类的初始中心点。对K—means的目标函数、聚类精度和运行时间进行比较,结果表明,该算法在较短的运行时间内能给出较优的全局解。  相似文献   

16.
基于PSO的k-means算法及其在网络入侵检测中的应用   总被引:2,自引:1,他引:1  
在传统k-means算法中,初始聚类中心随机选择,聚类结果随初始聚类中心的不同而波动,从而导致聚类结果不稳定。提出的PSO-based k-means算法使用PSO算法优化生成初始聚类中心,得到的聚类结果全局最优,不会陷入局部最优解。实验结果表明,将PSO-based k-means算法用于入侵检测系统的规则挖掘处理模块,其入侵检测率明显高于传统k-means算法,而误报率则大大低于后者。显然,PSO-based k-means算法可有效提高网络入侵检测系统的性能。  相似文献   

17.
针对模糊C—均值(FCM)聚类算法聚类结果依赖于初始中心的选取,易收敛于局部极值等问题,提出了一种密度峰值聚类(DPC)算法和FCM相结合的混合聚类方法(DPC-FCM),利用密度峰值快速搜索算法可以比较准确地刻画聚类初始中心的特点,改善FCM聚类算法存在的不足,从而实现优化聚类.在UCI数据集和人工模拟数据集上的实验结果显示:融合后的新算法和传统的FCM算法相比有着更高的正确率和更快的收敛速度,证明了新算法的可行性.  相似文献   

18.
K-means初始聚类中心的选择算法   总被引:1,自引:0,他引:1  
郑丹  王潜平 《计算机应用》2012,32(8):2186-2192
K-means算法随机选取初始聚类中心,容易造成聚类准确率低且聚类结果不稳定。针对这一问题,提出一种初始聚类中心的选择算法。通过k-dist的差值(DK)图分析,确定数据点在k-dist图上的位置,选择主要密度水平曲线上k-dist值最小的点作为初始聚类中心。实验证明,改进算法选择的初始聚类中心唯一,聚类结果稳定,聚类准确率高,迭代次数少。  相似文献   

19.
为了解决TDOA定位估计中遇到的非线性最优化问题,提出了一种联合使用Chan算法和免疫算法的混合定位算法.针对TDOA方式进行最佳坐标搜索的问题,所设计的基于浮点数编码的免疫算法利用混沌方程产生初始种群、改进了免疫算子,提高了算法的收敛速度和性能.仿真结果表明,在保证种群数量的情况下,该算法性能稳定,能找到逼近全局最优点的解,相对于Chan算法精度更高,相对于遗传算法在保证收敛性能的前提下有更快的收敛速度.  相似文献   

20.
刘哲  宋余庆  王栋栋 《计算机科学》2017,44(11):297-300
图像配准是医学图像处理中的关键技术。文中提出一种自适应差分算法(Difference Algorithm,DE)和Powell算法相结合的多分辨率医学图像配准方法,其不仅可以克服Powell算法依赖初始点的缺点,还可以降低陷入局部极值的几率。首先,对源图像进行多分辨处理,获得包括源图像在内的三层图像;然后,在低分辨率图像上使用自适应DE算法进行全局变换参数的搜索,获得的变换参数作为Powell算法的初始点;最后,在高分辨率图像及源图像上使用Powell算法进行配准。与传统实验相比,该方法具有更高的精确度,能够有效避免局部收敛问题。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号