首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 578 毫秒
1.
基于初始聚类中心优化和维间加权的改进K-means算法   总被引:1,自引:0,他引:1  
针对K-means算法易受随机选择的初始聚类中心的影响和划分准确率不高的缺点,给出了一种改进的K-means算法。首先对初始聚类中心的选择过程进行了改进,然后对各样本点间差异最大的维进行加权处理。在Iris数据集上对原始算法和改进后的K-means算法的聚类结果进行对比分析。实验证明:改进后的算法稳定,且聚类的准确率达到了92%。  相似文献   

2.
基于特征关联度的K-means初始聚类中心优化算法   总被引:3,自引:0,他引:3  
针对K-means算法在进行文本聚类时对初始聚类中心敏感的问题,提出基于特征关联度的初始聚类中心选择算法.由于在原始文本集中不易找到类别代表性都较强的多个独立文本作为初始聚类中心,因此先从降维后的文本特征集合中,选取关联度大的特征构造新的文本集,再利用“或运算”合并其中的相似文本得到初始聚类中心候选集,最后通过计算文本密度并结合“最小最大”原则从候选集中选取最优的初始中心.在5个数据集上进行对比实验,该算法在多数聚类结果中的F-score值都高于90%,熵值低于0.5,明显优于Mahout提供的K-means算法,表明该算法可选出高质量的初始聚类中心,得到更好的聚类结果.  相似文献   

3.
针对传统K-means 算法初始中心选取的随机性导致算法聚类效果不佳的问题, 提出一种基于网格密度距离的K-means 算法, 即GDD-K-means。该算法先把数据点放入网格空间内, 以网格为单元进行数据处理, 遍历网格得到网格密度, 根据密度阈值筛选出高密度网格并进行降序排序; 再在高密度网格中引入K-means++思想, 选取k 个距离较远的网格点; 最后进行K-means 算法聚类的k 个初始中心点将确定在上述网格点中。仿真实验结果表明, GDD-K-means 算法减少了聚类中心选取的随机性, 改善了聚类的效果。  相似文献   

4.
随着数据的爆炸式增长,聚类研究作为大数据的核心问题之一,正面临计算复杂度高和计算能力不足等诸多问题。提出了一种基于Hadoop的分布式改进K-means算法,该算法通过引入Canopy算法初始化K-means算法的聚类中心,克服传统K-means算法因初始中心点的不确定性,易陷入局部最优解的问题。本算法在Canopy(罩盖)中完成K-means聚类,并在Canopy间完成簇的合并,聚类效果稳定,迭代次数少。同时,结合MapReduce分布式计算模型,给出改进后算法的并行化设计方法和策略,进一步通过改进相似度度量方法,将该方法用于文本聚类中。实验结果证明该算法具有良好的准确率和扩展性。  相似文献   

5.
为解决传统K-means算法初始质心的随机选取以及聚类过程中每个数据样本到聚类中心距离的重复计算问题,提出了一种高效的基于初始聚类中心优化的K-means算法,采用最小方差优化初始质心,通过存储每次迭代中所有数据点的簇标志和到最近聚类中心的距离并用于下一次迭代,避免了重复计算数据点到每个中心的距离。在UCI数据库中五个不同的数据集上进行了测试,对各个算法在聚类准则函数,运行时间以及迭代次数上进行实验结果比较,表明在不降低聚类性能的前提下,减少了迭代次数,缩短了聚类时间,证明了改进算法的有效性和高效性。  相似文献   

6.
针对传统近邻传播聚类算法不能进行限定类簇数目的聚类缺陷,提出一种三阶段的改进聚类方法。该方法通过近邻传播聚类从数据集中获得中心代表点集合,利用K-means算法对中心代表点集合进行指定类簇数目的聚类进而获得初始训练集,结合改进的K最近邻算法实现数据的聚类分析。采用人工仿真数据及UCI数据集进行对比实验,实验结果分析表明,与近邻传播聚类算法和传统限定类簇数目的聚类算法相比,新聚类算法具有更好的聚类效果。  相似文献   

7.
文本聚类中不同文本表示方法获得的聚类效果不尽相同。引入潜在语义分析模型对文本进行表示,重新给出了针对潜在语义分析的特征权重计算方法,并提出了截断奇异值分解中K值的选取方法,达到了"词-文本"空间的降维去噪目的。鉴于K-means算法中初始聚类中心选取具有一定的随机性,应用相似性初始聚类中心选取方法确定了K-means的初始聚类中心,避免了随机选取聚类中心对聚类效果的影响。基于改进的潜在语义分析方法极大的降低了文本空间的维度,经实验证明改进后的方法在聚类问题中聚类效果显著。  相似文献   

8.
传统的K-means算法是一种常用的聚类算法,但它对于初始聚类中心敏感,容易受到"噪声"和孤立点的影响,由此提出了一种基于网格的二次K-means聚类算法.此算法先将空间划分为多个大小相等的网格,然后根据给定的密度阈值来计算出密集网格,对密集网格中的点进行初次聚类,将初次聚类结果的均值点作为第二次聚类的初始均值点,从而消除了"噪声"和孤立点的影响,并且保证了信息的完整,实验证明此算法是有效的.  相似文献   

9.
针对模糊C-均值(FCM)算法对初始中心敏感的缺点,通过选取离均值最远的点作为初始聚类中心的方法,提出了一种基于均值距离的初始中心选取算法,同时由于远离各类聚类中心的野值样本会影响迭代结果,通过改变隶属度函数来克服这种缺陷.然后选取有代表性的样本作为实验数据集进行实验,通过实验得出,与传统的FCM算法比较,改进的FCM...  相似文献   

10.
在各种聚类算法中,基于目标函数的K-均值聚类算法应用最为广泛,然而,K-均值算法对初始聚类中心特别敏感,聚类结果易收敛于局部最优。为此,提出基于加权处罚的K-均值优化算法。每次迭代过程中,根据簇的平均误差的大小为簇分配权值,构造加权准则函数,把样本分给加权距离最小的簇中。限制簇集中出现平均误差较大的簇,提高聚类准确率。实验结果表明,该算法与K-均值算法、优化初始聚类中心的K-均值算法相比,在含有噪音的数据集中,表现出更好的抗噪性能,聚类效果更好。  相似文献   

11.
K-均值算法对初始聚类中心敏感,聚类结果随不同初始聚类中心波动。针对以上问题,提出一种基于最小方差的自适应K-均值初始化方法,使初始聚类中心分布在K个不同样本密集区域,聚类结果收敛到全局最优。首先,根据样本空间分布信息,计算样本方差得到样本紧密度信息,并基于样本紧密度选出满足条件的候选初始聚类中心;然后,对候选初始聚类中心进行处理,筛选出K个初始聚类中心。实验证明,算法具有较高的聚类性能,对噪声和孤立点具有较好的鲁棒性,且适合对大规模数据集聚类。  相似文献   

12.
针对学术期刊运行与管理中对审稿专家缺乏准确评价依据的问题,结合评价分析的需求和K-means聚类算法特点,提出了一种基于改进的K-means聚类算法的审稿专家分类评价方法,该方法通过研究初始聚类中心的选择和评价标准的量化、聚类维度的选择和分类值大小的合理选择等问题,较为准确地解决了审稿专家的分类问题。经实例分析验证,该方法得到的结果是合理的,并具有很强的可操作性,为建立科学的审稿专家库和准确高质量地送审提供了科学的依据。  相似文献   

13.
针对图像分割中K均值算法全局搜索能力差、初始聚类中心选择敏感的问题,提出了一种将自适应人类优化算法与K均值算法相结合的聚类算法.该算法利用自适应人类学习优化算法初始化聚类中心,提高K均值算法的稳健性.结果表明,该算法聚类得到的标准差相比传统K均值算法和基于粒子群K均值(PSO-Kmeans)算法分别小两个数量级和一个数量级,同时图像分割得到的PSNR值均较高,具有算法收敛速度更快,聚类质量更好,图像分割效果更好,适应性更强的优点.  相似文献   

14.
针对Internet网络延迟监测点的放置问题,将其转化为网络拓扑图聚类问题。根据网络层次结构特性,使用层次聚类法对网络节点进行聚类。利用网络节点的差异性,提出使用递归去除1度异常节点算法,在保证网络拓扑结构基本不变的前提下减少异常节点对聚类结果的影响。提出在聚类结果的每个类中选取度数最大的节点作为对应的类中心,监测点被放置在类中心位置上。实验结果表明,层次聚类法中最长距离法更适合对网络节点进行聚类,递归去除1度异常节点算法能够进一步提高聚类效果,有效地解决了监测点的放置问题。  相似文献   

15.
针对解决网格节点资源聚类问题,提出了基于小生镜遗传算法的模糊聚类分析方法。该算法把小生镜遗传算法搜索的随机性和并行性引入模糊聚类中,对模糊聚类中的聚类中心的个数和聚类中心的选取进行指导,解决了模糊C均值聚类对初始聚类中心的敏感性问题、实验证明该方法能具有全局收敛性,克服了FCM算法可能陷入局部极小值,并有效地对网格节点资源整合归类,从而改善网格节点资源发现的性能。  相似文献   

16.
针对无线传感器网络节点能源有限,容易出现能量负载不均衡的问题,提出了一种基于萤火虫算法优化模糊C均值(FCM)的无线传感器网络(WSN)路由算法(FFACM),优化了分簇路由算法中的分簇阶段和簇间路由建立阶段。在分簇阶段,使用萤火虫算法计算初始聚类中心,避免模糊C均值算法因初始聚类中心而陷入局部最优的问题。在选择簇首节点上,建立关于剩余能量和距离的适应度函数,选取适应度值最大的节点作为簇首节点并动态更新。通过计算节点间的链路代价并根据剩余能量和到sink节点的距离建立代价函数,选择代价函数值最小的节点建立簇间多跳路由,使得簇首节点的负载降到最低。从仿真实验结果可知,相比于其他无线传感器网络的路由算法,FFACM算法能有效均衡网络负载,降低节点能耗,从而延长网络的使用周期。  相似文献   

17.
大规模人脸聚类不仅要求高效的人脸特征,还要求聚类算法在保持高准确率的同时耗时短.本文通过构建卷积神经网络高效提取人脸特征,并采用经典K-means算法和现阶段新颖的CFSFDP(Clustering by Fast Search and Find of Density Peaks)算法进行大规模人脸聚类.实验在聚类数目递增的情况下进行,并通过随机指标(Rand Index,RI)、信息熵、F1-measure和混淆矩阵可视化来综合评估聚类的质量.结果表明,在大规模人脸聚类的情况下,卷积神经网络特征融合K-means的人脸聚类算法速度和准确率均优于CFSFDP算法.这一结论对大规模人脸聚类的实际应用具有重要的指导意义.  相似文献   

18.
电信业务每天都产生大量数据,如何从这些数据中提取有用的信息是当今数据挖掘的难题之一。针对实际应用中存在聚类簇数难以确定、单趟聚类算法有时不能收敛到用户指定的簇数等问题,提出了可调多趟聚类挖掘方法。第1趟通过引入一个较大的K值,采用K-means聚类算法,获得K个簇,为第2趟聚类的簇数及簇中心初始值选择提供参考。经电信现网业务数据实验,本文的方法既改善了原聚类方法的局部收敛性,又能较好地适应用户的不同数据分析需求,该方法可用于不确定簇数的大数据分析中。  相似文献   

19.
为了解决网络延迟检测点的有效放置问题,根据网络节点之间的网络延迟,使用系统聚类法对网络节点进行聚类,并使用递归去除1度异常节点算法提高聚类效果.提出动态距离和最小算法,在聚类结果的类中选取对应的类中心,检测点放置在类中心上.仿真结果表明,系统聚类法中类平均法更适合对网络节点进行聚类,递归去除1度异常节点后能表现出更好的聚类效果,通过动态距离和最小算法能找到放置检测点的最佳位置.使用系统聚类法中的类平均法、递归去除1度异常节点算法、动态距离和最小算法,能有效地解决网络检测点的放置问题.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号