首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 174 毫秒
1.
杜佳颖 《计算机应用研究》2020,37(2):434-436,497
针对K-means聚类算法存在的不足,提出了改进K-means来提高算法的性能,利用简化后的轮廓系数作为评估标准衡量K-means算法中◢k◣值,采用K-means++完成K-means算法初始中心点的选择。设置好◢k◣值以及初始中心点后使用形态学相似距离作为相似度测量标准将数据点归属到距离最近的中心点形成的簇中,最后计算平均轮廓系数确定合适的◢k◣值,并在Spark上实现算法并行化。通过对四个标准数据集在准确性、运行时间和加速比三个方面的实验表明,改进后的K-means算法相对于传统的K-means算法和SKDK-means算法不仅提高了聚类划分质量,缩短了计算时间,而且在多节点的集群环境下表现出良好的并行性能。实验结果分析出提出的改进算法能有效提高算法执行效率和并行计算能力。  相似文献   

2.
针对K-means聚类算法存在的初始中心点选择及异常点、离群点极易影响聚类结果等待改进问题,提出了一个基于Tukey规则与优化初始中心点选择的K-means改进算法。该算法利用Tukey规则构造核心与非核心子集,将聚类过程划分成2个阶段。同时,在核心子集上执行中心点逐个递增优化选择策略,选出初始中心点。在来自UCI的20个数据集上聚类结果表明,本文提出的算法优于K-means++聚类算法,有效地提升了聚类性能。  相似文献   

3.
针对传统K-means算法在处理海量数据时,存在计算复杂度高和计算能力不足等问题,提出了SKDk-means (Spark based kd-tree K-means)并行聚类算法.该算法通过引入kd-tree改善初始中心点的选择,克服传统K-means算法因初始点的不确定性,易陷入局部最优解的问题,同时利用kd-tree的最近邻搜索减少K-means在迭代中的距离计算,加快聚类速度,并在Spark平台上实现了该算法的并行化,使其适用于海量数据聚类,最后通过实验验证了算法具有良好的准确率和并行计算性能.  相似文献   

4.
《微型机与应用》2014,(14):78-81
针对私人微博内容进行聚类研究,结合私人微博的内容和结构特点提出了基于K-means的改进聚类算法。通过添加引用和评论内容丰富了文本内容,降低了短文本矩阵向量严重稀疏性带来的聚类算法准确性降低的影响;通过甄别"微话题"内容和改进相似度的计算,找到初始化类别并进行初步计算得到合适的类别数目和初始中心点,解决了K-means算法中聚类数目K需人工指定和初始中心点选取随机性的问题。实验结果表明,改进后的算法不仅可以自适应地得到K值,较普通的K-means算法在聚类的准确率上有所提高。  相似文献   

5.
基于优化初始中心点的K-means文本聚类算法   总被引:1,自引:0,他引:1  
K-means算法终止于一个局部最优状态,所以初始中心点的选择会在很大程度上影响其聚类效果.该文针对K-means算法所存在的问题,提出了一种优化初始中心点的算法.实验表明可以有效减少迭代次数并提高聚类精度,最终获得较好的聚类效果.  相似文献   

6.
为有效解决互联网医疗时代海量心电数据的处理问题,在Spark云平台下,提出一种双层并行化的改进遗传K-means聚类算法,用于心电数据挖掘。克服传统K-means算法对初始中心点敏感以及串行聚类算法效率低下等问题,结合Mallat小波变换预处理技术,较好实现海量心电数据中R波的提取。通过对MIT-BIH数据库的读取和分析,其结果表明,该算法比传统遗传K-means算法具有更高的聚类准确度,与串行聚类算法和Map Reduce计算模型相比,运行效率也有了较大提升。  相似文献   

7.
针对初始聚类中心对传统K-means算法的聚类结果有较大影响的问题,提出一种依据样本点类内距离动态调整中心点类间距离的初始聚类中心选取方法,由此得到的初始聚类中心点尽可能分散且具代表性,能有效避免K-means算法陷入局部最优。通过UCI数据集上的数据对改进算法进行实验,结果表明改进的算法提高了聚类的准确性。  相似文献   

8.
针对初始聚类中心不合理的选择会导致K-means算法的聚类结果局部最优,且降低聚类算法收敛速度的问题,提出一种基于近邻传播算法和最大最小距离算法联合计算初始聚类中心的算法(APMMD).该算法通过近邻传播算法从整个样本集中获得Kap(Kap>k)个具有代表性的候选中心点,再利用最大最小距离算法从Kap个候选中心点中选择k个初始聚类中心.在多个UCI数据集上实验,结果表明APMMD算法获得初始聚类中心应用于K-means聚类,迭代次数明显降低,聚类结果稳定且具有较高准确率.  相似文献   

9.
K-means算法因其原理简单和聚类效果尚佳的优点在机器学习和数据挖掘领域得到广泛使用,但其仍存在一些缺点:K-means算法需指定分类类别数K;K-means算法对于初始聚类中心的选取策略是随机选择,这可能会影响到最终聚类结果的准确率及计算速度。以上缺点都限制了K-means算法的计算效率的进一步提升。论文针对以上问题,提出了一种基于Flink并行化的K-means优化算法,该算法在传统K-means算法的基础上引入Canopy算法来完成初始聚类,得到类别数K,然后采用最大距离算法来计算初始聚类中心,并利用Flink框架的并行计算能力,对多个数据集进行聚类实验。实验结果表明,论文算法可以减少聚类过程迭代次数,并且在聚类准确率方面也有一定的提高,在大规模数据集环境下同样具有良好的计算效率。  相似文献   

10.
迄今为止,在数据挖掘领域,人们已经实现了多种聚类算法,其中使用最广泛的当属K-means聚类算法.然而,在数据挖掘中,K-means算法面临的一个主要问题就是初始中心点选择问题.本文提出了一种结合关系矩阵和度中心性(Degree Centrality)的分析方法,从而确定K-means算法初始的k个中心点.与传统方法相比,本文算法可得到更加优质的聚类结果.实验结果表明该算法的有效性和可行性.  相似文献   

11.
基于密度的改进K均值算法及实现   总被引:3,自引:1,他引:3  
傅德胜  周辰 《计算机应用》2011,31(2):432-434
传统的K均值算法的初始聚类中心从数据集中随机产生,聚类结果很不稳定。提出一种基于密度算法优化初始聚类中心的改进K-means算法,该算法选择相互距离最远的k个处于高密度区域的点作为初始聚类中心。实验证明,改进的K-means算法能够消除对初始聚类中心的依赖,聚类结果有了较大的改进。  相似文献   

12.
K-means聚类算法简单高效,应用广泛。针对传统K-means算法初始聚类中心点的选择随机性导致算法易陷入局部最优以及K值需要人工确定的问题,为了得到最合适的初始聚类中心,提出一种基于距离和样本权重改进的K-means算法。该聚类算法采用维度加权的欧氏距离来度量样本点之间的远近,计算出所有样本的密度和权重后,令密度最大的点作为第一个初始聚类中心,并剔除该簇内所有样本,然后依次根据上一个聚类中心和数据集中剩下样本点的权重并通过引入的参数[τi]找出下一个初始聚类中心,不断重复此过程直至数据集为空,最后自动得到[k]个初始聚类中心。在UCI数据集上进行测试,对比经典K-means算法、WK-means算法、ZK-means算法和DCK-means算法,基于距离和权重改进的K-means算法的聚类效果更好。  相似文献   

13.
电磁无损检测技术是无损检测领域的一个研究重点,针对电磁无损检测技术中的超声波处理,提出了一种基于FPFA的参数优化的RBF神经网络;首先,通过FPGA编程实现对电磁超声波信号的采集,设计了放大电路将原始的电磁超声波进行放大处理已满足RBF神经网络的需求;提出一种采用K-means聚类算法来计算RBF中径向基函数的中心和宽度的参数优化RBF算法,K-means聚类算法的初始聚类中心难以确定会导致RBF算法的参数无法优化,提出KL散度,采用数据密度分析法来计算K-means算法的聚类中心;试验表明,改进后的K-means算法的聚类误差的数量级为10~(-12),传统K-means算法的聚类误差为10~(-13),改进后的K-means算法的聚类结果更准;参数优化后的RBF神经神级网络对具有1.02 mm缺陷长度的发动机涡轮叶片的缺陷长度预测结果为0.9~1.1 mm,传统的RBF神经网络的预测结果为0.7~1.2 mm,参数优化后的RBF神经网络的预测结果更准确。  相似文献   

14.
针对高分辨率天文图像中的星点聚类研究中存在的 2 个问题:①天文图像的分辨率 较高,且图像处理速度较慢;②选取何种聚类算法对天文图像中的星点进行聚类分析效果较好。 在研究中,问题 1 采用图像分块的方法提高图像的处理速度;问题 2 提出了一种改进的 K 均值聚 类算法,以解决传统的 K 均值聚类算法的聚类结果易受到 k 值和初始聚类中心随机选择影响的问 题。该算法首先在用 K 均值聚类算法对数据初步聚类的基础上确定合适的 k 值,其次用层次聚类 对数据聚类确定初始聚类中心,最后在此基础上再采用 K 均值聚类算法进行聚类。通过 MATLAB 仿真实验的结果表明,该算法的聚类结果与效率优于其他聚类算法。  相似文献   

15.
传统K-means算法除了对初始聚类中心的选择非常敏感,易收敛到局部最优解外,还存在着K值难以确定的问题,不合适的K值往往会得到较差的聚类结果。而K值问题也是聚类分析中的一个重要的研究方向,在粒子群聚类算法的基础上,结合K-means算法,提出了自适应K值的粒子群聚类算法。当算法收敛时,可通过比较不同K值时全局最优适应度值之间的关系来决定K值的增大与减小。实验表明改进的算法可以有效指导K值的选取,并且具有较好的聚类效果。  相似文献   

16.
在目前聚类方法中, k-means与势函数是最常用的算法,虽然两种算法有很多优点,但也存在自身的局限性。 k-means聚类算法:其聚类数目无法确定,需要提前进行预估,同时对初始聚类中心敏感,且容易受到异常点干扰;势函数聚类算法:其聚类区间范围有限,对多维数据进行聚类其效率低。针对以上两种算法的缺点,提出了一种基于 K-means 与势函数法的改进聚类算法。它首先采用势函数法确定聚类数目与初始中心,然后利用K-means法进行聚类,该改进算法具有势函数法“盲”特性及K-means法高效性的优点。实验对改进算法的有效性进行了验证,结果表明,改进算法在聚类精度及收敛速度方面有很大提高。  相似文献   

17.
王娟 《微型机与应用》2011,30(20):71-73,76
传统K-means算法对初始聚类中心的选取和样本的输入顺序非常敏感,容易陷入局部最优。针对上述问题,提出了一种基于遗传算法的K-means聚类算法GKA,将K-means算法的局部寻优能力与遗传算法的全局寻优能力相结合,通过多次选择、交叉、变异的遗传操作,最终得到最优的聚类数和初始质心集,克服了传统K-means算法的局部性和对初始聚类中心的敏感性。  相似文献   

18.
传统的社区发现算法往往时间复杂度较高,K-means算法作为聚类算法且时间复杂度较低可为社区发现提供新思路,但K-means算法的原始应用场景为数值环境与社交网络不符,且自身存在初始中心节点选取敏感等原有问题,针对上述问题本文在下面三个方面进行了优化:第一,结合最短路径及共同邻居信息重新定义距离度量;第二,结合了节点的度和节点距离因素进行初始中心节点选取;第三,在K-means算法结果的基础上进行基于贪心策略以模块度为目标的层次聚类优化。通过实验表明:改进的K-means算法能够很好地应用于社区发现,得到的社区发现结果有较高质量。  相似文献   

19.
K-means初始聚类中心的选择算法   总被引:1,自引:0,他引:1  
郑丹  王潜平 《计算机应用》2012,32(8):2186-2192
K-means算法随机选取初始聚类中心,容易造成聚类准确率低且聚类结果不稳定。针对这一问题,提出一种初始聚类中心的选择算法。通过k-dist的差值(DK)图分析,确定数据点在k-dist图上的位置,选择主要密度水平曲线上k-dist值最小的点作为初始聚类中心。实验证明,改进算法选择的初始聚类中心唯一,聚类结果稳定,聚类准确率高,迭代次数少。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号