首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 171 毫秒
1.
针对高维数据在聚类过程中存在迭代次数多、运算耗时长等问题,提出一种改进的聚类算法,首先采用谱聚类对样本降维,再选取k个首尾相连且距离乘积最大的数据对象作为初始聚类中心,在簇中心更新过程中,选取与簇均值距离最近的数据对象作为簇中心,并将其他数据对象按最小距离划分至相应簇中,反复迭代,直至收敛。实验结果表明,新算法的Rand指数、Jaccard系数和Adjusted Rand Index等聚类指标全部优于K-means算法及其他3种改进聚类算法,在运行效率方面,新算法的聚类耗时更短、迭代次数更少。  相似文献   

2.
针对传统K-means算法对初始聚类中心敏感的问题,提出了基于数据样本分布情况的动态选取初始聚类中心的改进K-means算法。该算法根据数据点的距离构造最小生成树,并对最小生成树进行剪枝得到K个初始数据集合,得到初始的聚类中心。由此得到的初始聚类中心非常地接近迭代聚类算法收敛的聚类中心。理论分析与实验表明,改进的K-means算法能改善算法的聚类性能,减少聚类的迭代次数,提高效率,并能得到稳定的聚类结果,取得较高的分类准确率。  相似文献   

3.
传统K-means算法随机选取初始聚类中心,容易导致聚类结果不稳定,而优化初始聚类中心的K-means算法需要一定的参数选择,也会使聚类结果缺乏客观性。为此,根据样本空间分布紧密度信息,提出利用最小方差优化初始聚类中心的K-means算法。该算法运用样本空间分布信息,通过计算样本空间分布的方差得到样本紧密度信息,选择方差最小(即紧密度最高)且相距一定距离的样本作为初始聚类中心,实现优化的K-means聚类。在UCI机器学习数据库数据集和含有噪音的人工模拟数据集上的实验结果表明,该算法不仅能得到较好的聚类结果,且聚类结果稳定,对噪音具有较强的免疫性能。  相似文献   

4.
K-means算法所使用的聚类准则函数是将数据集中各个簇的误差平方值直接相加而得到的,不能有效处理簇的密度不均且大小差异较大的数据集。为此,将K-means算法的聚类准则函数定义为加权的簇内标准差之和,权重为簇内数据对象数占总数目的比例。同时,调整了传统K-means算法将数据对象重新分配给簇的方法,采用一个数据对象到中心点的加权距离代替传统K-means算法中的距离,将数据对象分配给使加权距离最小的中心点所在的簇。实验结果表明,针对模拟数据集的聚类,改进K-means算法可以明显减少大而稀的簇中数据对象被错误地分配到相邻的小而密簇的可能性,改善了聚类的质量;针对UCI数据集的聚类,改进算法使得各个簇更为紧凑,从而验证了改进K-means算法的有效性。  相似文献   

5.
针对初始聚类中心对传统K-means算法的聚类结果有较大影响的问题,提出一种依据样本点类内距离动态调整中心点类间距离的初始聚类中心选取方法,由此得到的初始聚类中心点尽可能分散且具代表性,能有效避免K-means算法陷入局部最优。通过UCI数据集上的数据对改进算法进行实验,结果表明改进的算法提高了聚类的准确性。  相似文献   

6.
针对快速K-medoids聚类算法和方差优化初始中心的K-medoids聚类算法存在需要人为给定类簇数,初始聚类中心可能位于同一类簇,或无法完全确定数据集初始类簇中心等缺陷,受密度峰值聚类算法启发,提出了两种自适应确定类簇数的K-medoids算法。算法采用样本x i的t最近邻距离之和倒数度量其局部密度ρi,并定义样本x i的新距离δi,构造样本距离相对于样本密度的决策图。局部密度较高且相距较远的样本位于决策图的右上角区域,且远离数据集的大部分样本。选择这些样本作为初始聚类中心,使得初始聚类中心位于不同类簇,并自动得到数据集类簇数。为进一步优化聚类结果,提出采用类内距离与类间距离之比作为聚类准则函数。在UCI数据集和人工模拟数据集上进行了实验测试,并对初始聚类中心、迭代次数、聚类时间、Rand指数、Jaccard系数、Adjusted Rand index和聚类准确率等经典聚类有效性评价指标进行了比较,结果表明提出的K-medoids算法能有效识别数据集的真实类簇数和合理初始类簇中心,减少聚类迭代次数,缩短聚类时间,提高聚类准确率,并对噪音数据具有很好的鲁棒性。  相似文献   

7.
K-means聚类算法简单高效,应用广泛。针对传统K-means算法初始聚类中心点的选择随机性导致算法易陷入局部最优以及K值需要人工确定的问题,为了得到最合适的初始聚类中心,提出一种基于距离和样本权重改进的K-means算法。该聚类算法采用维度加权的欧氏距离来度量样本点之间的远近,计算出所有样本的密度和权重后,令密度最大的点作为第一个初始聚类中心,并剔除该簇内所有样本,然后依次根据上一个聚类中心和数据集中剩下样本点的权重并通过引入的参数[τi]找出下一个初始聚类中心,不断重复此过程直至数据集为空,最后自动得到[k]个初始聚类中心。在UCI数据集上进行测试,对比经典K-means算法、WK-means算法、ZK-means算法和DCK-means算法,基于距离和权重改进的K-means算法的聚类效果更好。  相似文献   

8.
传统的基于欧氏距离和K-means聚类算法的空值估计算法容易因为欧氏距离对量纲的敏感性和初始聚类中心对K-means聚类效果的影响产生估值误差。将层次聚类算法和K-means聚类算法有机结合起来的H-K聚类算法克服了K-means算法对初始聚类中心的敏感性,从而改善了聚类效果。与欧氏距离不同,马氏距离可以避免量纲的影响。为此提出一种改进的空值估计算法,将H-K聚类应用到空值估计算法中进行聚类,在聚类时采用马氏距离代替欧氏距离,在聚类后使用多元线性回归法计算样本中的空值。实验结果表明改进后的空值估计算法使得估计值的绝对误差率(MAER)得到降低。  相似文献   

9.
在目前聚类方法中, k-means与势函数是最常用的算法,虽然两种算法有很多优点,但也存在自身的局限性。 k-means聚类算法:其聚类数目无法确定,需要提前进行预估,同时对初始聚类中心敏感,且容易受到异常点干扰;势函数聚类算法:其聚类区间范围有限,对多维数据进行聚类其效率低。针对以上两种算法的缺点,提出了一种基于 K-means 与势函数法的改进聚类算法。它首先采用势函数法确定聚类数目与初始中心,然后利用K-means法进行聚类,该改进算法具有势函数法“盲”特性及K-means法高效性的优点。实验对改进算法的有效性进行了验证,结果表明,改进算法在聚类精度及收敛速度方面有很大提高。  相似文献   

10.
K-means算法是经典的基于划分的聚类算法。针对K-means算法的类簇数目难以确定、对初始聚类中心敏感的缺陷,提出了改进的K-means算法,重新定义了计算样本对象密度的方法,并且运用残差分析的方法从决策图中自动获取初始聚类中心和类簇数目。实验结果表明该算法可获得更好的聚类效果。  相似文献   

11.
王治和  王淑艳  杜辉 《计算机工程》2021,47(5):88-96,103
模糊C均值(FCM)聚类算法无法识别非凸数据,算法中基于欧式距离的相似性度量只考虑数据点之间的局部一致性特征而忽略了全局一致性特征。提出一种利用密度敏感距离度量创建相似度矩阵的FCM算法。通过近邻传播算法获取粗类数作为最佳聚类数的搜索范围上限,以解决FCM算法聚类数目需要人为预先设定和随机选定初始聚类中心造成聚类结果不稳定的问题。在此基础上,改进最大最小距离算法,得到具有代表性的样本点作为初始聚类中心,并结合轮廓系数自动确定最佳聚类数。基于UCI数据集和人工数据集的实验结果表明,相比经典FCM、K-means和CFSFDP算法,该算法不仅具有识别复杂非凸数据的能力,而且能够在保证聚类性能和稳定性的前提下加快收敛速度。  相似文献   

12.
基于密度的改进K均值算法及实现   总被引:4,自引:1,他引:3  
傅德胜  周辰 《计算机应用》2011,31(2):432-434
传统的K均值算法的初始聚类中心从数据集中随机产生,聚类结果很不稳定。提出一种基于密度算法优化初始聚类中心的改进K-means算法,该算法选择相互距离最远的k个处于高密度区域的点作为初始聚类中心。实验证明,改进的K-means算法能够消除对初始聚类中心的依赖,聚类结果有了较大的改进。  相似文献   

13.
针对高分辨率天文图像中的星点聚类研究中存在的 2 个问题:①天文图像的分辨率 较高,且图像处理速度较慢;②选取何种聚类算法对天文图像中的星点进行聚类分析效果较好。 在研究中,问题 1 采用图像分块的方法提高图像的处理速度;问题 2 提出了一种改进的 K 均值聚 类算法,以解决传统的 K 均值聚类算法的聚类结果易受到 k 值和初始聚类中心随机选择影响的问 题。该算法首先在用 K 均值聚类算法对数据初步聚类的基础上确定合适的 k 值,其次用层次聚类 对数据聚类确定初始聚类中心,最后在此基础上再采用 K 均值聚类算法进行聚类。通过 MATLAB 仿真实验的结果表明,该算法的聚类结果与效率优于其他聚类算法。  相似文献   

14.
为避免初始聚类中心选取到孤立点容易导致聚类结果陷入局部最优的不足,提出一种基于密度的K-means(聚类算法)初始聚类中心选择方法。该方法首先计算每个数据对象与其它数据对象间的平均相似度,找出平均相似度高于某固定阈值的对象视作核心对象,再从核心对象中选取彼此间最不相似的作为初始聚类中心。通过自构建的新浪微博抓取工具,分别抓取不同类别的数千条数据,经过分词、预处理及权重计算后,用改进的K-means算法对其进行聚类分析,查准/全率较传统的K-means算法要稳定,聚类的平均时间也得到缩短。实验结果表明,改进后的算法在微博聚类中有更高的准确性和稳定性,有利于从大量的微博数据中发现热点舆情。  相似文献   

15.
针对传统K均值聚类算法对初始值敏感、易陷入局部极值点,导致数据分类结果不理想的问题,本文提出一种基于犹豫模糊Canopy-K均值聚类算法。首先利用Canopy算法对原始数据进行初步分类,形成多个数据重合的Canopy中心集合,即得到K均值算法的初始聚类中心。然后再利用K均值聚类算法进行聚类,得到最终的聚类结果。最后结合疫情后复工复产企业评价信息数据进行实例分析,从6个方面对复工复产的5个企业发展情况进行评估。将新提出的算法和基于层次分析的K均值聚类算法进行对比分析。结果表明,新提出的方法较大地减少了迭代次数,聚类结果更加合理、稳定和有效。  相似文献   

16.
基于密度和对象方向聚类算法的改进   总被引:10,自引:1,他引:10  
针对K-means算法所存在的问题进行了深入的研究,提出了基于密度和聚类对象方向的改进算法(KADD算法)。该算法采取聚类对象分布密度方法来确定初始聚类中心,然后根据对象的聚类方向来发现任意形状的簇。理论分析与实验结果表明,改进算法在不改变时间、空间复杂度的情况下能取得更好的聚类结果。  相似文献   

17.
聚类分析是数据挖掘的重要任务之一,而具有易早熟与收敛速度慢等缺陷的传统生物地理优化算法(Biogeography-Based Optimization, BBO)很难满足具有NP(Non-deterministic Polynomial)性质的复杂聚类问题需求,于是提出了一种基于混合生物地理学优化的聚类算法(Mixed Biogeography-Based Optimization, MBBO),该算法构造了一个基于梯度下降局部最优贪心搜索的新迁移算子,以聚类目标函数值作为个体适应度进行数据集内隐簇结构寻优。通过在4个标准数据集(Iris、Wine、Glass与Diabetes)的实验,结果表明MBBO算法相对于传统的优化算法具有更好的优化能力和收敛度,能发现更高质量的簇结构模式。  相似文献   

18.
针对密度峰值聚类算法受人为干预影响较大和参数敏感的问题,即不正确的截断距离dc会导致错误的初始聚类中心,而且在某些情况下,即使设置了适当的dc值,仍然难以从决策图中人为选择初始聚类中心。为克服这些缺陷,提出一种新的基于密度峰值的聚类算法。该算法首先根据K近邻的思想来确定数据点的局部密度,然后提出一种新的自适应聚合策略,即首先通过算法给出阈值判断初始类簇中心,然后依据离初始类簇中心最近分配剩余点,最后通过类簇间密度可达来合并相似类簇。在实验中,该算法在合成和实际数据集中的表现比DPC、DBSCAN、KNNDPC和K-means算法要好,能有效提高聚类准确率和质量。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号