首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 171 毫秒
1.
传统的基于欧氏距离和K-means聚类算法的空值估计算法容易因为欧氏距离对量纲的敏感性和初始聚类中心对K-means聚类效果的影响产生估值误差。将层次聚类算法和K-means聚类算法有机结合起来的H-K聚类算法克服了K-means算法对初始聚类中心的敏感性,从而改善了聚类效果。与欧氏距离不同,马氏距离可以避免量纲的影响。为此提出一种改进的空值估计算法,将H-K聚类应用到空值估计算法中进行聚类,在聚类时采用马氏距离代替欧氏距离,在聚类后使用多元线性回归法计算样本中的空值。实验结果表明改进后的空值估计算法使得估计值的绝对误差率(MAER)得到降低。  相似文献   

2.
K-means聚类算法简单高效,应用广泛。针对传统K-means算法初始聚类中心点的选择随机性导致算法易陷入局部最优以及K值需要人工确定的问题,为了得到最合适的初始聚类中心,提出一种基于距离和样本权重改进的K-means算法。该聚类算法采用维度加权的欧氏距离来度量样本点之间的远近,计算出所有样本的密度和权重后,令密度最大的点作为第一个初始聚类中心,并剔除该簇内所有样本,然后依次根据上一个聚类中心和数据集中剩下样本点的权重并通过引入的参数[τi]找出下一个初始聚类中心,不断重复此过程直至数据集为空,最后自动得到[k]个初始聚类中心。在UCI数据集上进行测试,对比经典K-means算法、WK-means算法、ZK-means算法和DCK-means算法,基于距离和权重改进的K-means算法的聚类效果更好。  相似文献   

3.
K-means聚类是一种简捷高效、收敛速度快且易于实现的统计分析方法,但是传统的K-means聚类算法对初始聚类中心的选取敏感且易陷入局部最优,同时多数无监督特征选择算法容易忽视特征之间的联系。为此,提出了一种结合人工蜂群与K-means聚类的特征选择方法。首先,为了使同一簇中样本的相似度高而不同簇中样本的相似度低,基于簇内聚集度和簇间离散度构建了新的适应度函数,更好地反映各样本的特性,进而构建了蜜源被选择新的概率表达式;其次,设计了随着迭代次数的增加而数值逐渐减小的权重,提出了使蜂群搜索范围动态缩进的蜜源位置更新表达式;然后,为了弥补传统的欧氏距离在计算距离时仅考虑向量之间的累积差异而表现出的局限性,构造了同时考虑样本影响程度不同以及样本的相似性的加权欧氏距离表达式;最后,引入标准差和距离相关系数,定义了特征区分度与特征代表性,以二者之积度量特征重要性。实验结果表明,所提算法加快了人工蜂群算法的收敛速度并提高了K-means算法的聚类效果,同时也有效地提升了特征选择的分类效果。  相似文献   

4.
李四海  满自斌 《微机发展》2013,(6):98-101,105
为提高传统K-means聚类算法在医学数据聚类中的准确率和稳定性,提出了一种自适应特征权重的K-means聚类算法AFW-K-means。该算法首先通过计算属性的均方差选取初始聚类中心,然后根据当前的迭代结果,按照类内紧密、类间远离的原则调整属性在距离公式中的特征权重,以便更准确地反映数据点在欧氏空间中的真实距离,最后选取UCI上的BCW乳腺肿瘤等数据集对算法的有效性进行验证。结果表明:算法的准确率和稳定性均明显好于传统K-means算法。  相似文献   

5.
针对传统K-means聚类算法的聚类结果易随不同的初始聚类中心波动的问题,采用最大距离积法优化K-means聚类算法的初始聚类中心。传统的K-means聚类算法都假定样本的各维特征对聚类的贡献相同,影响了聚类效果和模型估计精度。为了考虑样本各维特征对聚类的不同影响,利用一种新型的特征加权K-means聚类算法逐步调整特征权值,最终有效改善了聚类效果。利用本文方法建立组合支持向量机模型,将其用于双酚A生产过程质量指标的软测量建模中,仿真结果表明该算法能够有效改进数据的分类效果并提高软测量模型的估计精度。  相似文献   

6.
考虑到行驶工况对具有多个动力源的PHEV燃油经济性的显著影响,提出一种基于K-means++工况识别的能量管理策略.以ADVISOR中30种标准行驶工况构建组合工况,在工况片段划分与工况识别周期选取的基础上,结合K-means++聚类算法得到四种聚类结果,分别对应拥堵、城市、郊区以及高速四种典型行驶工况.建立发动机油耗...  相似文献   

7.
K-means算法被广泛用于客户细分聚类应用研究,客户细分对移动通信行业具有重要的商业价值.但变量的量纲、维度、聚类数、初始聚点等参数的计算是影响K-means算法聚类应用效果的重要因子.在基于K-means算法移动通信行为特征分析系统的实现过程中,分别从特征维度选择、变量量纲统一、聚类数K值与初始聚点的确定等四个方面改进算法的上述影响参数的计算方法,并利用经验加权的方式使算法与主观经验结合.研究结果表明改进K-means算法对移动通信特征分析客户聚类有效.  相似文献   

8.
文本聚类是文本信息进行有效组织、摘要和导航的重要手段,其中基于余弦相似度的K-means算法是最重要且使用最广泛的文本聚类算法之一。针对基于余弦相似度的K-means算法改进方案设计困难,且众多优异的基于欧氏距离的K-means改进方法无法适用的问题,对余弦相似度与欧氏距离的关系进行探讨,得到标准向量前提下二者的转化公式,并在此基础上定义一种与欧氏距离意义相近关系紧密的余弦距离,使原有基于欧氏距离的K-means改进方法可通过余弦距离迁移到基于余弦相似度的K-means算法中。在此基础上理论推导出余弦K-means算法及其拓展算法的簇内中心点计算方法,并进一步改进了聚类初始簇中心的选取方案,形成新的文本聚类算法MCSKM++。通过实验验证,该算法在迭代次数减少、运行时间缩短的同时,聚类精度得到提高。  相似文献   

9.
分析了K-means聚类算法在图像检索中的缺点,提出了一种改进的K-means聚类算法的图像检索方法。它首先计算图像特征库里面的所有颜色直方图特征之间的欧氏距离;然后根据“两个对象距离越近,相似度越大”[1]这一原理,找到符合条件的特征向量作为K-means聚类的初始类心进行聚类;最后进行图像检索。实验结果表明,本算法具有较高的检索准确率。  相似文献   

10.
基于密度的改进K均值算法及实现   总被引:3,自引:1,他引:3  
傅德胜  周辰 《计算机应用》2011,31(2):432-434
传统的K均值算法的初始聚类中心从数据集中随机产生,聚类结果很不稳定。提出一种基于密度算法优化初始聚类中心的改进K-means算法,该算法选择相互距离最远的k个处于高密度区域的点作为初始聚类中心。实验证明,改进的K-means算法能够消除对初始聚类中心的依赖,聚类结果有了较大的改进。  相似文献   

11.
学习特征权值对K-均值聚类算法的优化   总被引:21,自引:0,他引:21  
K-均值(K—means)算法聚类的结果依赖于距离度量的选取.传统的K-均值算法选择的相似性度量通常是欧几里德距离的倒数,这种距离通常涉及所有的特征.在距离公式中引入一些特征权参数后,其聚类结果将依赖于这些权值,从而可以通过调整这些权值优化聚类效果.由于K-均值算法是迭代算法,很难直接确定其权值以优化聚类结果,因此提出了一种间接的学习权值算法以改进聚类结果.从数学意义上讲,这种权值学习相当于欧氏空间中对一组点进行了一个线性变换.数值实验证实了算法的有效性.  相似文献   

12.
基于信息熵的精确属性赋权K-means聚类算法   总被引:4,自引:0,他引:4  
为了进一步提高聚类的精确度,针对传统K-means算法的初始聚类中心产生方式和数据相似性判断依据,提出一种基于信息熵的精确属性赋权K-means聚类算法。首先利用熵值法对数据对象的属性赋权来修正对象间的欧氏距离,然后通过比较初聚类的赋权类别目标价值函数,选择高质量的初始聚类中心来进行更高精度和更加稳定的聚类,最后通过Matlab编程实现。实验证明该算法的聚类精确度和稳定性要明显高于传统K-means算法。  相似文献   

13.
改进的K-means聚类算法及应用   总被引:1,自引:3,他引:1  
唐波 《软件》2012,(3):100-104
传统的K-means算法需要事先确定初始聚类中心,聚类精确程度不高。针对以上问题,本文结合熵值法和动态规划算法来对传统的K-means算法进行改进,提出了基于熵值法及动态规划的改进K-means算法。熵值法用来修订算法的距离计算公式,以提高算法的聚类精确程度,动态规划算法用来确定算法的初始聚类中心。将改进算法应用于矿井监测传感器聚类中,结果显示较传统的K-means算法,改进算法效率有了明显提高,聚类精确程度有较大增强。  相似文献   

14.
王治和  王淑艳  杜辉 《计算机工程》2021,47(5):88-96,103
模糊C均值(FCM)聚类算法无法识别非凸数据,算法中基于欧式距离的相似性度量只考虑数据点之间的局部一致性特征而忽略了全局一致性特征。提出一种利用密度敏感距离度量创建相似度矩阵的FCM算法。通过近邻传播算法获取粗类数作为最佳聚类数的搜索范围上限,以解决FCM算法聚类数目需要人为预先设定和随机选定初始聚类中心造成聚类结果不稳定的问题。在此基础上,改进最大最小距离算法,得到具有代表性的样本点作为初始聚类中心,并结合轮廓系数自动确定最佳聚类数。基于UCI数据集和人工数据集的实验结果表明,相比经典FCM、K-means和CFSFDP算法,该算法不仅具有识别复杂非凸数据的能力,而且能够在保证聚类性能和稳定性的前提下加快收敛速度。  相似文献   

15.
[K]均值聚类算法是聚类领域最知名的方法之一,然而[K]均值聚类完全依赖欧式距离进行聚类,忽略了样本特征离散程度对聚类结果的影响,导致聚类边缘样本容易被误聚类,且算法易局部收敛,聚类准确率较低。针对传统[K]均值聚类算法的不足,提出了似然[K]均值聚类算法,对于每个聚类的所有样本考虑每个维度样本特征的离散程度信息,分别计算样本属于某一聚类的似然概率,能够有效提高聚类准确率。在人造数据集和基准数据集验证了似然[K]均值聚类算法的优越性,将其应用于涡扇发动机气路部件故障以及传感器故障的模式识别,验证了该算法在涡扇发动机故障诊断中的实用性和有效性。  相似文献   

16.
传统的K-means算法敏感于初始中心点的选取,并且无法事先确定准确的聚类数目[k],不利于聚类结果的稳定性。针对传统K-means算法的以上不足,提出了基于全局中心的高密度不唯一的新方法--NDK-means,该方法通过标准差确定有效密度半径,并从高密度区域中选取具有代表性的样本点作为初始聚类中心。此外算法针对最高密度点不唯一的情况进行特别分析,选取距离全局中心最远的点集作为最优的初始中心点集合。在NDK-means算法基础上结合有效性指标BWP对聚类结果进行分析,从而解决了最佳有效聚类数目无法事先确定的不足。理论研究与实验结果表明所提方法的聚类结果具有更好的稳定性和可行性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号