首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 234 毫秒
1.
判断聚类结果中是否存在误分类的簇,即簇中包含的样本不属于同一类。若存在,则在已有聚类结果上使用加权方案,处罚误分类的簇,输出新的聚类结果。若不存在,则输出已有聚类结果。限制簇集中存在误分类的簇,消除初始聚类中心对K-均值算法的影响,提高聚类准确率。实验结果表明,该算法与K-均值算法、优化初始聚类中心的K-均值算法相比,在坏的初始化条件下,表现出更好的鲁棒性;在含有噪音的数据集中,表现出更好的抗噪性能;聚类效果更好。  相似文献   

2.
针对全局K-均值算法时间复杂度大的问题,提出一种增量选择初始聚类中心的新方法。选择数据集中周围分布最密集的样本作为第一个初始聚类中心,选择最小化目标函数贡献大,并且和已有聚类中心距离远的样本作为下一个初始聚类中心。改进算法减少了增量选取初始聚类中心时的计算量,降低了时间复杂度。实验证明,改进算法与全局K-均值算法、快速全局K-均值算法相比,在不影响聚类效果的基础上,减少了聚类时间,与优化初始聚类中心的算法相比,聚类效果更优。  相似文献   

3.
K-均值算法对初始聚类中心敏感,聚类结果随不同初始聚类中心波动。针对以上问题,提出一种基于最小方差的自适应K-均值初始化方法,使初始聚类中心分布在K个不同样本密集区域,聚类结果收敛到全局最优。首先,根据样本空间分布信息,计算样本方差得到样本紧密度信息,并基于样本紧密度选出满足条件的候选初始聚类中心;然后,对候选初始聚类中心进行处理,筛选出K个初始聚类中心。实验证明,算法具有较高的聚类性能,对噪声和孤立点具有较好的鲁棒性,且适合对大规模数据集聚类。  相似文献   

4.
针对协同过滤推荐系统存在的数据稀疏性和扩展性差问题,提出了初始聚类中心优化的K-均值项目聚类推荐算法。该算法首先采用SlopeOne方法对评分矩阵预测填充来缓解数据稀疏性,然后采用初始聚类中心优化的K-均值算法对项目进行聚类,将相似度高的项目聚到同一个类中,最后根据目标项目所在的聚类搜索其最近邻并产生推荐。实验结果表明,该算法有效改善了数据的稀疏性和扩展性,提高了推荐质量。  相似文献   

5.
基于特征加权理论的数据聚类算法   总被引:1,自引:0,他引:1  
针对数据挖掘过程中数据聚类操作的初始聚类数目和初始聚类中心确定困难的问题,提出了一种软子空间结合竞争合并机制的模糊加权聚类算法.通过对软子空间聚类算法的目标函数进行改写,并结合数据簇势的大小对各数据簇进行竞争与合并操作,实现了对数据的聚类处理.结果表明,该算法能够准确地对数据样本进行聚类,并且聚类结果与初始数据簇数目和初始聚类中心无关,能够满足对高维数据聚类处理的需要,具有较好的实际应用价值.  相似文献   

6.
海面目标监视雷达能够实现目标回波的自动采集、自动跟踪,已在多个工程项目中推广应用.鉴于在海面目标监视雷达对目标侦测过程中,会出现多个反射点、多个回波的目标簇,提出将优化的模糊C-均值(FCM)聚类算法用于目标回波信息处理.该算法基于形状参数的密度法选择初始聚类中心,采用一种基于核依赖的距离函数.实验结果表明,与传统FCM算法相比,优化FCM算法在海面监视雷达对目标信息处理的运用中可以得到更好的聚类效果.  相似文献   

7.
K-均值算法因其简单和高效性, 在文本聚类中占有重要地位. 针对传统的K-均值算法对初始点敏感、易陷入局部最优的问题, 结合遗传算法已经成为一种趋势. 在充分发挥K-均值算法的高效性的同时, 该文利用遗传算法的全局自适应优化特点克服了对初始点敏感的问题. 同时, 以余弦度量评价对象间的相似性并以此构造新的遗传算法适应度函数、收敛准则以及遗传算法种群更新方式, 提高了K-均值和遗传算法这种结合方式的聚类精度, 并增强了该结合算法的稳定性.  相似文献   

8.
针对无线传感网(WSN)数据融合中基于模糊逻辑的加权融合算法融合结果误差偏大的问题,提出了一种基于K-均值聚类的改进的模糊逻辑加权融合算法.首先运用K-均值聚类的思想分析收集到的原始误差数据,去除算法认为不可靠的数据,用余下的有效数据对修正模糊逻辑算法求得加权因子,并与节点测量数据加权平均求值,得到最终融合值.实验证明:通过与其它同类的加权融合算法比较,该改进算法的融合精度更高,效果更好.  相似文献   

9.
针对传统近邻传播聚类算法不能进行限定类簇数目的聚类缺陷,提出一种三阶段的改进聚类方法。该方法通过近邻传播聚类从数据集中获得中心代表点集合,利用K-means算法对中心代表点集合进行指定类簇数目的聚类进而获得初始训练集,结合改进的K最近邻算法实现数据的聚类分析。采用人工仿真数据及UCI数据集进行对比实验,实验结果分析表明,与近邻传播聚类算法和传统限定类簇数目的聚类算法相比,新聚类算法具有更好的聚类效果。  相似文献   

10.
该文提出了一种改进的聚类算法来实现基于颜色的图像检索,并给出了基于分块主色的检索方法描述图像颜色特征。算法有效地解决了K-均值聚类算法初始聚类中心的选取问题。实验结果表明该算法与其他算法相比具有较好的准确性和检索效率,检索的效果和速度都有了提高。  相似文献   

11.
针对K均值聚类算法对类簇数目预先不可知及无法处理非凸形分布数据集的缺陷, 提出基于进化思想的聚类算法及其类簇融合算法, 该算法将K均值聚类算法嵌入进化聚类算法框架中, 通过调整距离倍参, 将数据逐渐划分, 在此过程中自动确定类簇数目, 提出基于最近距离的中间圆密度簇融合算法和基于代表类的中间圆密度簇融合算法, 将相似度大的类簇进行融合, 使得k值逐渐趋向真实值. 实验表明, 该方法具有良好的实用性.  相似文献   

12.
Anomaly detection and recognition are of prime importance in process industries.Faults are usually rare,and, therefore,predicting them is difficult.In this paper,a new greedy initialization method for the K-means algorithm is proposed to improve traditional K-means clustering techniques.The new initialization method tries to choose suitable initial points,which are well separated and have the potential to form high-quality clusters.Based on the clustering result of historical disqualification product data in manufacturing process which generated by the Improved-K-means algorithm,a prediction model which is used to detect and recognize the abnormal trend of the quality problems is constructed.This simple and robust alarm-system architecture for predicting incoming faults realizes the transition of quality problems from diagnosis afterward to prevention beforehand indeed.In the end,the alarm model was applied for prediction and avoidance of gear-wheel assembly faults at a gear-plant.  相似文献   

13.
Anomaly detection and recognition are of prime importance in process industries. Faults are usually rare, and, therefore, predicting them is difficult. In this paper, a new greedy initialization method for the K-means algorithm is proposed to improve traditional K-means clustering techniques. The new initialization method tries to choose suitable initial points, which are well separated and have the potential to form high-quality clusters. Based on the clustering result of historical disqualification product data in manufacturing process which generated by the Improved-K-means algorithm, a prediction model which is used to detect and recognize the abnormal trend of the quality problems is constructed. This simple and robust alarm-system architecture for predicting incoming faults realizes the transition of quality problems from diagnosis afterward to prevention beforehand indeed. In the end, the alarm model was applied for prediction and avoidance of gear-wheel assembly faults at a gear-plant.  相似文献   

14.
为满足海量数据处理要求,提出了一种基于网格的K-means快速聚类算法(SPGK).设计基于网格质心的聚类簇个数选取算法,对数据进行网格划分得到每个网格的质心,将质心作为K-means聚类的样本点,从而减少K-means的欧氏距离计算次数.该算法基于Spark平台实现并行计算,进一步地提高了算法的运行效率.SPGK不但能够获得良好的聚类效果,而且缩减了欧氏距离计算次数,适用于海量数据的快速聚类.在千万级数据集上的实验结果表明,SPGK的性能明显优于现有的K-means++和基于K均值聚类的递归划分方法.  相似文献   

15.
K-均值(K-means)聚类算法是学术与工业领域的经典算法。然而,它却具有两个明显缺陷:1) 需要预先知道聚类的数量;2) 对算法的随机初始化非常敏感。为了解决这两个问题,首先归纳了K-均值算法的基本步骤,并对聚类有效性进行了分析;然后以数据样本点的欧几里德距离为基础,定义了以聚类数量k为自变量的类间质心距离之和以及类内距离之和,由此构造了聚类有效性评价函数;最后根据经验规则,在聚类数量的可能范围内通过求解聚类有效性评价函数的最小值以确定数据集的最优聚类数量。对UCI的3个数据集Iris、Seeds和Wine的仿真结果说明,提出的聚类有效性评价函数不仅能够准确地反映数据的真实聚类结构,还能有效地抑制算法对随机初始化的敏感性,通过对K-均值算法的多次运行,其结果也验证了聚类有效性评价函数的鲁棒性。  相似文献   

16.
传统K-means聚类算法的性能依赖于初始聚类中心的选择。本文将复杂网络节点的属性值作为节点的度、聚集度与聚集系数的加权值,通过计算所有节点的加权综合聚集特征值,选取综合聚集特征值高,并且彼此之间无高聚集性特征的个节点作为聚类的初始聚类中心,然后进行聚类迭代过程。实验结果表明,新算法对初始聚类中心的选取更迅速有效,避免了传统K-means算法初始聚类节点选取的敏感性,进而提高K-means算法的聚类质量。  相似文献   

17.
数据挖掘技术中聚类算法的改进研究   总被引:1,自引:0,他引:1  
针对K-means算法所存在的问题进行了深入的研究,提出了基于密度和聚类对象方向的改进算法(KADD算法).该算法采取聚类对象分布密度方法来确定初始聚类中心,然后根据对象的聚类方向来发现任意形状的簇.理论分析与实验结果表明,改进算法在不改变时间、空间复杂度的情况下能取得更好的聚类结果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号