首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 171 毫秒
1.
最小化误差平方和k-means初始聚类中心优化方法   总被引:1,自引:0,他引:1       下载免费PDF全文
传统的k-均值算法对初始聚类中心和孤立点敏感,文中以最大程度地减少误差平方和为基本思想,提出一种最大化减少当前误差平方和的k-means初始聚类中心优化方法。在初始聚类中心选择阶段,每次增加聚类中心时,计算所有数据点作为当前聚类中心能够减少的误差平方和,选择能够最大化减少误差平方和的数据点作为聚类初始中心。利用真实数据集,同其他算法进行对比,实验结果表明该方法在选择初始聚类中心方面能够有效地减少聚类的迭代次数,提高聚类质量。同时人工模拟数据表明该方法对孤立点相对不敏感。  相似文献   

2.
针对传统K-means算法对初始聚类中心敏感的问题,提出了基于数据样本分布情况的动态选取初始聚类中心的改进K-means算法。该算法根据数据点的距离构造最小生成树,并对最小生成树进行剪枝得到K个初始数据集合,得到初始的聚类中心。由此得到的初始聚类中心非常地接近迭代聚类算法收敛的聚类中心。理论分析与实验表明,改进的K-means算法能改善算法的聚类性能,减少聚类的迭代次数,提高效率,并能得到稳定的聚类结果,取得较高的分类准确率。  相似文献   

3.
基于改进K均值聚类的异常检测算法   总被引:1,自引:0,他引:1  
左进  陈泽茂 《计算机科学》2016,43(8):258-261
通过改进传统K-means算法的初始聚类中心随机选取过程,提出了一种基于改进K均值聚类的异常检测算法。在选择初始聚类中心时,首先计算所有数据点的紧密性,排除离群点区域,在数据紧密的地方均匀选择K个初始中心,避免了随机性选择容易导致局部最优的缺陷。通过优化选取过程,使得算法在迭代前更加接近真实的聚类类簇中心,减少了迭代次数,提高了聚类质量和异常检测率。实验表明,改进算法在聚类性能和异常检测方面都明显优于原算法。  相似文献   

4.
针对传统K均值聚类算法对初始值敏感、易陷入局部极值点,导致数据分类结果不理想的问题,本文提出一种基于犹豫模糊Canopy-K均值聚类算法。首先利用Canopy算法对原始数据进行初步分类,形成多个数据重合的Canopy中心集合,即得到K均值算法的初始聚类中心。然后再利用K均值聚类算法进行聚类,得到最终的聚类结果。最后结合疫情后复工复产企业评价信息数据进行实例分析,从6个方面对复工复产的5个企业发展情况进行评估。将新提出的算法和基于层次分析的K均值聚类算法进行对比分析。结果表明,新提出的方法较大地减少了迭代次数,聚类结果更加合理、稳定和有效。  相似文献   

5.
改进K-均值聚类算法在电信客户分类中的应用   总被引:2,自引:0,他引:2  
研究电信客户分类问题,根据不同类型采用不同策略.针对电信客户实行差异化营销和服务,需对电信客户进行准确分类.传统的k-均值聚类算法是一种重要数据挖掘技方法,存在对初始值敏感和易陷入局部最优的缺陷,导致电信客户分类正确率较低.为了提高电信客户分类的正确率,提出了一种改进k-均值聚类的电信客户分类算法.首先改进k-均值聚类算法通过变异、杂交和选择操作,然后根据分类特征动态地确定初始聚类数k和自适应确定聚类中心,最后采用湖南省某地区客户分类数据进行验证性实验.仿真结果表明,改进k-均值聚类算法很好地解决全局识别寻优问题,提高了客户分类正确率,大幅度减小误差.  相似文献   

6.
改进的基于遗传算法的粗糙聚类方法   总被引:2,自引:0,他引:2       下载免费PDF全文
传统的聚类算法都是使用硬计算来对数据对象进行划分,然而现实中不同类之间对象通常没有明确的界限。粗糙集理论提供了一种处理边界对象不确定的方法。因此将粗糙理论与k-均值方法相结合。同时,传统的k-均值聚类方法必须事先给定聚类数k,但实际情况下k很难确定;另外虽然传统k-均值算法局部搜索能力强,但容易陷入局部最优。遗传算法能得到全局最优解,但收敛过快。鉴于此,提出了一种改进的基于遗传算法的的粗糙聚类方法。该算法能动态地生成k-均值聚类数,采用最大最小原则生成初始聚类中心,同时结合粗糙集理论的上近似和下近似处理边界对象。最后,用UCI的Iris数据集分别对算法进行实际验证。实验结果表明,该算法具有较高的正确率,综合性能更加稳定。  相似文献   

7.
针对传统模糊C-均值聚类算法(FCM算法)初始聚类中心选择的随机性和距离向量公式应用的局限性,提出一种基于密度和马氏距离优化的模糊C-均值聚类算法(Fuzzy C-Means Based on Mahalanobis and Density,FCMBMD算法)。该算法通过计算样本点的密度来确定初始聚类中心,避免了初始聚类中心随机选取而产生的聚类结果的不稳定;采用马氏距离计算样本集的相似度,以满足不同度量单位数据的要求。实验结果表明,FCMBMD算法在聚类中心、收敛速度、迭代次数以及准确率等方面具有良好的效果。  相似文献   

8.
一种改进人工蜂群的K-medoids聚类算法   总被引:1,自引:0,他引:1       下载免费PDF全文
针对传统K-medoids聚类算法初始聚类中心选择较敏感、聚类效率和精度较低、全局搜索能力较差以及传统蜂群算法初始蜂群和搜索步长随机选取等缺点,提出了一种基于粒子和最大最小距离法初始化蜂群和随着迭代次数增加动态调整搜索步长的人工蜂群算法,将改进的人工蜂群进一步优化K-medoids,以提高聚类算法的性能。实验结果表明:该算法降低了对噪声的敏感程度,具有较高的效率和准确率,较强的稳定性。  相似文献   

9.
针对初始聚类中心不合理的选择会导致K-means算法的聚类结果局部最优,且降低聚类算法收敛速度的问题,提出一种基于近邻传播算法和最大最小距离算法联合计算初始聚类中心的算法(APMMD).该算法通过近邻传播算法从整个样本集中获得Kap(Kap>k)个具有代表性的候选中心点,再利用最大最小距离算法从Kap个候选中心点中选择k个初始聚类中心.在多个UCI数据集上实验,结果表明APMMD算法获得初始聚类中心应用于K-means聚类,迭代次数明显降低,聚类结果稳定且具有较高准确率.  相似文献   

10.
针对传统K-means算法随机选取初始聚类中心,易造成准则函数收敛速度慢、聚类结果陷入局部最优等问题,提出一种基于网格和图论的初始聚类中心确定算法。该算法将数据空间网格化,通过在网格单元上形成树的连通分支来选取初始中心点。采用模拟和真实数据集对该算法选取的初始中心进行测试,实验结果表明,改进后的K-means算法在降低时间复杂度、减少迭代次数以及提高聚类精度方面都取到了较好的效果。  相似文献   

11.
传统k-means算法由于初始聚类中心的选择是随机的,因此会使聚类结果不稳定。针对这个问题,提出一种基于离散量改进k-means初始聚类中心选择的算法。算法首先将所有对象作为一个大类,然后不断从对象数目最多的聚类中选择离散量最大与最小的两个对象作为初始聚类中心,再根据最近距离将这个大聚类中的其他对象划分到与之最近的初始聚类中,直到聚类个数等于指定的k值。最后将这k个聚类作为初始聚类应用到k-means算法中。将提出的算法与传统k-means算法、最大最小距离聚类算法应用到多个数据集进行实验。实验结果表明,改进后的k-means算法选取的初始聚类中心唯一,聚类过程的迭代次数也减少了,聚类结果稳定且准确率较高。  相似文献   

12.
针对密度峰值聚类(CFSFDP)算法处理多密度峰值数据集时,人工选择聚类中心易造成簇的误划分问题,提出一种结合遗传k均值改进的密度峰值聚类算法。在CFSFDP求得的可能簇中心中,利用基于可变染色体长度编码的遗传k均值的全局搜索能力自动搜索出最优聚类中心,同时自适应确定遗传k均值的交叉概率,避免早熟问题的出现。在UCI数据集上的实验结果表明,改进算法具有较好的聚类质量和较少的迭代次数,验证了所提算法的可行性和有效性。  相似文献   

13.
谱聚类将数据聚类问题转化成图划分问题,通过寻找最优的子图,对数据点进行聚类。谱聚类的关键是构造合适的相似矩阵,将数据集的内在结构真实地描述出来。针对传统的谱聚类算法采用高斯核函数来构造相似矩阵时对尺度参数的选择很敏感,而且在聚类阶段需要随机确定初始的聚类中心,聚类性能也不稳定等问题,本文提出了基于消息传递的谱聚类算法。该算法采用密度自适应的相似性度量方法,可以更好地描述数据点之间的关系,然后利用近邻传播(Affinity propagation,AP)聚类中“消息传递”机制获得高质量的聚类中心,提高了谱聚类算法的性能。实验表明,新算法可以有效地处理多尺度数据集的聚类问题,其聚类性能非常稳定,聚类质量也优于传统的谱聚类算法和k-means算法。  相似文献   

14.
针对传统K_means聚类方法采用随机选择初始聚类中心而导致的收敛速度慢的问题,本文结合空间中的距离度量提出一种改进的K_means聚类算法。该方法通过给出有效的启发式信息,选择较好的聚类中心,减少聚类达到稳定状态所需要的迭代步骤,加速算法的执行。标准数据集上的实验结果表明,与传统的K_means聚类方法相比,本文提出的改进的聚类方法收敛速度快,从而在较少的迭代后得到良好的聚类效果。  相似文献   

15.
针对DDoS攻击检测中k-means算法对初始聚类中心敏感和要求输入聚类数目的缺点,提出了一种基于动态指数和初始聚类中心点选取的自适应聚类算法(Adaptive Clustering Algorithm),并使用该算法建立DDoS攻击检测模型。通过使用LLS_DDoS_1.0数据集对该模型进行测试并与k-means算法对比,实验结果表明,该算法提高了DDoS攻击的检测率,降低了误警率,验证了检测方法的有效性。  相似文献   

16.
一种改进的k-means初始聚类中心选取算法   总被引:3,自引:0,他引:3       下载免费PDF全文
在传统的k-means聚类算法中,聚类结果会随着初始聚类中心点的不同而波动,针对这个缺点,提出一种优化初始聚类中心的算法。该算法通过计算每个数据对象的密度参数,然后选取k个处于高密度分布的点作为初始聚类中心。实验表明,在聚类类别数给定的情况下,通过用标准的UCI数据库进行实验比较,发现采用改进后方法选取的初始类中心的k-means算法比随机选取初始聚类中心算法有相对较高的准确率和稳定性。  相似文献   

17.
多尺度的谱聚类算法   总被引:1,自引:1,他引:0       下载免费PDF全文
提出了一种多尺度的谱聚类算法。与传统谱聚类算法不同,多尺度谱聚类算法用改进的k-means算法对未经规范的Laplacian矩阵的特征向量进行聚类。与传统k-means算法不同,改进的k-means算法提出一种新颖的划分数据点到聚类中心的方法,通过比较聚类中心与原点的距离和引入尺度参数来计算数据点与聚类中心的距离。实验表明,改进算法在人工数据集上取得令人满意的结果,在真实数据集上聚类结果较优。  相似文献   

18.
针对传统基于聚类分析的网络流量异常检测方法准确性较低的问题,提出了一种基于改进 k-means聚类的流量异常检测方法。通过对各类流量特征数据的预处理,使k-means算法能适用于枚举型数据检测,进而给出一种基于数值分布分析法的高维数据特征筛选方法,有效解决了维数过高导致的距离失效问题,并运用二分法优化K个聚簇的划分,减少了初始聚类中心选择对k-means算法结果的影响,进一步提高了算法的检测率。最后通过仿真实验验证了所提出算法的有效性。  相似文献   

19.
基于密度聚类的思想,提出了一种改进的K—means算法。算法吸取密度聚类算法的优点,利用对象的t-邻域密度作为选择初始聚类中心点的条件.选出较优的初始中心点,从而得到较好的聚类效果。通过实验表明,此方法相对于随机选取初始聚类中心点准确率较高、稳定性强、可伸缩性好。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号