首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 453 毫秒
1.
基于信息熵的精确属性赋权K-means聚类算法   总被引:4,自引:0,他引:4  
为了进一步提高聚类的精确度,针对传统K-means算法的初始聚类中心产生方式和数据相似性判断依据,提出一种基于信息熵的精确属性赋权K-means聚类算法。首先利用熵值法对数据对象的属性赋权来修正对象间的欧氏距离,然后通过比较初聚类的赋权类别目标价值函数,选择高质量的初始聚类中心来进行更高精度和更加稳定的聚类,最后通过Matlab编程实现。实验证明该算法的聚类精确度和稳定性要明显高于传统K-means算法。  相似文献   

2.
一种优化初始中心的K-means粗糙聚类算法   总被引:3,自引:0,他引:3       下载免费PDF全文
针对K-means算法的不足,提出了一种优化初始中心的聚类算法。首先,采用密度敏感的相似性度量来计算对象的密度,基于对象之间的距离和对象的邻域,选择相互距离尽可能远的数据点作为初始聚类中心。然后,采用基于粗糙集的K-means聚类算法处理边界对象,同时利用均衡化函数自动生成聚类数目。实验表明,算法具有较好的聚类效果和综合性能。  相似文献   

3.
基于密度的K-means聚类中心选取的优化算法   总被引:2,自引:0,他引:2  
针对传统的K-means算法对于初始聚类中心点和聚类数的敏感问题,提出了一种优化初始聚类中心选取的算法。该算法针对数据对象的分布密度以及计算最近两点的垂直中点方法来确定k个初始聚类中心,再结合均衡化函数对聚类个数进行优化,以获得最优聚类。采用标准的UCI数据集进行实验对比,发现改进后的算法相比传统的算法有较高的准确率和稳定性。  相似文献   

4.
K-means算法的初始聚类中心的优化   总被引:10,自引:3,他引:7       下载免费PDF全文
传统的K-means算法对初始聚类中心敏感,聚类结果随不同的初始输入而波动,针对K-means算法存在的问题,提出了基于密度的改进的K-means算法,该算法采取聚类对象分布密度方法来确定初始聚类中心,选择相互距离最远的K个处于高密度区域的点作为初始聚类中心,理论分析与实验结果表明,改进的算法能取得更好的聚类结果。  相似文献   

5.
基于密度的改进K均值算法及实现   总被引:4,自引:1,他引:3  
傅德胜  周辰 《计算机应用》2011,31(2):432-434
传统的K均值算法的初始聚类中心从数据集中随机产生,聚类结果很不稳定。提出一种基于密度算法优化初始聚类中心的改进K-means算法,该算法选择相互距离最远的k个处于高密度区域的点作为初始聚类中心。实验证明,改进的K-means算法能够消除对初始聚类中心的依赖,聚类结果有了较大的改进。  相似文献   

6.
基于数据分段的K-means的优化研究   总被引:1,自引:0,他引:1  
K-means聚类算法是一种主流的迭代下降聚类算法,收敛于局部最优化状态.由于K-means随机选取k个初始聚类中心,使得聚类结果的有效性随初始输入而波动,为此文中采取一种预处理的方式来选取初始聚类中心.首先在某种范数的意义下,确定相隔最远的两个数据点之间的距离,然后采用数据分段的方法,将数据集分成k段,在每段中选取一个中心,以此来减小聚类结果随初始输入的波动.实验显示优化后的K-means有效地消除了初始输入的影响,并显著地减少了算法迭代次数和聚类误差.  相似文献   

7.
传统的K-means算法随机选取初始聚类中心,聚类结果不稳定,容易陷入局部最优解。针对聚类中心的敏感性,提出一种优化初始聚类中心的K-means算法。此算法利用数据集样本的分布特征计算样本点的密度并进行分类,在高密度区域中选择K个密度最大且相互距离超过某特定阈值的点作为初始聚类中心,并对低密度区域的噪声点单独处理。实验证明,优化后的算法能取得更好的聚类效果,且稳定性增强。  相似文献   

8.
优化初始聚类中心的K-means聚类算法   总被引:1,自引:0,他引:1       下载免费PDF全文
针对传统K-means算法对初始中心十分敏感,聚类结果不稳定问题,提出了一种改进K-means聚类算法。该算法首先计算样本间的距离,根据样本距离找出距离最近的两点形成集合,根据点与集合的计算公式找出其他所有离集合最近的点,直到集合内数据数目大于或等于[α]([α]为样本集数据点数目与聚类的簇类数目的比值),再把该集合从样本集中删除,重复以上步骤得到K(K为簇类数目)个集合,计算每个集合的均值作为初始中心,并根据K-means算法得到最终的聚类结果。在Wine、Hayes-Roth、Iris、Tae、Heart-stalog、Ionosphere、Haberman数据集中,改进算法比传统K-means、K-means++算法的聚类结果更稳定;在Wine、Iris、Tae数据集中,比最小方差优化初始聚类中心的K-means算法聚类准确率更高,且在7组数据集中改进算法得到的轮廓系数和F1值最大。对于密度差异较大数据集,聚类结果比传统K-means、K-means++算法更稳定,更准确,且比最小方差优化初始聚类中心的K-means算法更高效。  相似文献   

9.
王巧玲  乔非  蒋友好 《计算机应用》2019,39(9):2586-2590
针对传统K均值聚类(K-means)算法随机选择初始中心及K值导致的聚类结果不确定且精度不高问题,提出了一种基于聚合距离的改进K-means算法。首先,基于聚合距离参数筛选出优质的初始聚类中心,并将其作用于K-means算法。然后,引入戴维森堡丁指数(DBI)作为算法的准则函数,循环更新聚类直到准则函数收敛,最后完成聚类。改进算法提供了优质的初始聚类中心及K值,避免了聚类结果的随机性。二维数值型仿真数据的聚类结果表明,改进算法在数据样本数达到10000时仍能保持较好的聚类效果。针对Iris和Seg这两个UCI标准数据集的调整兰德系数,改进算法比传统算法性能分别提高了83.7%和71.0%,最终验证了改进算法比传统算法聚类结果的准确性更高。  相似文献   

10.
李四海  满自斌 《微机发展》2013,(6):98-101,105
为提高传统K-means聚类算法在医学数据聚类中的准确率和稳定性,提出了一种自适应特征权重的K-means聚类算法AFW-K-means。该算法首先通过计算属性的均方差选取初始聚类中心,然后根据当前的迭代结果,按照类内紧密、类间远离的原则调整属性在距离公式中的特征权重,以便更准确地反映数据点在欧氏空间中的真实距离,最后选取UCI上的BCW乳腺肿瘤等数据集对算法的有效性进行验证。结果表明:算法的准确率和稳定性均明显好于传统K-means算法。  相似文献   

11.
李莲  罗可  周博翔 《计算机应用研究》2013,30(10):2916-2919
针对传统K-means聚类算法初始聚类中心随机选取、不能处理边界对象、效率低、聚类精度低等问题, 提出了一种新的K-means聚类算法。算法引入粒计算理论, 并依据密度和最大最小距离法选择初始聚类中心, 避免初始聚类中心在同一个类中, 结合粗糙集, 通过动态调整上近似集和边界集的权重因子, 以解决边界数据的聚类问题; 最后采用类间距和类内距均衡化准则函数作为算法终止判断条件, 来得到更好的聚类效果。实验结果表明:该算法具有较高的准确率, 迭代次数较少, 并降低了对噪声的敏感程度。  相似文献   

12.
以往的聚类算法能够减少道路交通网络中移动对象与中心数据库的通信开销,但聚类粒度的大小是根据经验设定的.分析了影响距离聚类粒度大小的因素,提出用BP网络来训练历史数据,动态地获取距离聚类粒度值和时间粒度值,并把这些粒度值作为新的历史数据来训练网络,使得粒度值能够根据道路交通网络中因素的改变而动态改变,从而产生有效的道路网络聚类,减少通信开销,并预报道路交通的拥堵情况,为最优路径规划提供依据.  相似文献   

13.
Fuzzy c-means clustering with spatial constraints is considered as suitable algorithm for data clustering or data analyzing. But FCM has still lacks enough robustness to employ with noise data, because of its Euclidean distance measure objective function for finding the relationship between the objects. It can only be effective in clustering ‘spherical’ clusters, and it may not give reasonable clustering results for “non-compactly filled” spherical data such as “annular-shaped” data. This paper realized the drawbacks of the general fuzzy c-mean algorithm and it tries to introduce an extended Gaussian version of fuzzy C-means by replacing the Euclidean distance in the original object function of FCM. Firstly, this paper proposes initial kernel version of fuzzy c-means to aim at simplifying its computation and then extended it to extended Gaussian kernel version of fuzzy c-means. It derives an effective method to construct the membership matrix for objects, and it derives a robust method for updating centers from extended Gaussian version of fuzzy C-means. Furthermore, this paper proposes a new prototypes learning method and it obtains initial cluster centers using new mathematical initialization centers for the new effective objective function of fuzzy c-means, so that this paper tries to minimize the iteration of algorithms to obtain more accurate result. Initial experiment will be done with an artificially generated data to show how effectively the new proposed Gaussian version of fuzzy C-means works in obtaining clusters, and then the proposed methods can be implemented to cluster the Wisconsin breast cancer database into two clusters for the classes benign and malignant. To show the effective performance of proposed fuzzy c-means with new initialization of centers of clusters, this work compares the results with results of recent fuzzy c-means algorithm; in addition, it uses Silhouette method to validate the obtained clusters from breast cancer datasets.  相似文献   

14.
颜宏文  周雅梅  潘楚 《计算机应用》2015,35(5):1302-1305
针对传统K-medoids聚类算法对初始值敏感、中心点随机选择以及聚类精度不够高等缺点,在粒计算有效初始化的基础上,提出中心点宽度优先搜索策略. 首先,利用粒计算初始化获取K个有效粒子,遴选该K个粒子所对应的K个中心点作为K个初始中心点;然后,根据对象间的相似性分别对K个粒子中的对象建立以中心点为根节点的相似对象二叉树,通过宽度优先搜索遍历二叉树迭代出最优中心点, 同时采用簇间距离和簇内距离优化准则函数. 实验结果表明,所提算法在UCI中Iris和Wine标准数据集中测试,在有效缩短迭代次数的同时保证了算法聚类准确率.  相似文献   

15.
针对K-means算法中聚类结果易受初始聚类中心影响的缺点,提出一种改进初始聚类中心选择的算法.该算法不断寻找最大聚类,并利用距离最大的两个数据对象作为开始的聚类中心对该聚类进行分裂,如此反复,直到得到指定聚类中心个数.用KDD CUP99数据集对改进算法进行仿真实验,实验数据表明,用该算法获得的聚类中心进行聚类相对原始的K-means算法,能获得更好的聚类结果.  相似文献   

16.
一种新的k-means聚类中心选取算法   总被引:1,自引:0,他引:1       下载免费PDF全文
在2010年提出已有的k-means聚类中心选取算法的基础上进行改进。通过计算样本间的距离求出每个样本的密度参数,选取最大密度参数值所对应的样本作为初始聚类中心。当最大密度参数值不惟一时,提出合理选取最大密度参数值的解决方案,依次求出k个初始聚类中心点,由此提出了一种新的k-means聚类中心选取算法。实验证明,提出的算法与对比算法相比具有更高的准确率。  相似文献   

17.
针对高维数据在聚类过程中存在迭代次数多、运算耗时长等问题,提出一种改进的聚类算法,首先采用谱聚类对样本降维,再选取k个首尾相连且距离乘积最大的数据对象作为初始聚类中心,在簇中心更新过程中,选取与簇均值距离最近的数据对象作为簇中心,并将其他数据对象按最小距离划分至相应簇中,反复迭代,直至收敛。实验结果表明,新算法的Rand指数、Jaccard系数和Adjusted Rand Index等聚类指标全部优于K-means算法及其他3种改进聚类算法,在运行效率方面,新算法的聚类耗时更短、迭代次数更少。  相似文献   

18.
初始聚类中心优化的k-means算法   总被引:37,自引:0,他引:37       下载免费PDF全文
传统的k-means算法对初始聚类中心敏感,聚类结果随不同的初始输入而波动。为消除这种敏感性,提出一种优化初始聚类中心的方法,此方法计算每个数据对象所在区域的密度,选择相互距离最远的k个处于高密度区域的点作为初始聚类中心。实验表明改进后的k-means算法能产生质量较高的聚类结果,并且消除了对初始输入的敏感性。  相似文献   

19.
传统k-means算法由于初始聚类中心的选择是随机的,因此会使聚类结果不稳定。针对这个问题,提出一种基于离散量改进k-means初始聚类中心选择的算法。算法首先将所有对象作为一个大类,然后不断从对象数目最多的聚类中选择离散量最大与最小的两个对象作为初始聚类中心,再根据最近距离将这个大聚类中的其他对象划分到与之最近的初始聚类中,直到聚类个数等于指定的k值。最后将这k个聚类作为初始聚类应用到k-means算法中。将提出的算法与传统k-means算法、最大最小距离聚类算法应用到多个数据集进行实验。实验结果表明,改进后的k-means算法选取的初始聚类中心唯一,聚类过程的迭代次数也减少了,聚类结果稳定且准确率较高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号