首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 156 毫秒
1.
传统k-means算法由于初始聚类中心的选择是随机的,因此会使聚类结果不稳定。针对这个问题,提出一种基于离散量改进k-means初始聚类中心选择的算法。算法首先将所有对象作为一个大类,然后不断从对象数目最多的聚类中选择离散量最大与最小的两个对象作为初始聚类中心,再根据最近距离将这个大聚类中的其他对象划分到与之最近的初始聚类中,直到聚类个数等于指定的k值。最后将这k个聚类作为初始聚类应用到k-means算法中。将提出的算法与传统k-means算法、最大最小距离聚类算法应用到多个数据集进行实验。实验结果表明,改进后的k-means算法选取的初始聚类中心唯一,聚类过程的迭代次数也减少了,聚类结果稳定且准确率较高。  相似文献   

2.
初始聚类中心优化的k-means算法   总被引:37,自引:0,他引:37       下载免费PDF全文
传统的k-means算法对初始聚类中心敏感,聚类结果随不同的初始输入而波动。为消除这种敏感性,提出一种优化初始聚类中心的方法,此方法计算每个数据对象所在区域的密度,选择相互距离最远的k个处于高密度区域的点作为初始聚类中心。实验表明改进后的k-means算法能产生质量较高的聚类结果,并且消除了对初始输入的敏感性。  相似文献   

3.
传统k-means算法随机选取初始聚类中心使聚类结果不稳定,诸多优化算法的时间复杂度较高,为了提高聚类稳定性并降低时间复杂度,提出了基于个体轮廓系数自适应地选取优秀样本以确定初始聚类中心的改进k-means算法.该算法多次调用传统k-means算法聚类,根据k个类中心的个体轮廓系数以及各样本与类中心的距离,自适应地选取优秀样本,求其均值作为初始聚类中心.在多个UCI数据集上的实验表明,该算法聚类时间短,具有较高的轮廓系数和准确率.  相似文献   

4.
谱聚类将数据聚类问题转化成图划分问题,通过寻找最优的子图,对数据点进行聚类。谱聚类的关键是构造合适的相似矩阵,将数据集的内在结构真实地描述出来。针对传统的谱聚类算法采用高斯核函数来构造相似矩阵时对尺度参数的选择很敏感,而且在聚类阶段需要随机确定初始的聚类中心,聚类性能也不稳定等问题,本文提出了基于消息传递的谱聚类算法。该算法采用密度自适应的相似性度量方法,可以更好地描述数据点之间的关系,然后利用近邻传播(Affinity propagation,AP)聚类中“消息传递”机制获得高质量的聚类中心,提高了谱聚类算法的性能。实验表明,新算法可以有效地处理多尺度数据集的聚类问题,其聚类性能非常稳定,聚类质量也优于传统的谱聚类算法和k-means算法。  相似文献   

5.
初始化独立的谱聚类算法   总被引:2,自引:0,他引:2       下载免费PDF全文
谱聚类作为一种新颖的聚类算法近年来受到模式识别领域的广泛关注。针对传统谱聚类算法对初始中心敏感的特点,通过引入对初值不敏感的k-调和平均算法,提出一种初始化独立的谱聚类算法。在人工数据和真实数据上的实验表明,相比于传统的k-means算法、FCM算法和EM算法,改进算法在稳定性和聚类性能上有了显著的提高。  相似文献   

6.
李鹏清  李扬定  邓雪莲  李永钢  方月 《计算机科学》2018,45(Z11):458-461, 467
传统的谱聚类算法在建立相似度矩阵时仅考虑数据点与点的距离,忽略了数据点之间隐含的内在联系。针对这一问题,提出了一种基于SimRank的谱聚类算法。该算法首先用无向图数据建立邻接矩阵,并计算出基于SimRank的相似度矩阵;然后根据相似度矩阵建立拉普拉斯矩阵表达式,对其进行归一化后再进行谱分解;最后对分解得到的特征向量进行k-means聚类。在Zoo等UCI标准数据集上的实验结果表明,所提算法在聚类精确度、标准互信息和纯度3个评价指标上均优于现有的LRR(Low Rank Rrepresentation)等基于距离相似度的谱聚类算法。  相似文献   

7.
传统谱聚类对初值选取十分敏感,严重影响了聚类效果。为了解决初值敏感问题,提出了基于CMT-FCM(借鉴历史知识的类中心距离极大化聚类算法)的自适应谱聚类算法。该算法以样本空间的标准差作为尺度参数,实现了尺度参数的自适应选取,提高了算法效率;而通过借鉴历史知识,引入类中心距离极大化项,避免了干扰点对类中心的干扰,提高了算法鲁棒性。通过在模拟数据集以及真实数据集上测验,取得了比传统谱聚类更稳定的聚类效果,验证了算法的有效性。  相似文献   

8.
针对传统的k-means算法处理离散型数据的不足以及选取初始聚类中心的随机性等缺点,提出了一种基于改进的粒子群优化k-means算法,根据文中提供的优化算法寻找初始聚类中心后,在阀值范围内进行数据样本间的迭代更新,直至聚类中心稳定。经过实验结果验证分析表明,经过改进的粒子群优化k-means算法与传统的k-means算法相比,更具有良好的聚类收敛效果,聚类效果也相对稳定。  相似文献   

9.
现有的基于密度优化初始聚类中心的k-means算法存在聚类中心的搜索范围大、消耗时间久以及聚类结果对孤立点敏感等问题,针对这些问题,提出了一种基于平均密度优化初始聚类中心的k-means算法adk-means。该算法将数据集中的孤立点划分出来,计算出剩余数据集样本的平均密度,孤立点不参与聚类过程中各类所含样本均值的计算;在大于平均密度的密度参数集合中选择聚类中心,根据最小距离原则将孤立点分配给离它最近的聚类中心,直至将数据集完整分类。实验结果表明,这种基于平均密度优化初始聚类中心的k-means算法比现有的基于密度的k-means算法有更快的收敛速度,更强的稳定性及更高的聚类精度,消除了聚类结果对孤立点的敏感性。  相似文献   

10.
针对初始聚类中心对传统K-means算法的聚类结果有较大影响的问题,提出一种依据样本点类内距离动态调整中心点类间距离的初始聚类中心选取方法,由此得到的初始聚类中心点尽可能分散且具代表性,能有效避免K-means算法陷入局部最优。通过UCI数据集上的数据对改进算法进行实验,结果表明改进的算法提高了聚类的准确性。  相似文献   

11.
针对密度峰值聚类(CFSFDP)算法处理多密度峰值数据集时,人工选择聚类中心易造成簇的误划分问题,提出一种结合遗传k均值改进的密度峰值聚类算法。在CFSFDP求得的可能簇中心中,利用基于可变染色体长度编码的遗传k均值的全局搜索能力自动搜索出最优聚类中心,同时自适应确定遗传k均值的交叉概率,避免早熟问题的出现。在UCI数据集上的实验结果表明,改进算法具有较好的聚类质量和较少的迭代次数,验证了所提算法的可行性和有效性。  相似文献   

12.
李书玲  刘蓉  刘红 《计算机科学》2015,42(4):316-320
针对已有的RBF神经网络多标签算法未充分考虑多个样本标签之间的关联性,从而导致泛化性能受到一定影响的问题,研究分析了一种改进型RBF神经网络的多标签算法.该算法首先优化隐含层RBF神经网络基函数中心求取算法——k-均值聚类.采用AP聚类自动寻找k值以获得隐含层节点数目,并构造Huff man树来选取初始聚类中心以防k-均值聚类结果陷入局部最优.然后构造体现标签类之间信息的标签计数向量C,并将其与由优化k-均值聚类得到的聚类中心进行线性叠乘,进而改进RBF神经网络基函数中心,建立RBF神经网络.在公共多标签数据集emotion上的实验表明了该算法能够有效地进行多标签分类.  相似文献   

13.
针对传统谱聚类算法没有解决簇划分过程中,簇间交叉区域样本点对聚类效果有影响这个问题,提出一种基于局部协方差矩阵的谱聚类算法,主要介绍了一种新的计算样本之间相似度亲和矩阵的方法,即通过计算样本点之间的欧氏距离划分出小子集,计算小子集的协方差,通过设定阈值剔除交叉点,由剩下的点构造相似矩阵,对相似矩阵进行特征值分解,用经典的[k]-means算法对由特征向量组成的矩阵聚类。通过在Control等真实数据集上的实验结果表明,该算法在聚类准确率、标准互信息等指标上比较对比算法获得更优秀的效果。  相似文献   

14.
一种改进的k-means初始聚类中心选取算法   总被引:3,自引:0,他引:3       下载免费PDF全文
在传统的k-means聚类算法中,聚类结果会随着初始聚类中心点的不同而波动,针对这个缺点,提出一种优化初始聚类中心的算法。该算法通过计算每个数据对象的密度参数,然后选取k个处于高密度分布的点作为初始聚类中心。实验表明,在聚类类别数给定的情况下,通过用标准的UCI数据库进行实验比较,发现采用改进后方法选取的初始类中心的k-means算法比随机选取初始聚类中心算法有相对较高的准确率和稳定性。  相似文献   

15.
针对传统k-均值算法对初始聚类中心敏感的问题,提出了启发式初始化独立的k-均值算法。该算法引入prim算法选择k个初始聚类中心,且通过设置阈值参数θ,避免同一类中的多个数据对象同时作为初始聚类中心,否则将导致聚类迭代次数增加,并得到错误的聚类结果。与传统的k-均值算法和基于遗传算法的k-均值聚类算法相比,实验结果表明改进的算法不仅降低了初始聚类中心选取的随机性对聚类性能产生的影响,有效减少了聚类迭代次数,而且降低了离群点对聚类性能的影响,从而验证了算法的可行性和有效性。  相似文献   

16.
[K]均值聚类算法是聚类领域最知名的方法之一,然而[K]均值聚类完全依赖欧式距离进行聚类,忽略了样本特征离散程度对聚类结果的影响,导致聚类边缘样本容易被误聚类,且算法易局部收敛,聚类准确率较低。针对传统[K]均值聚类算法的不足,提出了似然[K]均值聚类算法,对于每个聚类的所有样本考虑每个维度样本特征的离散程度信息,分别计算样本属于某一聚类的似然概率,能够有效提高聚类准确率。在人造数据集和基准数据集验证了似然[K]均值聚类算法的优越性,将其应用于涡扇发动机气路部件故障以及传感器故障的模式识别,验证了该算法在涡扇发动机故障诊断中的实用性和有效性。  相似文献   

17.
古凌岚  彭利民 《计算机科学》2016,43(12):213-217
针对传统的基于欧氏距离的相似性度量不能完全反映复杂结构的数据分布特性的问题,提出了一种基于相对密度和流形上k近邻的聚类算法。基于能描述全局一致性信息的流形距离,及可体现局部相似性和紧密度的k近邻概念,通过流形上k近邻相似度度量数据对象间的相似性,采用k近邻的相对紧密度发现不同密度下的类簇,设计近邻点对约束规则搜寻k近邻点对构成的近邻链,归类数据对象及识别离群点。与标准k-means算法、流形距离改进的k-means算法进行了性能比较,在人工数据集和UCI数据集上的仿真实验结果均表明,该算法能有效地处理复杂结构的数据聚类问题,且聚类效果更好。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号