首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 31 毫秒
1.
动态的K-均值聚类算法在图像检索中的应用   总被引:2,自引:2,他引:2  
聚类分析技术已经广泛应用于基于内容的图像信息挖掘领域,该技术提高了图像检索的速度和质量。K-均值算法和自适应算法是两个典型的聚类分析算法,但K-均值算法严重依赖于经验参数和阙值的设定;自适应算法得到的聚类个数太多,相应的就是类内的图像个数过少,效率不是很高。从选取初始聚类点是否具有确定性、迭代次数是否过多和聚类个数是否适当等方面考虑,提出了一种新的聚类算法,即动态的K-均值法。模拟实验的结果表明,该算法具有较好的准确性和效率,使检索的质量和速度都得到了很大的提高。  相似文献   

2.
传统k-means算法随机选取初始聚类中心使聚类结果不稳定,诸多优化算法的时间复杂度较高,为了提高聚类稳定性并降低时间复杂度,提出了基于个体轮廓系数自适应地选取优秀样本以确定初始聚类中心的改进k-means算法.该算法多次调用传统k-means算法聚类,根据k个类中心的个体轮廓系数以及各样本与类中心的距离,自适应地选取优秀样本,求其均值作为初始聚类中心.在多个UCI数据集上的实验表明,该算法聚类时间短,具有较高的轮廓系数和准确率.  相似文献   

3.
基于样本空间分布密度的初始聚类中心优化K-均值算法*   总被引:2,自引:1,他引:1  
针对传统K-均值聚类算法对初始聚类中心敏感、现有初始聚类中心优化算法缺乏客观性,提出一种基于样本空间分布密度的初始聚类中心优化K-均值算法。该算法利用数据集样本的空间分布信息定义数据对象的密度,并根据整个数据集的空间信息定义了数据对象的邻域;在此基础上选择位于数据集样本密集区且相距较远的数据对象作为初始聚类中心,实现K-均值聚类。UCI机器学习数据库数据集以及随机生成的带有噪声点的人工模拟数据集的实验测试证明,本算法不仅具有很好的聚类效果,而且运行时间短,对噪声数据有很强的抗干扰性能。基于样本空间分布密度的初始聚类中心优化K-均值算法优于传统K-均值聚类算法和已有的相关K-均值初始中心优化算法。  相似文献   

4.
针对传统K-均值聚类算法需要事先确定聚类数,以及对初始质心的选择具有敏感性,从而容易陷入局部极值点的缺陷,定义了簇间相似度度量对传统K-均值聚类进行改进.新算法可以在事先不确定K值的情况下,根据欧氏距离选取初始质心并按照K均值算法聚类,然后过滤噪声样本并确定簇半径,计算簇间相似度并合并相似簇确定数据集的类别数并得到较优的聚类结果.通过在UCI数据集的实验结果表明,新算法能准确确定类别数并有高于传统K均值算法聚类精度.  相似文献   

5.
针对二分K-均值算法由于随机选取初始中心及人为定义聚类数而造成的聚类结果不稳定问题,提出了基于密度和中心指标的Canopy二分K-均值算法SDC_Bisecting K-Means。首先计算样本中数据密度及其邻域半径;然后选出密度最小的数据并结合Canopy算法的思想进行聚类,将得到的簇的个数及其中心作为二分K-均值算法的输入参数;最后在二分K-均值算法的基础上引入指数函数和中心指标对原始样本进行聚类。利用UCI数据集和自建数据集进行模拟实验对比,结果表明SDC_Bisecting K-Means不仅使得聚类结果更精确,同时算法的运行速度更快、稳定性更好。  相似文献   

6.
针对K-均值聚类算法对初始聚类中心存在依赖性的缺陷,提出一种基于数据空间分布选取初始聚类中心的改进算法.该算法首先定义样本距离、样本平均差异度和样本集总体平均差异度;然后将每个样本按平均差异度排序,选择平均差异度较大且与已选聚类中心的差异度大于样本集总体平均差异度的样本作为初始聚类中心.实验表明,改进后的算法不仅提高了聚类结果的稳定性和正确率,而且迭代次数明显减少,收敛速度快.  相似文献   

7.
分级聚类与平面划分结合方法在网页分类中的应用   总被引:2,自引:0,他引:2  
文章研究分级聚类与平面划分结合方法在网页分类中的应用。阐述了网页分类问题中样本特征分布的特点和复杂性,分级聚类能够生成层次化的嵌套类,且具有较高的准确度,但具有较高的计算复杂度,不适合计算大量样本的计算问题。K-均值算法受初始聚类中心的选择影响较大,对于不规则分布的样本往往聚类的效果不佳。文章考虑利用少数样本和分级聚类算法进行样本集合的初始聚类中心的划分,再利用K-均值算法对整个样本集合做聚类,则既可以避免分级聚类算法的计算复杂又可充分利用K-均值算法的快速特点;另一方面则利用了分级聚类算法准确度高为确定初始聚类中心提供了可靠的方法。文中给出了纯K-均值方法、分级聚类与平面划分结合方法在解决文本分类问题上的实验结果。  相似文献   

8.
针对K‐means算法随机选择初始聚类中心所出现的样本聚类结果随机性强、稳定性低、容易陷入局部最优和得不到全局最优解等问题,提出一种基于均值与最大距离乘积的初始聚类中心优化K‐means算法。该算法首先选择距离样本集均值最远的数据对象加入聚类中心集合,再依次将与样本集均值和当前聚类中心乘积最大的数据对象加入聚类中心集合。标准数据集上的实验结果表明,与原始K‐means的算法以及另一种改进算法相比,新提出的聚类算法具有更高的准确率。  相似文献   

9.
针对传统K-均值聚类算法初始聚类中心和聚类数目确定困难的问题,提出了基于密度统计法和最大距离乘积法的聚类中心选取方法.该方法通过对样本空间网格化,选出局部包含样本最多的网格,并对这些局部最优网格内的样本点进行ε邻域密度统计,然后取邻域密度最大且相距最远的两个样本点为聚类中心进行一次聚类.计算每个样本点到各个聚类中心的距离的积,取距离积最大的样本点为下一个聚类中心,并以此循环聚类.仿真实验表明,该方法在聚类精度上具有明显优势.  相似文献   

10.
针对快速K-me doids聚类算法所选初始聚类中心可能位于同一类簇的缺陷,以及基于粒计算的K-medoids算法构造样本去模糊相似矩阵时需要主观给定阈值的缺陷,提出了粒计算优化初始聚类中心的K-medoids聚类算法。该算法结合粒计算与最大最小距离法,优化K-medoids算法初始聚类中心的选取,选择处于样本分布密集区域且相距较远的K个样本作为初始聚类中心;使用所有样本的相似度均值作为其构造去模糊相似矩阵的阈值。人工模拟数据集和UCI机器学习数据库数据集的实验测试表明,新K-medoids聚类算法具有更稳定的聚类效果,其准确率和Adjusted Rand Index等聚类结果评价指标值优于传统K-medoids聚类算法、快速K-medoids聚类算法和基于粒计算的K-medoids聚类算法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号