首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
基于可变染色体长度的遗传K均值聚类算法   总被引:2,自引:2,他引:0  
针对传统K-均值聚类算法需要事先确定聚类数,以及对初始质心的选择具有敏感性,从而容易陷入局部极值点的缺点,使用了一种基于可变染色体编码长度的遗传算法对传统K-均值聚类进行改进.该算法可以在事先不确定K值的情况下,通过多次的选择、交叉.变异的遗传操作,最终得到最优的聚类数,以及最优的初始质心集.通过Reuters数据集的实验结果表明,基于该算法的聚类划分结果明显优于传统K-均值聚类算法,并且好过基于固定染色体编码长度遗传算法的K-均值聚类算法.  相似文献   

2.
提出一种基于K-均值聚类的无线传感器网络分簇算法。从K-均值聚类算法中要解决的合理聚类数的确定、初始聚类中心的选择以及聚类性能对目标函数的依赖这三个问题入手,运用K-均值聚类算法来实现无线传感器网络分簇。仿真与性能分析结果表明,基于K-均值聚类的无线传感器网络分簇算法既能节省节点能量、延长网络生命,又能改善网络中的能耗均衡,并保证簇首分布的均匀性。  相似文献   

3.
基于图的K-均值聚类法中初始聚类中心选择   总被引:6,自引:1,他引:5  
聚类分析在信息检索和数据挖掘等领域都有很广泛的应用,K均值聚类算法是一个比较简洁和快速的聚类算法,但是它存在着初始类簇中心须事先设定,而初始类簇中心的选择严重影响聚类的结果;为了改善K均值聚类算法的聚类效果,针对以往K均值聚类算法中采用随机指定初始类簇中心的方法.提出了一种基于图论的连通分支来进行初始类簇中心的选取算法,并用随机样本发生器生成的模拟数据进行测试,通过与常规的随机选取方法的比较,该算法具有更好的性能和健壮性.  相似文献   

4.
针对布谷鸟搜索(CS)算法后期收敛速度慢,传统K-均值算法对初始簇中心选择比较敏感,提出了一种自适应调整的布谷鸟搜索及优化初始K-均值聚类算法(CSSA-OIKM)。首先,由“集群度”与距离均衡优化选择初始簇中心。其次,融合粒子群算法思想,遵循自适应优化学习策略以均衡CS算法全局与局部精细搜索能力。最后,在改进CS算法的基础上引入自适应度调节步长因子与动态变化发现概率,增强算法收敛性能。通过对经典数据集的仿真实验分析,相比K-均值算法、PSO-K-均值算法及CS-K-均值算法来说,提出的CSSA-OIKM算法能有效提高聚类精确性,且算法稳定性好。  相似文献   

5.
胡小生  张润晶  钟勇 《计算机科学》2013,40(11):271-275
类别不平衡数据分类是机器学习和数据挖掘研究的热点问题。传统分类算法有很大的偏向性,少数类分类效果不够理想。提出一种两层聚类的类别不平衡数据级联挖掘算法。算法首先进行基于聚类的欠采样,在多数类样本上进行聚类,之后提取聚类质心,获得与少数类样本数目相一致的聚类质心,再与所有少数类样例一起组成新的平衡训练集,为了避免少数类样本数量过少而使训练集过小导致分类精度下降的问题,使用SMOTE过采样结合聚类欠采样;然后在平衡的训练集上使用K均值聚类与C4.5决策树算法相级联的分类方法,通过K均值聚类将训练样例划分为K个簇,在每个聚类簇内使用C4.5算法构建决策树,通过K个聚簇上的决策树来改进优化分类决策边界。实验结果表明,该算法具有处理类别不平衡数据分类问题的优势。  相似文献   

6.
一种改进的K均值文本聚类算法   总被引:1,自引:0,他引:1  
提出了一种改进的K均值文本聚类算法.该算法的改进基于以下两点:1)基于簇密度与文本间距离选取初始簇中心,引入置信半径来得到簇密度,即选取距离最远且簇密度最大的点为初始簇中心;2)基于权重的海明距离来计算文本相似度,同时采用轮廓系数来衡量不同算法的聚类质量.实验结果表明:该算法相比原始的K均值文本聚类算法和文献[1]中算法具有更好的聚类质量.  相似文献   

7.
基于样本空间分布密度的初始聚类中心优化K-均值算法*   总被引:2,自引:1,他引:1  
针对传统K-均值聚类算法对初始聚类中心敏感、现有初始聚类中心优化算法缺乏客观性,提出一种基于样本空间分布密度的初始聚类中心优化K-均值算法。该算法利用数据集样本的空间分布信息定义数据对象的密度,并根据整个数据集的空间信息定义了数据对象的邻域;在此基础上选择位于数据集样本密集区且相距较远的数据对象作为初始聚类中心,实现K-均值聚类。UCI机器学习数据库数据集以及随机生成的带有噪声点的人工模拟数据集的实验测试证明,本算法不仅具有很好的聚类效果,而且运行时间短,对噪声数据有很强的抗干扰性能。基于样本空间分布密度的初始聚类中心优化K-均值算法优于传统K-均值聚类算法和已有的相关K-均值初始中心优化算法。  相似文献   

8.
提出了一种基于树结构椭圆簇分裂的深度图像分割算法 .该算法是根据聚类簇协方差矩阵分解的物理含义 ,利用数据的二维散布来同时确定分裂扰动矢量的方向和长度 ,迭代地分裂聚类簇 ,为期望最大化算法提供初始值 .算法还充分利用表面法向高斯混合模型的物理含义来减少聚类次数 ,并根据几何含义清晰的门限自适应确定类别数 .作者针对两种深度相机的 6 0幅真实深度图像进行了实验 ,并与传统的树结构扰动方案以及K均值算法初始方案进行了客观比较 .实验证明 ,新的初始值方案以更少的聚类次数得到了更好的结果  相似文献   

9.
提出了一种新的基于PCA和K-均值聚类的有监督二叉分裂层次聚类方法PCASHC,用K-均值聚类进行逐次二叉聚簇分裂,选择PCA第一主成分相距最远样本点作为K-均值聚类初始聚簇中心,解决了K-均值聚类初始中心随机选择导致结果不确定的问题,用聚簇样本类别方差作为聚簇样本不纯度控制聚簇分裂水平,避免过拟合,可学习到合适的聚类数目。用四组UCI标准数据集对其进行了10折交叉验证分类误差检验,与另外七种分类器相比说明PCASHC有较高的分类精度。  相似文献   

10.
新的K-均值算法最佳聚类数确定方法   总被引:8,自引:0,他引:8       下载免费PDF全文
K-均值聚类算法是以确定的类数k和随机选定的初始聚类中心为前提对数据集进行聚类的。通常聚类数k事先无法确定,随机选定的初始聚类中心容易使聚类结果不稳定。提出了一种新的确定K-均值聚类算法的最佳聚类数方法,通过设定AP算法的参数,将AP算法产生的聚类数作为聚类数搜索范围的上界kmax,并通过选择合适的有效性指标Silhouette指标,以及基于最大最小距离算法思想设定初始聚类中心,分析聚类效果,确定最佳聚类数。仿真实验和分析验证了以上算法方案的可行性。  相似文献   

11.
为了解决K-means算法在聚类数量增多的情况下,因选择了不合适的中心初值而影响到聚类效果这一问题,提出了一种局部迭代的快速K-means聚类算法(PIFKM+?)。该算法在K-means聚类的基础上,不断寻找能够被分割的聚类簇和能够被删除的聚类簇,并对受影响的局部数据进行重新聚类处理,降低了整个聚类更新的时间复杂度,提高了聚类的效果。PIFKM+?算法在面对聚类数量众多的情况下,具有能够快速更新聚类、对聚类中心初值不敏感、能够提高聚类精确度等优势。通过与K-means和K-means++两种算法的比较,在仿真数据集和真实数据集的综合实验下,验证了该算法的精确性、高效率性和可扩展性,同时实验结果的统计分析表明该算法在提高了聚类精确度的同时并没有损失太多的时间效率。  相似文献   

12.
K-means算法所使用的聚类准则函数是将数据集中各个簇的误差平方值直接相加而得到的,不能有效处理簇的密度不均且大小差异较大的数据集。为此,将K-means算法的聚类准则函数定义为加权的簇内标准差之和,权重为簇内数据对象数占总数目的比例。同时,调整了传统K-means算法将数据对象重新分配给簇的方法,采用一个数据对象到中心点的加权距离代替传统K-means算法中的距离,将数据对象分配给使加权距离最小的中心点所在的簇。实验结果表明,针对模拟数据集的聚类,改进K-means算法可以明显减少大而稀的簇中数据对象被错误地分配到相邻的小而密簇的可能性,改善了聚类的质量;针对UCI数据集的聚类,改进算法使得各个簇更为紧凑,从而验证了改进K-means算法的有效性。  相似文献   

13.
一种改进的半监督K-Means聚类算法   总被引:1,自引:0,他引:1  
半监督聚类利用部分标签的数据辅助未标签的数据进行学习,从而提高聚类的性能。针对基于K-means的聚类算法发现非球状簇能力差的问题,本文提出新的处理思想,即把已标签数据对未标签数据的引力影响加入到类别分配决策中,给出了类与点的引力影响度定义,设计了带引力参数的半监督K-means聚类算法。实验表明,该算法在处理非球状簇分布的聚类时比现有的半监督K-means方法效果更好。  相似文献   

14.
王勇  唐靖  饶勤菲  袁巢燕 《计算机应用》2014,34(5):1331-1335
针对K-means聚类算法通常无法事先设定聚类数,而人为设定初始聚类数目容易导致聚类结果不够稳定的问题,提出一种新的高效率的K-means最佳聚类数确定算法。该算法通过样本数据分层来得到聚类数搜索范围的上界,并设计了一种聚类有效性指标来评价聚类后类内与类间的相似性程度,从而在聚类数搜索范围内获得最佳聚类数。仿真实验结果表明,该算法能够快速、高效地获得最佳聚类数,对数据集聚类效果良好。  相似文献   

15.
聚类分析是一种重要的数据挖掘方法。K-means聚类算法在数据挖掘领域具有非常重要的应用价值。针对K-means需要人工设定聚类个数并且易陷入局部极优的缺陷,提出了一种基于最近共享邻近节点的K-means聚类算法(KSNN)。KSNN在数据集中搜索中心点,依据中心点查找数据集个数,为K-means聚类提供参数。从而克服了K-means需要人工设定聚类个数的问题,同时具有较好的全局收敛性。实验证明KSNN算法比K-means、粒子群K-means(pso)以及多中心聚类算法(MCA)有更好的聚类效果。  相似文献   

16.
针对二分K-均值算法由于随机选取初始中心及人为定义聚类数而造成的聚类结果不稳定问题,提出了基于密度和中心指标的Canopy二分K-均值算法SDCBisecting K-Means。首先计算样本中数据密度及其邻域半径;然后选出密度最小的数据并结合Canopy算法的思想进行聚类,将得到的簇的个数及其中心作为二分K-均值算法的输入参数;最后在二分K-均值算法的基础上引入指数函数和中心指标对原始样本进行聚类。利用UCI数据集和自建数据集进行模拟实验对比,结果表明SDCBisecting K-Means不仅使得聚类结果更精确,同时算法的运行速度更快、稳定性更好。  相似文献   

17.
K-means聚类算法存在的主要不足之处之一在于需要用户指定聚类核数目,在一般应用场景下,用户无法给出合适的聚类核数目.另一方面,K-means聚类所具有的可并行化特点非常适合运用到云计算平台上以处理大规模数据样本的聚类任务.本文提出KBAC算法采用K-means算法作为预聚类过程并在云平台上进行实现和优化,能够自适应确定最佳聚类核数目并进行聚类.其核心思想是将样本空间聚类问题转换为图上社团发现问题.理论和实验证明,通过在云计算框架下实现K-means预聚类过程的并行化,KBAC算法能够高效地对大规模数据进行聚类,并获得高质量的聚类结果.  相似文献   

18.
针对等值面生成方法从C/S到B/S的移植存在效率低、交互性差的缺点,提出一种基于ArcGIS Server的等值面快速生成方法,通过ArcGIS Server中的ModelBuilder创建模型,建立地理处理服务,以SOAP方式访问调用服务器提供的Web服务生成等值面,在客户端加以渲染。在东莞市三防决策支持子系统中的应用结果表明,该方法在效率、外观、交互性方面都较符合用户需求,可减少网络传输量并提高GIS分析性能。  相似文献   

19.
聚类分析的应用很广泛,传统的K-means算法要求事先给定k值,限制了很多实际的应用,由于聚类的质量主要考察类内的紧凑性和类间的距离,提出了均衡化的评价函数,使用最近邻搜索算法减少算法的计算量,不仅自动生成聚类的数目,同时均衡了类内差异和类间差异对于聚类结果的影响,实验结果证明改进的K-means算法的有效性。  相似文献   

20.
为提高金融业务数据集上的聚类质量和聚类效率,提出簇的直径、簇间的相似度这2个概念。利用距离尺度降维的中心距序降维法,将多维数据降至一维,在一维上利用自适应排序聚类算法ASC聚类。该算法和传统的Cobweb算法、K-means算法做对比,实验表明该方法能提高簇间相似度,最大提高200%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号