首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 93 毫秒
1.
一种基于SOM和K-means的文档聚类算法   总被引:9,自引:0,他引:9  
提出了一种把自组织特征映射SOM和K-means算法结合的聚类组合算法。先用SOM对文档聚类,然后以SOM的输出权值初始化K-means的聚类中心,再用K—means算法对文档聚类。实验结果表明,该聚类组合算法能改进文档聚类的性能。  相似文献   

2.
基于SOM网和K-means的聚类算法   总被引:1,自引:1,他引:0  
K-means算法因对初始中心依赖性而导致聚类结果可能陷入局部极小.而恰当的选取初始中心向量就成为改进K-means算法的关键所在.因此可以先通过SOM进行聚类,较快确定聚类范围,再将其结果作为K-means方法的初始中心向量加以使用.实验证明结合这两种算法能够弥补这两种方法的缺陷,较好改善聚类效果.  相似文献   

3.
针对传统K-means算法存在的缺陷,引进人工鱼群算法,提出了一种基于改进鱼群和K-means的混合聚类算法。聚类样本中心点初始化时,人工鱼各维参数随机选择在对应属性两个极值之间,同时为了降低计算复杂度,提高收敛效率,寻找全局最优,首先对随机选取的一小部分人工鱼进行K-means操作,然后对全体人工鱼的追尾算子引入粒子群策略,引导其学习,模拟人工鱼的行为。通过Matlab仿真实现算法,在费雪鸢尾花卉数据集和葡萄酒质量数据集进行了实验,算法的有效性和可行性得到了验证。  相似文献   

4.
一种改进K-means算法的聚类算法CARDBK   总被引:1,自引:0,他引:1  
CARDBK聚类算法与批K-means算法的不同之处在于,每个点不是只归属于一个簇,而是同时影响多个簇的质心值,一个点影响某一个簇的质心值的程度取决于该点与其它离该点更近的簇的质心之间的距离值。 从聚类结果的熵、纯度、F1值、Rand Index和NMI等5个性能指标值来看,与多个不同算法在多个不同数据集上分别聚类相比, 该算法具有较好的聚类结果;与多个不同算法在同一数据集上很多不同的初始化条件下分别聚类相比,该算法具有较好且稳定的聚类结果;该算法在不同大小数据集上聚类时具有线性伸缩性且速度较快。  相似文献   

5.
王娟 《微型机与应用》2011,30(20):71-73,76
传统K-means算法对初始聚类中心的选取和样本的输入顺序非常敏感,容易陷入局部最优。针对上述问题,提出了一种基于遗传算法的K-means聚类算法GKA,将K-means算法的局部寻优能力与遗传算法的全局寻优能力相结合,通过多次选择、交叉、变异的遗传操作,最终得到最优的聚类数和初始质心集,克服了传统K-means算法的局部性和对初始聚类中心的敏感性。  相似文献   

6.
针对初始聚类中心对传统K-means算法的聚类结果有较大影响的问题,提出一种依据样本点类内距离动态调整中心点类间距离的初始聚类中心选取方法,由此得到的初始聚类中心点尽可能分散且具代表性,能有效避免K-means算法陷入局部最优。通过UCI数据集上的数据对改进算法进行实验,结果表明改进的算法提高了聚类的准确性。  相似文献   

7.
一种有效的基于划分和层次的混合聚类算法   总被引:1,自引:0,他引:1  
曾志雄 《计算机应用》2007,27(7):1692-1694
在综合分析基于划分的K均值聚类算法和基于层次的凝聚聚类算法的基础上,借鉴各种混合聚类方法,提出了一种执行效率更高和聚类质量更好的分阶段混合聚类算法(HCAP)。给出HCAP的策略思想、算法描述及性能分析,基于二维数据空间的模拟样本数据的实验验证该算法的有效性和合理性,在某些方面应用性能优于原算法。  相似文献   

8.
一种更有效的K-means聚类算法   总被引:1,自引:0,他引:1  
一个好的聚类算法不仅要考虑“同类内尽可能的相似,不同类间尽可能的相异”,而且也要考虑算法的时间复杂度。针对K-means算法依赖于初始聚类中心而影响聚类结果,提出了一种基于样本分布选取初始聚类中心的方法;针对K-means算法中每次调整聚类中心后指定聚类所需要的大量的距离计算,提出了三角不等式原理避免冗余计算的方法。将两种方法结合进行实验,结果表明新的方法更加有效,不仅较原算法有良好的聚类划分,而且加快了原算法的运行速度。  相似文献   

9.
聚类作为一种无监督的学习,能根据数据间的相似程度自动地进行分类。提出的基于交集的聚类组合新方法,借鉴了选举投票的思想。给定同一数据集的不同聚类结果,此算法先求出不同聚类结果中每个簇的对应关系,然后计算这几个聚类结果对应簇的交集,对剩余的有争议对象进行投票,最后把投票之后仍未确定归属的对象分配给最近对象所在的簇,或者不经过投票直接将有争议的对象分配给最近对象所在的簇。实验表明,两种方法都能明显改善聚类质量,投票后得到的结果要略优于不投票的结果。  相似文献   

10.
一种基于人工鱼群的混合聚类算法   总被引:2,自引:0,他引:2  
聚类分析是数据挖掘的核心技术之一,它是一种无导师监督的模式识别方式。聚类分析就是按照数据间的相似程度,依据特定的准则将数据划分成不同子类。文中通过分析K-平均算法的优缺点,提出了一种基于人工鱼群算法的聚类分析算法,并把它与传统的K-平均算法结合得到一种新的混合聚类算法。仿真实验表明,该算法是有效的,具有聚类速度快、精度高特点。  相似文献   

11.
针对K-means算法处理海量数据的聚类效果和速率,提出一种基于MapReduce框架下的K-means算法分布式并行化编程模型。首先对K-means聚类算法初始化敏感的问题,给出一种新的相异度函数,根据数据间的相异程度来确定k值,并选取相异度较小的点作为初始聚类中心,再把K-means算法部署在MapReduce编程模型上,通过改进MapReduce编程模型来加快K-means算法处理海量数据的速度。实验表明,基于MapReduce框架下改进的K-means算法与传统的K-means算法相比,准确率及收敛时间方面均有所提高,并且并行聚类模型在不同数据规模和计算节点数目上具有良好的扩展性。  相似文献   

12.
一种改进的K-means聚类算法   总被引:1,自引:0,他引:1  
本文提出了一种带离群点数据过滤的K-means改进算法。该算法根据离群点数据特征制定了离群点数据的发现规则,并在原算法中加入了离群点数据的发现和处理步骤。通过对给定的具有普遍意义的数据实验表明,改进后算法能较为稳定的发现数据集中存在的离群点数据,这些离群点数据符合离群点数据特征;同时在剔除这些极少数离群点数据后,显著提高了聚类结果簇的凝聚度,从而有效克服了离群点数据对K-means算法的影响,使聚类效果得以显著提高。  相似文献   

13.
改进遗传算法的K-均值聚类算法研究   总被引:2,自引:0,他引:2  
传统的k-均值算法对初始聚类中心的敏感很大,极易陷入局部最优值;利用遗传算法或免疫规划算法解决初始聚类中心是较好的方法,但后期容易出现收敛速度缓慢.为了克服上述缺点,文章将免疫原理的选择操作机制引入遗传算法中,使个体浓度和适应度同时对个体的选择施加影响,以此提出基于改进遗传算法的K-均值聚类算法,该方法利用K-均值算法的高效性和改进遗传算法的全局优化搜索能力,较好地解决了聚类中心优化问题.试验结果表明,本算法能够有效改善聚类质量,并且具有较好的收敛速度.  相似文献   

14.
K-means算法是聚类分析中的一种经典算法,但是K-means算法是一种局部搜索技术,受初始聚类中心的影响可能会过早收敛于最优解.而遗传算法具有良好的全局优化的能力,将遗传算法与K-means算法结合起来,能很好解决这一问题.在结合的过程中,又在最传统的遗传算法中改进染色体编码与适应度函数,从而优化k个中心点的选取,...  相似文献   

15.
提出了一种k-means改进算法,通过考虑样本密度、距离因素选择初始聚类中心,有效克服了经典k-means算法初始值敏感、收敛结果容易陷入局部最优解的缺点。同时引入变异系数法对样本的不同属性在聚类过程中所起的作用不同进行加权处理,全面反映了各个属性对聚类结果的影响程度。最后利用KDD Cup 1999数据集进行仿真实验,结果表明,改进算法有效地提高了入侵检测质量。  相似文献   

16.
基于K-均值聚类的改进非选择算法研究   总被引:3,自引:0,他引:3  
文章提出了一种基于K-均值聚类的改进非选择算法,其核心是对检测器集进行K-均值聚类,将检测器集分为多个子类,根据子类中心和待检测数据的亲和度选择若干个合适的子类进行实际检测。文中对算法的检测过程进行了分析,并给出了该算法用于入侵检测时的测试实验结果。实验结果表明,文章算法在检测速度上有明显改善。  相似文献   

17.
基于密度加权的粗糙K-均值聚类改进算法   总被引:7,自引:1,他引:7  
针对粗糙K-均值聚类算法中类均值计算式的特点,提出了一种改进的粗糙K-均值算法.改进后的算法基于数据对象所在区域的密度,在类的均值计算过程中对每个对象赋以不同的权重.不同测试数据集的实验结果表明,改进后的粗糙K-均值算法提高了聚类的准确性,降低了迭代次数,并且可以有效地减小孤立点对聚类的影响.  相似文献   

18.
改进的K-means聚类k值选择算法   总被引:1,自引:0,他引:1       下载免费PDF全文
空间聚类算法中,聚类的效果在很大程度上受制于最佳[k]值的选择。典型的[K]-均值算法中,聚类数[k]需要事先确定,但在实际情况中[k]的取值很难确定。针对手肘法在确定[k]值的过程中存在的“肘点”位置不明确问题,基于指数函数性质、权重调节、偏执项和手肘法基本思想,提出了一种改进的[k]值选择算法ET-SSE算法。通过多个UCI数据集和[K]-means聚类算法对该算法进行实验,结果表明,使用该[k]值选择算法相比于手肘法能更加快速且准确地确定[k]值。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号