首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
针对传统的k-means算法处理离散型数据的不足以及选取初始聚类中心的随机性等缺点,提出了一种基于改进的粒子群优化k-means算法,根据文中提供的优化算法寻找初始聚类中心后,在阀值范围内进行数据样本间的迭代更新,直至聚类中心稳定。经过实验结果验证分析表明,经过改进的粒子群优化k-means算法与传统的k-means算法相比,更具有良好的聚类收敛效果,聚类效果也相对稳定。  相似文献   

2.
《软件工程师》2019,(5):32-34
针对传统k-means算法中初始聚类中心随机确定的问题,提出k-means改进算法。首先,定义变量权值,权值的大小等于样本密度乘以簇间距离除以簇内样本平均距离,通过最大权值来确定聚类中心,克服了随机确定聚类中心的不稳定性。然后在Hadoop平台上用Map-Reduce框架下实现算法的并行化。最后以南通公交IC刷卡记录为例,通过改进的k-means聚类算法进行IC卡刷卡记录的分析。实验表明,在Hadoop平台下改进k-means算法运行稳定、可靠,具有很好的聚类效果。  相似文献   

3.
一种大规模的递增聚类算法及其在文档聚类中的应用   总被引:2,自引:0,他引:2  
聚类是将数据进行划分,并从中发现有用信息的一种有效手段,它在很多领域都有着非常重要的应用。K均值方法是聚类方法中较常用的一种,但对于大规模的数据,而且有计算资源和时间约束的情况下,K均值方法已不能满足要求。该文提出的CFK-means方法是一种适合于大规模数据的、快速高效的递增聚类方法,它采用了聚类特性(Clus-teringFeatures,CF)结构来表示聚类,能更有效地保留和利用聚类信息。它只需扫描数据一次即可得到聚类划分,所需的计算时间和文件交换时间数倍少于K均值方法,而且聚类的准确度和K均值方法相当。通过对仿真数据和实际文本集数据进行的对比实验证明了CFK-means方法的有效性。  相似文献   

4.
近邻传递算法的快速、有效性体现在处理大的聚类问题上。采用图像低层特征,包括颜色、纹理和边缘特征,使用近邻传播算法初次聚类,将聚类结果的中心作为k-means的初始中心进行二次聚类。实验表明,二次聚类的正确率比一次聚类提高了将近10%,达到了95%。  相似文献   

5.
班风在大学生的学习环境中仍扮演着十分重要的作用,先建立数据集市,再利用数据挖掘中的K-means聚类算法对集市中的数据进行聚类分析,挖掘出真正优秀的班集体模式,取代以往主观性占主导地位的评选。  相似文献   

6.
本文研究了传统的凝聚层次聚类算法和k-means聚类算法及其它们的改进算法,并将他们结合起来提出了混合文本聚类算法,该算法可以挖掘出用户感兴趣的内容。  相似文献   

7.
杨军  刘洋  杨玉奇 《信息与电脑》2023,(10):209-211
随着互联网等技术的快速发展,信息技术大大提升了人们生活学习的便捷性,但同时勒索病毒等攻击行为也给互联网应用带来巨大的安全挑战。大部分技术发展依托于网络安全的支持,因此网络安全直接影响社会发展的信息安全问题。随着入侵方式多样化,人们对网络安全检查系统提出了更高的要求。传统网络安全防御技术采用被动模式,在攻击威胁爆发后才能启动杀毒工具,已经不能满足人们的需求。文章研究阐述K-means聚类算法原理,论述聚类算法在网络安全检测中的应用,建立网络异常检测模型以提高集中选取数据的准确性,然后通过仿真实验,验证改进算法检测的准确性。  相似文献   

8.
基于最小聚类划分的K-means聚类(1+ε)近似算法   总被引:3,自引:0,他引:3  
k-means聚类算法是解决聚类问题的一个常用方法.近年来,国外许多学者对该问题的近似常数算法和(1 ε)近似算法进行了研究.利用Kumar等人随机取样技术对于基于最小聚类划分k-means提出一个(1 ε)随机近似算法.该算法利用随机取样技术从集合中求出部分取样点,再对随机取样点进行组合找出每个聚类的部分点,将该部分点的质心点作为相应子聚类簇的质心点.通过多次运行该算法可以以较高概率求出k-means聚类的1 ε近似值.  相似文献   

9.
在目前聚类方法中, k-means与势函数是最常用的算法,虽然两种算法有很多优点,但也存在自身的局限性。 k-means聚类算法:其聚类数目无法确定,需要提前进行预估,同时对初始聚类中心敏感,且容易受到异常点干扰;势函数聚类算法:其聚类区间范围有限,对多维数据进行聚类其效率低。针对以上两种算法的缺点,提出了一种基于 K-means 与势函数法的改进聚类算法。它首先采用势函数法确定聚类数目与初始中心,然后利用K-means法进行聚类,该改进算法具有势函数法“盲”特性及K-means法高效性的优点。实验对改进算法的有效性进行了验证,结果表明,改进算法在聚类精度及收敛速度方面有很大提高。  相似文献   

10.
提出一种k-means聚类算法和超球结合的多类分类算法。对每一类样本,使用k-means算法获得子类,再在各个子类上构造最小超球,由此,对每类都获得一个超球集,这些超球将样本空间分割,根据样本点所在空间的位置,综合得到决策函数,用于对输入样本点进行类别判断。  相似文献   

11.
优化K-means初始聚类中心研究   总被引:2,自引:0,他引:2  
K-means算法因为对初始中心依赖性而导致聚类结果可能陷入局部极小。基于密度的多中心聚类并结合小类合并运算的聚类算法解决了计算空间上的极小化,收敛进度上得到了控制,结果明显优于K-means的聚类结果。算法的每一次迭代都是倾向于发现超球面簇,尤其对于延伸状的不规则簇具有良好的聚类能力。  相似文献   

12.
聚类分析是一种无监督的机器学习方法,聚类结果完全取决于所用聚类算法,不同的算法会得到不同的聚类结果,因此面对待挖掘数据选择合适的算法很重要。如何判断哪个聚类算法最合适,或者哪个算法的聚类结果最优,就需要用到聚类评价方法。本文选择各类聚类算法中的经典算法对某汽车4S店顾客消费数据进行聚类分析,最后用两种评价指标对各聚类结果进行评价进而选择出最优的聚类算法。  相似文献   

13.
在KSummary算法的基础上,引入层次和密度聚类方法,提出自适应多趟聚类方法。依次获得聚类个数k,聚类初始中心和最终聚类。将算法应用于无线传感器网络数据中,可以很好地发现数据中的离群点,从而找到传感器节点安全上存在的隐患。实验结果和分析表明:此算法不但可获得稳定、收敛的聚类结果,还能很好地发现离群点。  相似文献   

14.
对k-means聚类算法的改进   总被引:17,自引:6,他引:17  
袁方  孟增辉  于戈 《计算机工程与应用》2004,40(36):177-178,232
提出了一种k-means聚类算法中寻找初始聚类中心的新方法。算法首先计算样本间的距离,然后根据样本点之间的距离寻找有可能是一类的数据,依据这些样本点形成初始聚类中心,从而得到较好的聚类结果。实验表明,改进后的方法相对于随机选取初始聚类中心具有较高的准确率。  相似文献   

15.
在K-means型多视图聚类算法中,最终的聚类结果会受到初始类中心的影响。因此研究了不同的初始中心选择方法对K-means型多视图聚类算法的影响,并提出一种基于采样的主动式初始中心选择方法(sampledclustering by fast search and find of density peaks,SDPC)。该方法通过对数据集进行均匀采样,利用密度峰值快速搜索聚类算法(clustering by fast search and find of density peaks,DPC),以及K-means再迭代策略,进一步改善多视图聚类中的初始中心选择效率和类个数问题。实验验证了不同初始化方法对K-means型多视图聚类算法的影响。多视图基准数据集上的实验结果表明:全局(核)K-means初始化方法存在时间复杂度过高的问题,AFKMC~2(assumption-free K-Markov chain Monte Carlo)初始化适用于大规模数据,DPC可以主动选择类个数和初始类中心,SDPC较DPC而言,不仅能主动式获得类个数,还在聚类精度和效率上取得了较好的折衷。  相似文献   

16.
改进的K-means聚类算法及应用   总被引:1,自引:3,他引:1  
唐波 《软件》2012,(3):100-104
传统的K-means算法需要事先确定初始聚类中心,聚类精确程度不高。针对以上问题,本文结合熵值法和动态规划算法来对传统的K-means算法进行改进,提出了基于熵值法及动态规划的改进K-means算法。熵值法用来修订算法的距离计算公式,以提高算法的聚类精确程度,动态规划算法用来确定算法的初始聚类中心。将改进算法应用于矿井监测传感器聚类中,结果显示较传统的K-means算法,改进算法效率有了明显提高,聚类精确程度有较大增强。  相似文献   

17.
优化初始聚类中心的K-means聚类算法   总被引:1,自引:0,他引:1       下载免费PDF全文
针对传统K-means算法对初始中心十分敏感,聚类结果不稳定问题,提出了一种改进K-means聚类算法。该算法首先计算样本间的距离,根据样本距离找出距离最近的两点形成集合,根据点与集合的计算公式找出其他所有离集合最近的点,直到集合内数据数目大于或等于[α]([α]为样本集数据点数目与聚类的簇类数目的比值),再把该集合从样本集中删除,重复以上步骤得到K(K为簇类数目)个集合,计算每个集合的均值作为初始中心,并根据K-means算法得到最终的聚类结果。在Wine、Hayes-Roth、Iris、Tae、Heart-stalog、Ionosphere、Haberman数据集中,改进算法比传统K-means、K-means++算法的聚类结果更稳定;在Wine、Iris、Tae数据集中,比最小方差优化初始聚类中心的K-means算法聚类准确率更高,且在7组数据集中改进算法得到的轮廓系数和F1值最大。对于密度差异较大数据集,聚类结果比传统K-means、K-means++算法更稳定,更准确,且比最小方差优化初始聚类中心的K-means算法更高效。  相似文献   

18.
针对传统K-means算法初始聚类中心选择的随机性可能导致迭代次数增加、陷入局部最优和聚类结果不稳定现象的缺陷,提出一种基于隐含狄利克雷分布(LDA)主题概率模型的初始聚类中心选择算法。该算法选择蕴含在文本集中影响程度最大的前m个主题,并在这m个主题所在的维度上对文本集进行初步聚类,从而找到聚类中心,然后以这些聚类中心为初始聚类中心对文本集进行所有维度上的聚类,理论上保证了选择的初始聚类中心是基于概率可确定的。实验结果表明改进后算法聚类迭代次数明显减少,聚类结果更准确。  相似文献   

19.
《软件》2018,(1):35-38
随着互联网数据的指数级增长,传统的聚类算法面临许多新的问题和挑战。本文深入研究了基于Hadoop的分布式K-means聚类算法,给出了算法的设计方法和实现策略。在5个不同大小的数据集上的实验表明,与传统的K-means聚类算法相比,本文设计的算法具有较好的性能,可有效地应用于海量数据的分析和挖掘。  相似文献   

20.
贾磊  丁冠华 《福建电脑》2006,(11):47-47,56
从数据挖掘的基本概念入手,逐步深入分析本质,并且对k-means进行探讨,对其中的聚类中心的方法进行了改进。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号