首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 187 毫秒
1.
K-Means聚类算法的结果质量依赖于初始聚类中心的选择。该文将局部搜索的思想引入K-Means算法,提出一种改进的KMLS算法。该算法对K-Means收敛后的结果使用局部搜索来使其跳出局部极值点,进而再次迭代求优。同时对局部搜索的结果使用K-Means算法使其尽快到达一个局部极值点。理论分析证明了算法的可行性和有效性,而在标准文本集上的文本聚类实验表明,相对于传统的K-Means算法,该算法改进了聚类结果的质量。  相似文献   

2.
王宏杰  师彦文 《计算机科学》2017,44(Z11):457-459, 502
为了提高传统K-Means聚类算法的聚类准确性,提出一种结合初始中心优化和特征加权的改进K-Means聚类算法。首先,根据样本特征对聚类的贡献程度获得初始特征权重,构建一种加权距离度量。其次,利用提出的初始聚类中心选择方法获得k个初始聚类中心,并结合初始特征权重进行初步聚类。然后,根据聚类精度来调整特征权重并再次执行聚类过程。重复执行上述过程直到聚类精度不再变化,获得最终的聚类结果。在UCI数据库上的实验结果表明,与现有相关K-Means聚类算法相比,该算法具有较高的聚类准确性。  相似文献   

3.
基于K-Means的文本层次聚类算法研究   总被引:6,自引:0,他引:6  
尉景辉  何丕廉  孙越恒 《计算机应用》2005,25(10):2323-2324
提出了一种基于K-Means的文本层次聚类算法。它结合凝聚层次聚类和K Means算法的特点,减少凝聚层次法在凝聚过程中的错误,提高了聚类质量。实验结果表明,该算法的聚类质量优于层次聚类法。  相似文献   

4.
摘 要 针对传统K-Means聚类算法对初始聚类中心的敏感性和随机性,造成容易陷入局部最优解和聚类结果波动性大的问题。结合密度法和最大化最小距离的思想,本文提出基于最近高密度点间的垂直中心点优化初始聚类中心的K-Means聚类算法,该算法首先选取相互间距离最大的K对高密度点,并以这K对高密度点的均值作为聚类的初始中心,然后再进行K-Means聚类。实验结果表明,该算法有效排除样本中含有的孤立点,并且聚类过程收敛速度快,聚类结果有更好的准确性和稳定性。  相似文献   

5.
基于数据挖掘算法的入侵检测方法   总被引:4,自引:2,他引:2       下载免费PDF全文
陈小辉 《计算机工程》2010,36(17):72-73,76
K-Means 和 DBSCAN算法初始聚类中心的选择对数据挖掘结果的影响较大。针对上述问题,利用信息熵改进初始聚类中心选择方法,提高数据挖掘效率。将改进的K-Means算法与DBSCAN算法结合应用于入侵检测系统,对一个通用检测记录集进行异常检测测试,实验结果证明了该方法的有效性。  相似文献   

6.
K-Means算法是一种经典的聚类算法,有很多优点,也存在许多不足。比如初始聚类数K要事先指定,初始聚类中心选择存在随机性,算法容易生成局部最优解,受孤立点的影响很大等。文中主要针对K-Means算法初始聚类中心的选择以及孤立点问题加以改进,首先计算所有数据对象之间的距离,根据距离和的思想排除孤立点的影响,然后提出了一种新的初始聚类中心选择方法,并通过实验比较了改进算法与原算法的优劣。实验表明,改进算法受孤立点的影响明显降低,而且聚类结果更接近实际数据分布。  相似文献   

7.
K-Means聚类算法的研究   总被引:6,自引:0,他引:6  
K-Means算法是一种经典的聚类算法,有很多优点,也存在许多不足.比如初始聚类数K要事先指定,初始聚类中心选择存在随机性,算法容易生成局部最优解,受孤立点的影响很大等.文中主要针对K-Means算法初始聚类中心的选择以及孤立点问题加以改进,首先计算所有数据对象之间的距离,根据距离和的思想排除孤立点的影响,然后提出了一种新的初始聚类中心选择方法,并通过实验比较了改进算法与原算法的优劣.实验表明,改进算法受孤立点的影响明显降低,而且聚类结果更接近实际数据分布.  相似文献   

8.
K-Means算法随机选择聚类中心初始点,导致聚类器性能不稳定。对此,提出基于可变阈值的初始聚类中心选择方法(VTK-Means)。该算法选择距已有初始点距离大于一个阈值的样例作为初始聚类中心,并根据满足条件的初始聚类中心个数适当调整阈值。在10个UCI数据集上的实验结果表明,该算法性能明显优于K-Means算法。  相似文献   

9.
针对K-Means算法所存在的问题,提出了一种改进的K-Means算法,该方法通过选取相互距离最远的数据点作为初始聚类中心,能够很好地排除随机选取初始聚类中心点的影响.通过实验验证,相对于传统K-Means算法,改进K-Means算法能够获得更好的聚类效果.  相似文献   

10.
一种基于元启发式策略的迭代自学习K-Means算法   总被引:1,自引:0,他引:1  
类内误差平方和最小化的聚类准则求解是NP难问题,K-Means采用的迭代重定位方法本质上是一种局部搜索的爬山算法,因此聚类结果对初始代表点的选择非常敏感,只能保证局部最优.为此,引入元启发式策略,通过建立评估函数对K-Means初始代表点和目标函数之间的依赖关系进行近似,然后利用近似评估函数指导新的初始代表点的选择,构成一种迭代自学习框架下的K-Means算法.实验表明算法可以很好地克服K-Means对初始代表点的依赖性,获得较高质量的聚类结果.  相似文献   

11.
针对SOM 神经网络算法复杂度高精度低以及K-Means聚类算法需事先确定聚类(簇)数目和随机选取初始聚类中心的不足,论文提出了一种SOM神经网络与K-M eans相结合的S-K二次聚类算法,进行功能互补。该算法应用在SM T焊接质量上,能提高数据聚类信息的精确度,直观地看到数据的分布情况,改善系统的整体性能。  相似文献   

12.
基于K-Means 的无线传感网分簇算法研究*   总被引:2,自引:0,他引:2  
针对传统分层路由算法存在的分簇不均匀、簇头选举不合理以及数据传输形式单一等问题,提出基于K-Means 的无线传感网改进分簇算法LEACH-KPP。首先在成簇阶段采用K-Means 算法实现均匀分簇,随后在簇头选举阶段使用改进簇头选举函数选取簇头,最后在融合数据传输阶段根据簇头与基站,簇头与簇头之间距离动态选择单跳与多跳的混合传输方式传输数据。OMNet 仿真结果与时间复杂度推导表明,LEACH-KPP延长了网络的生存周期,在节点剩余能量与后期存活数目上都优于传统分层路由算法。  相似文献   

13.
针对层次聚类方法与K-Means聚类方法的一些不足,提出了一种基于密度偏差抽样的改进聚类分析算法DS-Ward,该算法能够自动获得中心点和聚类数,能够在计算量减少的情况下得到较为可靠的结果。通过基于该方法的卖方信用聚类分析模型对实际数据进行分析,以发现不同类别卖方的销售信用特点。  相似文献   

14.
一种基于网格的改进的K-Means聚类算法   总被引:1,自引:0,他引:1  
K-Means算法对数据集中的每个数据点进行多次处理,因此对于大数据集时间效率不高.为提高K-Means算法的时间性能并使聚类结果更优,利用网格方法定义了单元密度聚合度概念,提出了一种基于网格的改进的K-Means聚类算法(IKMG).IKMG利用网格连通性原理并借助树形结构,将多个密集网格单元作为初始根节点,周围网格作为它的子节点,以此类推,广度优先扩展树最终得到K个聚类树.实验结果表明,IKMG不但大大缩短了K-Means算法对大数据集的处理时间,而且能有效消除聚类结果对初始聚类中心的敏感性,无需人为指定K值,能找出不同大小、不同形状的聚类.  相似文献   

15.
基于遗传算法的K均值聚类分析   总被引:23,自引:0,他引:23       下载免费PDF全文
传统K均值算法对初始聚类中心敏感,聚类结果随不同的初始输入而波动,容易陷入局部最优值。针对上述问题,该文提出一种基于遗传算法的K均值聚类算法,将K均值算法的局部寻优能力与遗传算法的全局寻优能力相结合,在自适应交叉概率和变异概率的遗传算法中引入K均值操作,以克服传统K均值算法的局部性和对初始中心的敏感性,实验证明,该算法有较好的全局收敛性,聚类效果更好。  相似文献   

16.
根据模糊聚类算法和量子粒子群算法,提出一种基于以上两种算法的网络异常检测模型,并将该模型应用到Ad Hoc无线网络异常检测中。在聚类分析中,K-Means聚类算法是应用最广泛的方法之一。该模型先利用K-Means聚类算法的结果重新初始化粒子群,聚类过程都是根据数据向量间的欧几里德距离;再通过量子粒子群优化算法寻找聚类中心;最后进行仿真模拟,实验结果表明该模型对Ad Hoc无线网络异常检测是有效的。  相似文献   

17.
在大数据环境下,从海量的互联网数据中获取热点话题是研究当前互联网中民意民情的基础,其中文本聚类是得到热点话题最常用的方法之一,可以分为文本向量化表示和聚类2个步骤。然而在文本向量化表示任务中,传统的文本表示模型无法准确表示新闻、帖文等文本的上下文语境信息。在聚类任务中,最常使用的是K-Means算法和DBSCAN算法,但是它们对数据的聚类方式与实际中话题数据的分布不符,这使得现有的文本聚类算法在实际的互联网环境中应用效果很差。本文根据互联网中话题的数据分布情况,提出一种基于RoBERTa-WWM和HDBSCAN的文本聚类算法。首先利用预训练语言模型RoBERTa-WWM得到每一篇文本的文本向量,其次利用t-SNE算法对高维文本向量进行降维,最后利用基于层次的密度聚类算法的HDBSCAN算法对低维的文本向量进行聚类。实验结果表明提出的算法相较于现有的文本聚类算法,在含有噪声数据且分布不均衡的数据集上,聚类效果有很大的提升。  相似文献   

18.
基于密度的K-Means算法及在客户细分中的应用研究   总被引:4,自引:1,他引:3       下载免费PDF全文
针对K-Means算法所存在的问题进行了深入研究,提出了基于密度的K-Means算法(KMAD算法)。该算法采用聚类对象区域空间的密度分布方法来确定聚类个数K的值,然后用高密度区域的质心作为K-Means算法的初始聚类中心。理论分析与实验结果表明了改进算法的有效性和稳定性,并将改进的算法应用于客户细分研究中。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号