首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 109 毫秒
1.
基于层次聚类的k均值算法研究   总被引:4,自引:3,他引:1  
针对k均值算法需要用户事先确定聚簇数k、阈值t和聚簇中心Q,提出了一种基于层次的k均值聚类算法(HKMA)。该算法首先采用层次方法对文档进行初始聚类,得到的聚类总数作为k均值算法中的k值,在此基础上,通过k均值聚类对聚类结果进行修正。最后通过实验验证了算法的准确度和时间效率,通过与其他聚类算法的比较,所提出的算法具有更好的性能。  相似文献   

2.
基于k均值分区的流数据高效密度聚类算法   总被引:2,自引:0,他引:2  
数据流聚类是数据流挖掘研究的一个重要内容,已有的数据流聚类算法大多采用k中心点(均值)方法对数据进行聚类,不能对数据分布不规则以及高维空间数据流进行有效聚类.论文提出一种基于k均值分区的流数据密度聚类算法,先对数据流进行分区做k均值聚类生成中间聚类结果(均值参考点集),随后对这些均值参考点进行密度聚类,理论分析和实验结果表明算法可以有效解决数据分布不规则以及高维空间数据流聚类问题,算法是有效可行的.  相似文献   

3.
依据信息论的思想,对基于层次的K-均值聚类算法(HKMA)过程进行了分析,该算法首先采用层次方法对文档进行初始聚类,得到的聚类总数作为k均值算法中的k值,在此基础上,通过k均值聚类对聚类结果进行修正。实验结果表明,HKMA执行时间整体上优于k-means算法,而且随着数据量的增大执行时间的增长幅度也较小。  相似文献   

4.
k均值聚类算法在入侵检测中已经得到了广泛的研究。该文在k均值算法基础上,提出了改进的k均值算法。将k均值算法和改进的k均值算法分别应用于入侵检测。试验结果表明,改进后的k均值算法能够避免k均值算法固有的缺点,并且有比较高的检测性能。  相似文献   

5.
针对高分辨率天文图像中的星点聚类研究中存在的 2 个问题:①天文图像的分辨率 较高,且图像处理速度较慢;②选取何种聚类算法对天文图像中的星点进行聚类分析效果较好。 在研究中,问题 1 采用图像分块的方法提高图像的处理速度;问题 2 提出了一种改进的 K 均值聚 类算法,以解决传统的 K 均值聚类算法的聚类结果易受到 k 值和初始聚类中心随机选择影响的问 题。该算法首先在用 K 均值聚类算法对数据初步聚类的基础上确定合适的 k 值,其次用层次聚类 对数据聚类确定初始聚类中心,最后在此基础上再采用 K 均值聚类算法进行聚类。通过 MATLAB 仿真实验的结果表明,该算法的聚类结果与效率优于其他聚类算法。  相似文献   

6.
针对密度峰值聚类(CFSFDP)算法处理多密度峰值数据集时,人工选择聚类中心易造成簇的误划分问题,提出一种结合遗传k均值改进的密度峰值聚类算法。在CFSFDP求得的可能簇中心中,利用基于可变染色体长度编码的遗传k均值的全局搜索能力自动搜索出最优聚类中心,同时自适应确定遗传k均值的交叉概率,避免早熟问题的出现。在UCI数据集上的实验结果表明,改进算法具有较好的聚类质量和较少的迭代次数,验证了所提算法的可行性和有效性。  相似文献   

7.
一种新的聚类算法--粒子群聚类算法   总被引:12,自引:0,他引:12  
在分析K均值聚类算法存在不足的基础上,该文提出了一种新的聚类算法:基于粒子群的K均值聚类算法。实验结果证明,该算法有很好的全局收敛性,不仅有效地克服了传统的k均值算法易陷入局部极小值和对初始值敏感的问题,而且具有较快的收敛速度。  相似文献   

8.
现有的对多维数据进行聚类的常用聚类算法,通常需要事先给定聚类数k.但在大多数情况下,聚类数k事先无法确定,因此需要对最佳聚类数k进行优化处理.采用基于微粒群算法的聚类算法.为了解决微粒群聚类算法无法确定聚类数k的现象,通过k均值算法的引入,实现最佳聚类数k的求解和聚类有效性函数的构造,试验证明引入类间距离的聚类有效性检测函数对最佳聚类数判别科学,同时由于检测函数中类间距离权重的引入使该检测函数可以更好地应用于现实数据分析.  相似文献   

9.
在数据挖掘中,K均值聚类算法作为最典型、最常见、实用度最广的一种聚类算法,具有简单易操作等优点。但K均值聚类算法也存在部分缺点,其在训练前需要提前设定聚类中心个数,在训练过程中容易陷入局部最优,面对多维数据样本其效果不佳,得到的聚类结果受初始聚类中心个数的设定影响较大。对k均值聚类算法的优化方案较多,本文主要针对前人提出的基于BP神经网络的K均值聚类算法和基于SOM网络改进的K均值聚类算法效果进行分析,为后续的进一步改进提供基础。  相似文献   

10.
郑芸芸  王萍  游强华 《福建电脑》2013,(12):103-104,111
由于k-均值经典算法必须在聚类前随机地选择聚类的个数k,则后所得到的聚类结果会受到初始选择的聚类个数的影响。针对这个问题,根据寻找最优初值及免受孤立点影响的思想,提出了一种改进的k-均值聚类算法。实验证明改进的k-均值聚类算法在一定程度上解决了该算法对初始值的依赖,并部分减少了算法受噪声数据影响的可能。  相似文献   

11.
[K]均值聚类算法是聚类领域最知名的方法之一,然而[K]均值聚类完全依赖欧式距离进行聚类,忽略了样本特征离散程度对聚类结果的影响,导致聚类边缘样本容易被误聚类,且算法易局部收敛,聚类准确率较低。针对传统[K]均值聚类算法的不足,提出了似然[K]均值聚类算法,对于每个聚类的所有样本考虑每个维度样本特征的离散程度信息,分别计算样本属于某一聚类的似然概率,能够有效提高聚类准确率。在人造数据集和基准数据集验证了似然[K]均值聚类算法的优越性,将其应用于涡扇发动机气路部件故障以及传感器故障的模式识别,验证了该算法在涡扇发动机故障诊断中的实用性和有效性。  相似文献   

12.
文档聚类中k-means算法的一种改进算法   总被引:14,自引:0,他引:14  
万小军  杨建武  陈晓鸥 《计算机工程》2003,29(2):102-103,157
介绍了文档聚类中基于划分的k-means算法,k-means算法适合于海量文档集的处理,但它对孤立点很敏感,为此,文章提出将聚类均值点与聚类种子相分离的思想,并具体给出了基于该思想的对k-means算法的改进算法,实验表明,该改进算法比原k-means算法具有更高的准确性和稳定性。  相似文献   

13.
K-means聚类算法的性能依赖于距离度量的选择,k-means算法将欧几里德距离作为最常用的距离度量方法。欧氏距离认为所有属性在聚类中作用是相同的,但是这种距离度量方法并不能准确反映样本间的相异性。针对这种不足,提出了融合变异系数的k-means聚类分析方法(CV-k-means),利用变异系数权重向量来减少不相关属性的影响。实验结果表明,该方法的聚类结果优于k-means算法。  相似文献   

14.
针对经典k_均值聚类方法只能处理静态数据聚类的问题,本文提出一种能够处理动态数据的改进动态k-均值聚类算法,称为Dynamical K-means算法.该方法在经典k-均值方法的基础上,通过对动态变化的数据集中 新加入样本进行分析和处理,根据聚类目标函数改变的实际情况选择最相似的类别进行局部更新或进行全局经典k_均值聚类,有效检测发生聚类概念漂移和没有发生聚类概念漂移的情况,从而实现了动态数据的在线聚类,避免了经典k_均值方法在动态数据中每次都要对全部数据重新聚类而导致算法速度过慢的问题.标准数据集和人工社会网络数据集上的实验结果表明,与经典k_均值聚类方法相比,本文提出的动态k_均值聚类方法能快速高效地处理动态数据聚类问题,并有效地检测动态数据聚类过程中所产生的概念漂移问题.  相似文献   

15.
一种大规模的递增聚类算法及其在文档聚类中的应用   总被引:2,自引:0,他引:2  
聚类是将数据进行划分,并从中发现有用信息的一种有效手段,它在很多领域都有着非常重要的应用。K均值方法是聚类方法中较常用的一种,但对于大规模的数据,而且有计算资源和时间约束的情况下,K均值方法已不能满足要求。该文提出的CFK-means方法是一种适合于大规模数据的、快速高效的递增聚类方法,它采用了聚类特性(Clus-teringFeatures,CF)结构来表示聚类,能更有效地保留和利用聚类信息。它只需扫描数据一次即可得到聚类划分,所需的计算时间和文件交换时间数倍少于K均值方法,而且聚类的准确度和K均值方法相当。通过对仿真数据和实际文本集数据进行的对比实验证明了CFK-means方法的有效性。  相似文献   

16.
Data clustering has been proven to be an effective method for discovering structure in medical datasets. The majority of clustering algorithms produce exclusive clusters meaning that each sample can belong to one cluster only. However, most real-world medical datasets have inherently overlapping information, which could be best explained by overlapping clustering methods that allow one sample belong to more than one cluster. One of the simplest and most efficient overlapping clustering methods is known as overlapping k-means (OKM), which is an extension of the traditional k-means algorithm. Being an extension of the k-means algorithm, the OKM method also suffers from sensitivity to the initial cluster centroids. In this paper, we propose a hybrid method that combines k-harmonic means and overlapping k-means algorithms (KHM-OKM) to overcome this limitation. The main idea behind KHM-OKM method is to use the output of KHM method to initialize the cluster centers of OKM method. We have tested the proposed method using FBCubed metric, which has been shown to be the most effective measure to evaluate overlapping clustering algorithms regarding homogeneity, completeness, rag bag, and cluster size-quantity tradeoff. According to results from ten publicly available medical datasets, the KHM-OKM algorithm outperforms the original OKM algorithm and can be used as an efficient method for clustering medical datasets.  相似文献   

17.
覃晓  梁伟  元昌安  唐涛 《计算机科学》2017,44(1):100-102
传统的谱聚类方法使用k-means达到最后的聚类目的。k-means对初始条件敏感,易陷入局部最优,从而导致传统的谱聚类方法应用到图像分割时效果不太理想。将遗传算法用于优化谱方法的聚类阶段,提出一种以遗传算法优化普聚类的图像分割方法(Image Segmentation Algorithm of Spectral Clustering Optimization Based on Genetic,ISCOG)。在合成图像与真实图像上的实验表明ISCOG算法极大地提高了谱聚类算法的稳定性和聚类质量,证明了ISCOG算法的优越性。  相似文献   

18.
文章介绍了Web文档聚类中普遍使用的基于分割的k-means算法,分析了k-means算法所使用的向量空间模型和基于距离的相似性度量的局限性,从而提出了一种改善向量空间模型以及相似性度量的方法。实验表明,改进后的k-means算法不仅保留了原k-means算法效率高的优点,而且具有更高的准确性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号