首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
庞淑敬  彭建 《微计算机信息》2012,(1):161-162,172
针对数据集中若存在孤立点或者是噪声数据会影响模糊C均值聚类算法(FCM)的聚类性能问题,本文将离群点的辨认方法与FCM算法相结合,提出一种改进的FCM聚类算法。该算法有效地降低了孤立点或噪声数据对正常数据的影响,提高了FCM算法的聚类精度。将该算法在入侵检测系统中进行实验验证,通过与FCM算法进行对比分析,证明了该算法的有效性和可行性。  相似文献   

2.
FCM算法对初始聚类中心敏感,对噪声和孤立点敏感,容易受到数据分布的影响。本文的改进算法引入物理学上的数据场理论,用势函数来描述数据的分布,优化初始聚类中心;同时采用冗余聚类中心的方法,即将大簇分割成多个小类,再用分离度作为评估函数进行类合并。仿真实验结果表明,改进算法能够克服FCM算法的一些缺陷,对数据分布不规则的数据集进行有效聚类,聚类效果良好。  相似文献   

3.
基于减法聚类改进的模糊c-均值算法的模糊聚类研究   总被引:2,自引:0,他引:2  
针对模糊c-均值(FCM)聚类算法受初始聚类中心影响,易陷入局部最优,以及算法对孤立点数据敏感的问题,提出了解决方案:采用快速减法聚类算法初始化聚类中心,为每个样本点赋予一个定量的权值,用来区分不同的样本点对最终的聚类结果的不同作用,为提高聚类速度采用修正隶属度矩阵的方法,并将算法与传统的FCM相比.实验结果表明,该算法较好地解决了初值问题,与随机初始化方法相比,迭代次数少、收敛速度快、具有较好的聚类结果.  相似文献   

4.
针对当前FCM算法在处理Web日志数据聚类中存在对孤立点比较敏感,要求输入聚类原型参数的先验数据以及容易陷入局部极值等缺陷,在引入竞争凝聚算法机制的基础上,该文提出了一种新的Web日志数据聚类算法CAWFCM,该算法通过对隶属度加权来减小孤立点数据的影响,引入竞争机制策略来解决模糊均值聚类算法不能自动确定聚类类别数的问题。仿真实验表明,CAWFCM算法对Web日志数据的挖掘效果良好,其性能优于FCM算法。  相似文献   

5.
K-means算法的聚类效果与初始聚类中心的选择以及数据中的孤立点有很大关联,具有很强的不确定性。针对这个缺点,提出了一种优化初始聚类中心选择的K-means算法。该算法考虑数据集的分布情况,将样本点分为孤立点、低密度点和核心点,之后剔除孤立点与低密度点,在核心点中选取初始聚类中心,孤立点不参与聚类过程中各类样本均值的计算。按照距离最近原则将孤立点分配到相应类中完成整个算法。实验结果表明,改进的K-means算法能提高聚类的准确率,减少迭代次数,得到更好的聚类结果。  相似文献   

6.
针对FCM算法的缺点,提出了一种基于改进的FCM的增量式聚类方法。该算法首先对模糊C均值算法进行加权,并将权系数归一化,然后将改进的算法与增量式聚类算法结合。改进的方法既提高了FCM算法的性能,避免了FCM算法的缺陷,并能够实现增量式聚类,避免了大量的重复计算,并且不受孤立点的影响。实验表明该算法的有效性。  相似文献   

7.
FCM算法是目前广泛使用的算法之一。,针对FCM聚类质量和收敛速度依赖于初始聚类中心的问题,结合Canopy聚类算法能够粗略快速地对数据集进行聚类的优点,提出了一种基于Canopy聚类的FCM算法。该算法通过将Canopy算法快速获取到的聚类中心作为FCM算法的输入来加快FCM算法收敛速度。并在云环境下设计了其MapReduce化方案,实验结果表明,MapReduce化的基于Canopy聚类的FCM算法比MapReduce化的FCM聚类算法具有更好的聚类质量和运行速度。  相似文献   

8.
基于初始聚类中心优化的K-均值算法   总被引:2,自引:0,他引:2       下载免费PDF全文
针对传统的K-均值算法对初始聚类中心的选取和孤立点敏感的问题,本文提出了一种基于点密度的初始聚类中心选取方法。利用该方法选出初始聚类中心,再应用K-均值算法进行聚类,同时对孤立点进行特殊处理。实验表明,该方法能够产生高质量的聚类结果。  相似文献   

9.
一种基于核的快速可能性聚类算法   总被引:1,自引:1,他引:0       下载免费PDF全文
传统的快速聚类算法大多基于模糊C均值算法(Fuzzy C-means,FCM),而FCM对初始聚类中心敏感,对噪音数据敏感并且容易收敛到局部极小值,因而聚类准确率不高。可能性C-均值聚类较好地解决了FCM对噪声敏感的问题,但容易产生一致性聚类。将FCM和可能性C-均值聚类结合的聚类算法较好地解决了一致性聚类问题。为进一步提高算法收敛速度和鲁棒性,提出一种基于核的快速可能性聚类算法。该方法引入核聚类的思想,同时使用样本方差对目标函数中参数η进行优化。标准数据集和人造数据集的实验结果表明这种基于核的快速可能性聚类算法提高了算法的聚类准确率,加快了收敛速度。  相似文献   

10.
模糊C均值聚类算法(FCM)是一种流行的聚类算法,在许多工程领域有着广泛的应用.密度加权的模糊C均值算法(Density Weighted FCM)是对传统FCM的一种改进,它可以很好的解决FCM对噪声敏感的问题.但是DWFCM与FCM都没有解决聚类结果很大程度上依赖初始聚类中心的选择好坏的问题.提出一种基于最近邻居节点对密度的FCM改进算法Improved-DWFCM,通过最近邻居节点估计节点密度的方法解决聚类结果对初始簇中心依赖的问题.仿真结果表明这种算法选择出来的初始聚类中心与最终结果的簇中心非常接近,大大提高了算法收敛的速度以及聚类的效果.  相似文献   

11.
In clustering algorithms, it is usually assumed that the number of clusters is known or given. In the absence of such a priori information, a procedure is needed to find an appropriate number of clusters. This paper presents a clustering algorithm that incorporates a mechanism for finding the appropriate number of clusters as well as the locations of cluster prototypes. This algorithm, called multi-scale clustering, is based on scale-space theory by considering that any prominent data structure ought to survive over many scales. The number of clusters as well as the locations of cluster prototypes are found in an objective manner by defining and using lifetime and drift speed clustering criteria. The outcome of this algorithm does not depend on the initial prototype locations that affect the outcome of many clustering algorithms. As an application of this algorithm, it is used to enhance the Hough transform technique.  相似文献   

12.
为了解决K-means算法在聚类数量增多的情况下,因选择了不合适的中心初值而影响到聚类效果这一问题,提出了一种局部迭代的快速K-means聚类算法(PIFKM+?)。该算法在K-means聚类的基础上,不断寻找能够被分割的聚类簇和能够被删除的聚类簇,并对受影响的局部数据进行重新聚类处理,降低了整个聚类更新的时间复杂度,提高了聚类的效果。PIFKM+?算法在面对聚类数量众多的情况下,具有能够快速更新聚类、对聚类中心初值不敏感、能够提高聚类精确度等优势。通过与K-means和K-means++两种算法的比较,在仿真数据集和真实数据集的综合实验下,验证了该算法的精确性、高效率性和可扩展性,同时实验结果的统计分析表明该算法在提高了聚类精确度的同时并没有损失太多的时间效率。  相似文献   

13.
Partitional clustering of categorical data is normally performed by using K-modes clustering algorithm, which works well for large datasets. Even though the design and implementation of K-modes algorithm is simple and efficient, it has the pitfall of randomly choosing the initial cluster centers for invoking every new execution that may lead to non-repeatable clustering results. This paper addresses the randomized center initialization problem of K-modes algorithm by proposing a cluster center initialization algorithm. The proposed algorithm performs multiple clustering of the data based on attribute values in different attributes and yields deterministic modes that are to be used as initial cluster centers. In the paper, we propose a new method for selecting the most relevant attributes, namely Prominent attributes, compare it with another existing method to find Significant attributes for unsupervised learning, and perform multiple clustering of data to find initial cluster centers. The proposed algorithm ensures fixed initial cluster centers and thus repeatable clustering results. The worst-case time complexity of the proposed algorithm is log-linear to the number of data objects. We evaluate the proposed algorithm on several categorical datasets and compared it against random initialization and two other initialization methods, and show that the proposed method performs better in terms of accuracy and time complexity. The initial cluster centers computed by the proposed approach are close to the actual cluster centers of the different data we tested, which leads to faster convergence of K-modes clustering algorithm in conjunction to better clustering results.  相似文献   

14.
对k-means聚类算法的改进   总被引:17,自引:6,他引:17  
袁方  孟增辉  于戈 《计算机工程与应用》2004,40(36):177-178,232
提出了一种k-means聚类算法中寻找初始聚类中心的新方法。算法首先计算样本间的距离,然后根据样本点之间的距离寻找有可能是一类的数据,依据这些样本点形成初始聚类中心,从而得到较好的聚类结果。实验表明,改进后的方法相对于随机选取初始聚类中心具有较高的准确率。  相似文献   

15.
基于半监督学习的K-均值聚类算法研究   总被引:4,自引:3,他引:1  
定义了一个欧氏距离和监督信息相混合的新的最近邻计算函数,从而将K-均值算法很好地应用于半监督聚类问题。针对K-均值算法初始质心敏感的缺陷,用粒子群算法的搜索空间模拟聚类的欧氏空间,迭代搜索找到较优的聚类质心,同时提出动态管理种群的策略以提高粒子群算法搜索效率。算法在UCI的多个数据集上测试都得到了较好的聚类准确率。  相似文献   

16.
基于样本空间分布密度的初始聚类中心优化K-均值算法*   总被引:2,自引:1,他引:1  
针对传统K-均值聚类算法对初始聚类中心敏感、现有初始聚类中心优化算法缺乏客观性,提出一种基于样本空间分布密度的初始聚类中心优化K-均值算法。该算法利用数据集样本的空间分布信息定义数据对象的密度,并根据整个数据集的空间信息定义了数据对象的邻域;在此基础上选择位于数据集样本密集区且相距较远的数据对象作为初始聚类中心,实现K-均值聚类。UCI机器学习数据库数据集以及随机生成的带有噪声点的人工模拟数据集的实验测试证明,本算法不仅具有很好的聚类效果,而且运行时间短,对噪声数据有很强的抗干扰性能。基于样本空间分布密度的初始聚类中心优化K-均值算法优于传统K-均值聚类算法和已有的相关K-均值初始中心优化算法。  相似文献   

17.
提出了两种基于佳点集遗传算法的聚类新方法GAmeans和HgaMeans,适用于不同数据库下的聚类挖掘。GAmeans可用于发现指定簇数的聚类中心,具有对初始数据的弱依赖性、收敛快、精度高并可避免早熟的特点;而混合方法HgaMeans是利用k-means对GAmeans聚类结果的进一步提炼,实验表明它具有更好的聚类质量和综合性能。  相似文献   

18.
针对传统的聚类集成算法难以高效地处理海量数据的聚类分析问题,提出一种基于MapReduce的并行FCM聚类集成算法。算法利用随机初始聚心来获取具有差异化的聚类成员,通过建立聚类成员簇间OVERLAP矩阵来寻找逻辑等价簇,最后利用投票法共享聚类成员中数据对象的分类情况得出最终的聚类结果。实验证明,该算法具有良好的精确度,加速比和扩展性,具有处理较大规模数据集的能力。  相似文献   

19.
在目前聚类方法中, k-means与势函数是最常用的算法,虽然两种算法有很多优点,但也存在自身的局限性。 k-means聚类算法:其聚类数目无法确定,需要提前进行预估,同时对初始聚类中心敏感,且容易受到异常点干扰;势函数聚类算法:其聚类区间范围有限,对多维数据进行聚类其效率低。针对以上两种算法的缺点,提出了一种基于 K-means 与势函数法的改进聚类算法。它首先采用势函数法确定聚类数目与初始中心,然后利用K-means法进行聚类,该改进算法具有势函数法“盲”特性及K-means法高效性的优点。实验对改进算法的有效性进行了验证,结果表明,改进算法在聚类精度及收敛速度方面有很大提高。  相似文献   

20.
在KSummary算法的基础上,引入层次和密度聚类方法,提出自适应多趟聚类方法。依次获得聚类个数k,聚类初始中心和最终聚类。将算法应用于无线传感器网络数据中,可以很好地发现数据中的离群点,从而找到传感器节点安全上存在的隐患。实验结果和分析表明:此算法不但可获得稳定、收敛的聚类结果,还能很好地发现离群点。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号