首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 56 毫秒
1.
针对区间型数据的聚类问题,提出一种自适应模糊c均值聚类算法。该算法一方面基于区间数的中点和半宽度,通过引入区间宽度的影响因子以控制区间大小对聚类结果的影响;另一方面通过引入一个自适应系数,以减少区间型数据的数据结构对聚类效果的影响。通过仿真数据和Fish真实数据验证了该算法的有效性,并对聚类结果进行比较和分析。  相似文献   

2.
针对区间数模糊c均值聚类算法存在模糊度指数m无法准确描述数据簇划分情况的问题,对点数据集合的区间Ⅱ型模糊c均值聚类算法进行拓展,将其扩展到区间型不确定数据的聚类中。同时,分析了区间数的区间Ⅱ型模糊c均值聚类算法的收敛性,以确定模糊度指数m1和m2的取值原则。基于合成数据和实测数据的仿真实验结果表明:区间数的区间Ⅱ型模糊c均值聚类算法比区间数的模糊c均值聚类算法的聚类效果好。  相似文献   

3.
提取区间型数据的特征值,给出适用于区间型数据模糊聚类的FCM算法族(IFCM)。该算法适用于不同特征样本数据的模糊聚类运算,并可对聚类结果进行优化。聚类效果的仿真比较表明,IFCM聚类的平均失真度比基于欧氏距离的FCM聚类算法低6.81%。由于距离定义的合理性,IFCM可以根据区间型数据的不同特点调整特征值的聚类权重,并推广至多维类型数据的模糊聚类。  相似文献   

4.
广义可能性C均值聚类算法   总被引:1,自引:0,他引:1       下载免费PDF全文
可能性C均值聚类算法(PCM)中模糊加权指标m要求大于1,通过对PCM算法的分析讨论,将PCM算法中模糊加权指标m设置为多个独立变量,且将其取值范围进行了扩展,称之为广义可能性C均值聚类(GPCM)。GPCM从理论上分析了加权指标m的扩展取值范围,并利用粒子群算法(PSO)对样本模糊隶属度进行估计。GPCM算法突破了PCM算法对参数m的约束。仿真实验验证了所提算法的有效性。  相似文献   

5.
针对模糊C-均值算法聚类分析时的缺陷,采用能够较好地处理噪音和孤立点的可能性聚类算法,并将核学习方法的思想应用于可能性聚类算法中,提出一种基于核的可能性聚类算法。该方法利用Mercer核将观察空间的待分类样本点经过一个非线性映射后,映射到一个高维的核空间,突出不同类别样本之间的特征差异,使得原来线性不可分的样本点在核空间中变得更加线性可分,从而更好地聚类。经仿真实验表明,基于核的可能性聚类算法比模糊C-均值以及可能性聚类算法具有更好的聚类效果,且算法能够很快地收敛。  相似文献   

6.
传统的快速聚类算法大多基于模糊C均值算法(Fuzzy C-means,FCM),而FCM对初始聚类中心敏感,对噪音数据敏感并且容易收敛到局部极小值,因而聚类准确率不高。可能性C-均值聚类较好地解决了FCM对噪声敏感的问题,但容易产生一致性聚类。将FCM和可能性C-均值聚类结合的聚类算法较好地解决了一致性聚类问题。为进一步提高算法收敛速度和鲁棒性,提出一种基于核的快速可能性聚类算法。该方法引入核聚类的思想,同时使用样本方差对目标函数中参数η进行优化。标准数据集和人造数据集的实验结果表明这种基于核的快速可能性聚类算法提高了算法的聚类准确率,加快了收敛速度。  相似文献   

7.
基于PSO的可能性C均值聚类算法的研究   总被引:1,自引:0,他引:1  
可能性C均值算法(PCM)是为了克服模糊C均值算法对噪声的敏感性而提出来的,但是它也存在一些缺陷,如易陷入局部最优,对初始条件敏感,导致聚类结果一致性等问题.针对以上问题,通过引进粒子群算法对其进行改进可以有效地避免这些问题,即提出了基于粒子群优化的可能性C均值聚类算法(PSO-PCM).基于粒子群优化的可能性C均值聚类方法首先对编码过的数据点进行优化,然后对该方法产生的中心点进行聚类,在聚类的过程中根据适应度函数再进行调节.通过对给定数据集的聚类测试,结果表明,基于粒子群优化的可能性C均值聚类方法在收敛速度和全局寻优能力等方面有较大的改进.  相似文献   

8.
一种协同的可能性模糊聚类算法   总被引:1,自引:0,他引:1  
模糊C-均值聚类(FCM)对噪声数据敏感和可能性C-均值聚类(PCM)对初始中心非常敏感易导致一致性聚类。协同聚类算法利用不同特征子集之间的协同关系并与其他算法相结合,可提高原有的聚类性能。对此,在可能性C-均值聚类算法(PCM)基础上将其与协同聚类算法相结合,提出一种协同的可能性C-均值模糊聚类算法(C-FCM)。该算法在改进的PCM的基础上,提高了对数据集的聚类效果。在对数据集Wine和Iris进行测试的结果表明,该方法优于PCM算法,说明该算法的有效性。  相似文献   

9.
对基于区间值数据的模糊聚类算法进行了研究,介绍了具有控制区间大小对聚类结果影响的加权因子的模糊C-均值聚类新算法.针对区间值数据模糊C-均值聚类新算法提出了一个适应距离的弹性系数,使算法得到改进,既能利用传统的FCM算法,又考虑了区间大小对聚类结果的影响,同时也能发现不规则的聚类子集,使聚类结果更加准确.  相似文献   

10.
模糊c-均值算法改进及其对卫星遥感数据聚类的对比   总被引:4,自引:0,他引:4  
提出的改进的模糊c-均值聚类方法采用基于标准协方差矩阵的Mahalanobis距离,即椭球体聚类方法,这种聚类算法更接近遥感数据散点图的实际情况,从而可以显著提高聚类效果。对北京卫星ASTER数据的聚类分析实验表明,改进的模糊c-均值聚类方法的聚类效果要优于K-均值聚类方法和常规的模糊c-均值聚类方法。  相似文献   

11.
基于流数据的模糊聚类算法   总被引:1,自引:0,他引:1  
对流数据进行有效聚类是一个吸引研究者很大注意力的问题.传统的聚类挖掘算法只能适用于纯数值属性数据或纯分类属性数据,很难适用于混合属性的数据.针对混合属性数据的特点,在借鉴AcluStream算法的基础上,提出了一种模糊聚类算法.算法对流数据的相异度分类度量,定量属性使用欧氏距离和曼哈坦距离度量,定性属性可以采用hamming距离度量.模糊聚类算法的主要步骤有两步:第一步,运用最小距离聚类算法进行聚类,构成一个初始类.第二步,对基于最小距离聚类算法进行聚类所得到的初始簇,运用密度聚类方法进行聚合或分割,使得聚类集合稳定.实践证明:该算法是快速地有效的.  相似文献   

12.
提出了一种新的基于信息熵的概率聚类算法(Hierarchical Probabilistic Clustering Method,HPCM),HPCM算法和经典的模糊聚类算法FCM有着同样的聚类轨迹,因此,概率聚类和模糊聚类之间是紧密联系的.有关信息熵的大量研究成果可以帮助我们更深入地了解模糊聚类的本质.  相似文献   

13.
K均值算法(K-means)目前较为成功地应用于客户市场细分,但随着市场规模的扩大,面临着对于初始类个数敏感,易陷入局部极小值的严重问题,制约了聚类效果.提出基于区间值数据,以自适应欧氏距离作为度量的动态聚类方法,将客户的多维属性和基因算法结合提高类初始化质量,自适应地调整聚类数,并通过实验测试表现出较好的性能.  相似文献   

14.
对分类属性数据进行处理时,现有的聚类算法一般都通过距离函数将原始数据转换为表示两两距离的距离矩阵,然后再根据距离矩阵进行聚类,聚类结果很大程度上依赖于距离函数。针对上述问题,提出一种基于最大似然原理的分类属性数据分层聚类算法,称为HAC_ML算法。HAC_ML算法优点在于直接处理分类属性数据,不依赖于距离函数,并且克服了分层聚类不能回溯的缺点。在UCI数据集上的测试结果表明与经典的ROCK算法和K-Modes算法相比,HAC_ML算法是一种有效地处理分类属性数据的分层聚类算法。  相似文献   

15.
基于自适应聚类的数据预处理算法I   总被引:1,自引:0,他引:1  
提出了KDD的一种逻辑模型。以数据库或数据仓库中的数据为例 ,根据先验知识或可能的挖掘目标 ,利用SQL命令滤除无关属性 ,形成基于某种概念分层的归纳数据库或汇总数据库。针对数据库中的属性 ,利用非监督学习算法 ,获取相应聚类 ,从而形成面向任务的目标数据子集 ,以保证数据挖掘结果的质量和有效性  相似文献   

16.
Clustering Web data is one important technique for extracting knowledge from the Web. In this paper, a novel method is presented to facilitate the clustering. The method determines the appropriate number of clusters and provides suitable representatives for each cluster by inference from a Bayesian network. Furthermore, by means of the Bayesian network, the contents of the Web pages are converted into vectors of lower dimensions. The method is also extended for hierarchical clustering, and a useful heuristic is developed to select a good hierarchy. The experimental results show that the clusters produced benefit from high quality.  相似文献   

17.
在实际应用领域,常常存在同时包含数值型和分类型特征的混合数据。然而,已有的大多数聚类算法只能处理数值型或分类型单一类型数据,因此,提出一个基于划分的混合数据聚类算法。首先给出K-Prototypes算法中分类型数据类中心的多Modes表示方式,进而将传统的欧式距离扩展到混合数据,使之能够在相同框架下更加精确地反映对象与类之间的相异性,在此基础上提出一个用于处理混合数据的划分式聚类算法。最后,在UCI数据集上的实验结果表明,与K-Prototypes算法相比,所提出的算法能够有效提高聚类质量。  相似文献   

18.
模糊c均值聚类算法是目前聚类分析中最受欢迎的算法之一,但其聚类效果往往受初始参数的影响.针对这一问题,提出一种基于网格和密度的模糊c均值聚类初始化方法.以网格和密度为工具提取聚类样本的类聚类中心,以此来初始化模糊c均值聚类算法的初始参数,从而弥补原算法的不足.实验证明方法是可行的、有效的.  相似文献   

19.
谱聚类能识别非线性数据,且优于传统聚类.谱聚类中度量相似性的高斯核函数尺度参数σ和聚类个数k对聚类效果影响较大,但需要人工判断.用向量之间夹角余弦代替σ并且通过特征值的跳跃性确定聚类个数,对于非线性高维数据,提出一种自适应谱聚类算法,将数据通过显式构造映射到随机特征空间,在随机特征空间中实现聚类.实验结果表明,在UCI数据上该算法与传统算法相比效果更好.  相似文献   

20.
实际应用中存在着大量同时具有数值型和符号型属性的混合属性数据,研究混合属性数据的聚类具有重要意义。经典聚类算法仅仅处理数值型数据或符号型属性数据,对混合属性数据往往无效。现有混合属性数据聚类算法分别将数值型属性和符号型属性数据单独计算,忽视了两种属性之间的相关性,聚类效果不理想。提出一种基于图划分的混合属性数据聚类算法。算法将一行属性值定义为一个图节点,计算图节点的相似性,采用一种自适应调节属性权重的方法,将数值和符号属性的相似性统一成一个互联合相似度矩阵。用图划分方法对数据进行聚类划分,通过迭代寻优的方法调整数据之间的契合度,从而求得类内相似度最大并寻得最优解。实验结果表明,混合属性聚类算法与其他方法相比具有明显的优势。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号