共查询到18条相似文献,搜索用时 78 毫秒
1.
一种基于模糊度的聚类有效性函数 总被引:3,自引:0,他引:3
根据模糊集理论,结合模糊C-均值聚类算法的约束条件,提出聚类模糊集概念,定义聚类模糊度.通过深入分析聚类模糊集的模糊度和贴近度在聚类评价中的作用,设计出一种模糊聚类有效性函数,并给出应用该函数实现模糊C-均值聚类有效性判定的具体步骤.实验结果表明,本文提出的聚类有效性函数是合理的. 相似文献
2.
结合模糊聚类的类内紧致性和类间分离性信息,提出一种新的模糊聚类有效性指标。该指标能够确定由模糊C-均值算法(FCM)所得模糊划分的最优划分和最佳聚类数。在1个人造数据集和4个真实数据集上进行对比实验,结果表明该指标性能的优越性。 相似文献
3.
《微型机与应用》2015,(8)
针对模糊C均值(FCM)算法聚类数需要预先设定的问题,提出了一种新的模糊聚类有效性指标。首先,计算簇中每个属性的方差,给方差较小的属性赋予较大的权值,给方差较大的属性赋予较小的权值,得到一种基于属性加权的FCM算法;然后,根据FCM改进算法得到的隶属度矩阵计算类内紧致性和类间分离性;最后,利用类内紧致性和类间分离性定义一个新的聚类有效性指标。实验结果表明,该指标可以找到符合数据自然分布的类的数目。基于属性加权的FCM算法可以识别不同属性的重要程度,增加聚类结果的准确率,使用FCM改进算法得到的隶属度矩阵定义的有效性指标,能够发现正确的聚类个数,实现聚类无监督的学习过程。 相似文献
4.
可能性聚类有两大缺陷:一致聚类中心问题和有效性指标失效问题。对于第一个问题,有人提出在目标函数中添加聚类中心排斥项,但这样会引入更多的参数。为此,本文提出了一种改进的可能性聚类算法,较好地解决了这个问题。对于第二个问题,本文通过对隶属度作适当变换,使修正的有效性指标适用于可能性聚类。实验结果表明,该算法的优越性明显,有效性指标估计更为准确。 相似文献
5.
模糊聚类是模式识别、机器学习和图像处理等领域的重要研究内容。模糊C-均值聚类算法是最常用的模糊聚类实现算法,该算法需要预先给定聚类数才能对数据集进行聚类。提出了一种新的聚类有效性指标,对聚类结果进行有效性验证。该指标从划分熵、隶属度、几何结构角度,定义了紧凑度、分离度、重叠度三个重要特征测量。在此基础上,提出了一种最佳聚类数确定方法。将新聚类有效性指标和传统有效性指标在6个人工数据集和3个真实数据集进行实验验证。实验结果表明,所提出的指标和方法能够有效地对聚类结果进行评估,适合确定样本的最佳聚类数。 相似文献
6.
《计算机应用与软件》2015,(11)
针对现有的聚类结果中类内紧致性差异对有效性指标的影响和不能很好地评价任意形状聚类的问题,提出一种基于连通性的聚类有效性指标并进行了仿真研究。首先,将对整个聚类结果的评价建立在对单个类评价的基础上,以便处理类内紧致性差异大的问题。其次,利用连通距离对形状和大小的不敏感性,处理对任意形状聚类的评价问题。仿真实验结果表明,该方法可以对各类的类内紧致性差异较大的任意形状的聚类结果进行评价。该指标是一种有效的聚类评价指标。 相似文献
7.
聚类有效性指标用于评价聚类结果的有效性。根据聚类的基本特性,提出了一个新的用于发现最优模糊划分的聚类有效性指标,该有效性指标采用模糊划分测度和信息熵两个重要因子来评价模糊聚类的有效性。其中,模糊划分测度用于评价聚类的类内紧致性与类间分离性,而信息熵则反映了模糊聚类划分结果的不确定性程度。实验结果表明,该聚类有效性指标能对模糊聚类结果的有效性进行正确的评价,特别是对于空间数据的聚类有效性评价,同其他有效性指标相比,它不仅能得到最优的模糊划分,而且对权重系数也是不敏感的。 相似文献
8.
聚类有效性指标既可用来评价聚类结果的有效性,也可以用来确定最佳聚类数。根据模糊聚类的基本特性,提出了一种新的模糊聚类有效性指标。该指标结合了数据集的分布特征和数据隶属度两个重要因素来评价聚类结果,提高了判别的准确性。实验证明,该指标能对模糊聚类结果进行正确的评价,并自动获得最佳聚类数,特别是对类间有交叠的情况能够做出准确判定。 相似文献
9.
10.
11.
核模糊C-均值聚类KFCM是利用核函数将数据映射到高维空间,通过计算数据点与聚类中心的隶属度对数据进行聚类的算法,拥有高效、快捷的特点而被广泛应用于各领域,然而KFCM算法存在对聚类中心的初始值敏感和不能自适应确定聚类数两个局限性。针对这两个问题,提出一种局部搜索自适应核模糊聚类方法,该方法引入核方法提高数据的可分性,并构造基于核函数的评价函数来确定最优的聚类数目和利用部分样本数据进行局部搜索以寻找初始聚类中心。人工数据和UCI数据集上的实验结果验证了该算法的有效性。 相似文献
12.
Xuesong Yin Author Vitae Songcan Chen Author Vitae Enliang Hu Author Vitae Author Vitae 《Pattern recognition》2010,43(4):1320-1333
Most existing representative works in semi-supervised clustering do not sufficiently solve the violation problem of pairwise constraints. On the other hand, traditional kernel methods for semi-supervised clustering not only face the problem of manually tuning the kernel parameters due to the fact that no sufficient supervision is provided, but also lack a measure that achieves better effectiveness of clustering. In this paper, we propose an adaptive Semi-supervised Clustering Kernel Method based on Metric learning (SCKMM) to mitigate the above problems. Specifically, we first construct an objective function from pairwise constraints to automatically estimate the parameter of the Gaussian kernel. Then, we use pairwise constraint-based K-means approach to solve the violation issue of constraints and to cluster the data. Furthermore, we introduce metric learning into nonlinear semi-supervised clustering to improve separability of the data for clustering. Finally, we perform clustering and metric learning simultaneously. Experimental results on a number of real-world data sets validate the effectiveness of the proposed method. 相似文献
13.
高斯核参数σ的选择,直接影响着高斯核支持向量机的分类性能。将聚类方法与最小距离分类法进行融合,构造了能有效确定高斯核参数σ的优化算法。采用高斯核支持向量机方法对测试集进行分类,以分类正确率来评判选取核参数σ的效果。实验表明,该方法适宜于较广泛的数据类型,具有良好的推广能力,并能有效提高分类效果。 相似文献
14.
Dae-Won Kim Author Vitae Kwang H. Lee Author Vitae Doheon Lee Author Vitae 《Pattern recognition》2004,37(10):2009-2025
A new cluster validity index is proposed that determines the optimal partition and optimal number of clusters for fuzzy partitions obtained from the fuzzy c-means algorithm. The proposed validity index exploits an overlap measure and a separation measure between clusters. The overlap measure, which indicates the degree of overlap between fuzzy clusters, is obtained by computing an inter-cluster overlap. The separation measure, which indicates the isolation distance between fuzzy clusters, is obtained by computing a distance between fuzzy clusters. A good fuzzy partition is expected to have a low degree of overlap and a larger separation distance. Testing of the proposed index and nine previously formulated indexes on well-known data sets showed the superior effectiveness and reliability of the proposed index in comparison to other indexes. 相似文献
15.
Clustering is an important field for making data meaningful at various applications such as processing satellite images, extracting information from financial data or even processing data in social sciences. This paper presents a new clustering approach called Gaussian Density Distance (GDD) clustering algorithm based on distance and density properties of sample space. The novel part of the method is to find best possible clusters without any prior information and parameters. Another novel part of the algorithm is that it forms clusters very close to human clustering perception when executed on two dimensional data. GDD has some similarities with today’s most popular clustering algorithms; however, it uses both Gaussian kernel and distances to form clusters according to data density and shape. Since GDD does not require any special parameters prior to run, resulting clusters do not change at different runs. During the study, an experimental framework is designed for analysis of the proposed clustering algorithm and its evaluation, based on clustering performance for some characteristic data sets. The algorithm is extensively tested using several synthetic data sets and some of the selected results are presented in the paper. Comparative study outcomes produced by other well-known clustering algorithms are also discussed in the paper. 相似文献
16.
在经典的模糊C均值(FCM)算法中,聚类数需要预先给出,否则算法无法工作,这在一定程度上限制了FCM算法的应用范围。针对FCM算法中聚类数需要预先设定问题,提出了一种新的模糊聚类有效性指标。首先,通过运行FCM算法得到隶属度矩阵;然后,通过隶属度矩阵计算类内紧密性和类间重叠性;最后,利用类内的紧密性和类间的重叠性定义了一个新的聚类有效性指标。该指标克服了FCM算法中类数需要预先设定的缺点,利用该指标可以发现最符合数据自然分布的类的数目。通过对人工数据集和实际数据集的测试表明,对于模糊因子取1.8,2.0和2.2三个不同的常用值,均能发现最优聚类数。 相似文献
17.
聚类算法单一迭代路径限制了参数优值的搜索。提出一种多路径高斯核模糊C均值聚类算法(MGKFCMs),MGKFCMs算法首先取核目标函数及模糊隶属度函数中的核函数为高斯核函数;然后利用梯度法得到聚类中心迭代公式,并基于该迭代公式和粒子群算法作聚类中心的并行参数迭代,在每一次聚类迭代时,选择聚类目标函数值小的路径作为参数迭代最终路径。对比分析了MGKFCMs算法的相关性质,通过仿真实验验证了所提算法的有效性。 相似文献
18.
A cluster validity index for fuzzy clustering 总被引:1,自引:0,他引:1
A new cluster validity index is proposed for the validation of partitions of object data produced by the fuzzy c-means algorithm. The proposed validity index uses a variation measure and a separation measure between two fuzzy clusters. A good fuzzy partition is expected to have a low degree of variation and a large separation distance. Testing of the proposed index and nine previously formulated indices on well-known data sets shows the superior effectiveness and reliability of the proposed index in comparison to other indices and the robustness of the proposed index in noisy environments. 相似文献