首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 46 毫秒
1.
针对现有研究中给出的聚类有效性指标不能有效评价不同结构数据集的聚类结果问题,提出一种使用多个有效性指标进行聚类评价的组合方法。引入D-S(Dempster-Shafer)证据理论对多个有效性指标结果进行集成,并得到最终的聚类评价结果。仿真实验和分析验证了该方法的可行性与有效性。  相似文献   

2.
模糊聚类有效性的研究进展   总被引:2,自引:1,他引:1  
聚类有效性评价对聚类分析具有重要意义,是聚类分析的瓶颈之一。本文从基于数据集模糊划分的方法和基于数据集几何结构的方法两方面,归纳综述了常用的模糊聚类有效性评价函数,并讨论了模糊聚类最佳类别数的自动确定问题。  相似文献   

3.
模糊C均值( FCM)聚类算法最终形成的聚类质量会受到初始值的设定、簇的个数选定及参数选择等多方面因素的影响。文中对最近发表的5种代表性聚类有效性指数在不同的数据维数、聚类个数和参数等条件下对FCM的聚类有效性评价结果进行对比分析。实验结果表明基于类内紧致度和类间离散度比值的聚类有效性指数对数据维度及噪声较为鲁棒,基于隶属度的聚类有效性指数不适于高维数据等,上述结果可帮助研究人员在不同的应用环境下选择合适的模糊聚类有效性函数。  相似文献   

4.
聚类有效性评价指标分为外部评价指标和内部评价指标两大类。现有外部评价指标没有考虑聚类结果类偏斜现象;现有内部评价指标的聚类有效性检验效果难以得到最佳类簇数。针对现有内外部聚类评价指标的缺陷,提出同时考虑正负类信息的分别基于相依表和样本对的外部评价指标,用于评价任意分布数据集的聚类结果;提出采用方差度量类内紧密度和类间分离度,以类间分离度与类内紧密度之比作为度量指标的内部评价指标。UCI数据集和人工模拟数据集实验测试表明,提出的新内部评价指标能有效发现数据集的真实类簇数;提出的基于相依表和样本对的外部评价指标,可有效评价存在类偏斜与噪音数据的聚类结果。  相似文献   

5.
模糊聚类是模式识别、机器学习和图像处理等领域的重要研究内容。模糊C-均值聚类算法是最常用的模糊聚类实现算法,该算法需要预先给定聚类数才能对数据集进行聚类。提出了一种新的聚类有效性指标,对聚类结果进行有效性验证。该指标从划分熵、隶属度、几何结构角度,定义了紧凑度、分离度、重叠度三个重要特征测量。在此基础上,提出了一种最佳聚类数确定方法。将新聚类有效性指标和传统有效性指标在6个人工数据集和3个真实数据集进行实验验证。实验结果表明,所提出的指标和方法能够有效地对聚类结果进行评估,适合确定样本的最佳聚类数。  相似文献   

6.
软件开发团队的有效性直接影响着软件项目的成功与否,在分析软件开发团队有效性理论的基础上,构建了衡量团队有效性的指标体系,并运用灰色聚类分析对其进行了实例量化研究。  相似文献   

7.
章永来  周耀鉴 《计算机应用》2019,39(7):1869-1882
大数据时代,聚类这种无监督学习算法的地位尤为突出。近年来,对聚类算法的研究取得了长足的进步。首先,总结了聚类分析的全过程、相似性度量、聚类算法的新分类及其结果的评价等内容,将聚类算法重新划分为大数据聚类与小数据聚类两个大类,并特别对大数据聚类作了较为系统的分析与总结。此外,概述并分析了各类聚类算法的研究进展及其应用概况,并结合研究课题讨论了算法的发展趋势。  相似文献   

8.
文本聚类技术的有效性验证   总被引:3,自引:0,他引:3       下载免费PDF全文
讨论了利用分类测试集进行聚类量化评价的标准。在此基础上选择k-Means聚类算法、STC(后缀树聚类)算法和基于Ant的聚类算法进行了实验对比。实验表明,STC聚类算法在处理文本时充分考虑了文本的特性,其聚类效果较好;基于Ant的聚类算法在聚类的划分时效果受参数输入的影响较大,其聚类结果与STC相比并不具有优势;在Ant聚类算法中引入文本特性后,可以提高文本聚类的效果。  相似文献   

9.
基于密度的聚类算法(DBSCAN)是最有效的轨迹数据挖掘方法之一,但基于密度的聚类算法往往受到输入参数选择的限制。在轨迹数据挖掘中,聚类结果不仅受到类内距离和类间距离的影响,还受到聚类中坐标点个数的影响。因此,提出了一种新的基于内外占空比的集群有效性指标来平衡这三个因素,该指标可以自动选择密度聚类的输入参数,并在不同的数据集上形成有效的聚类,优化后的聚类方法可应用于出行者行为轨迹的深度分析和挖掘。实验结果证明,与传统的有效性指标相比,提出的基于占空比的评价指标能够优化输入参数,获得较好的出行者位置信息聚类结果。  相似文献   

10.
为解决轨迹聚类问题,提出一种新的无监督轨迹聚类及聚类有效性评估方法。通过建立双层字符串轨迹模型,计算得到轨迹间距离并用作聚类依据。提出轨迹同距点比例的概念,以此作为聚类工具,并采用类内平均同距点比例作为聚类有效性评价值。利用麻省理工大学(Massachusetts Institute of Technology,MIT)停车场行人路径数据集进行实验,实验结果表明,新的无监督聚类算法能较好地完成轨迹聚类任务,平均类内同距点比例能够很好地衡量分类效果。  相似文献   

11.
一个改进的模糊聚类有效性指标   总被引:1,自引:0,他引:1       下载免费PDF全文
聚类有效性指标既可用来评价聚类结果的有效性,也可以用来确定最佳聚类数。根据模糊聚类的基本特性,提出了一种新的模糊聚类有效性指标。该指标结合了数据集的分布特征和数据隶属度两个重要因素来评价聚类结果,提高了判别的准确性。实验证明,该指标能对模糊聚类结果进行正确的评价,并自动获得最佳聚类数,特别是对类间有交叠的情况能够做出准确判定。  相似文献   

12.
The self-organizing map (SOM) has been widely used in many industrial applications. Classical clustering methods based on the SOM often fail to deliver satisfactory results, specially when clusters have arbitrary shapes. In this paper, through some preprocessing techniques for filtering out noises and outliers, we propose a new two-level SOM-based clustering algorithm using a clustering validity index based on inter-cluster and intra-cluster density. Experimental results on synthetic and real data sets demonstrate that the proposed clustering algorithm is able to cluster data better than the classical clustering algorithms based on the SOM, and find an optimal number of clusters.  相似文献   

13.
Hierarchical clustering algorithms provide a set of nested partitions called a cluster hierarchy. Since the hierarchy is usually too complex it is reduced to a single partition by using cluster validity indices. We show that the classical method is often not useful and we propose SEP, a new method that efficiently searches in an extended partition set. Furthermore, we propose a new cluster validity index, COP, since many of the commonly used indices cannot be used with SEP. Experiments performed with 80 synthetic and 7 real datasets confirm that SEP/COP is superior to the method currently used and furthermore, it is less sensitive to noise.  相似文献   

14.
研究了动态心电信号的波形形态特点,提出了改进的基于品质因子(Figure Of Merit,FOM)的聚类有效性评价策略——HW-FOM(Hausdorff Weighted-Figure Of Merit)。该策略将完整的心电波形分段,并赋予不同的权重。分别计算任意两个心电波形间的对应段的Hausdorff 距离,用以拟合心电波形的形态。通过汇总计算结果描述心电波形间的差异,评价动态心电波形聚类结果的有效性。通过利用MIT-BIH心律失常数据进行实验,结果表明HW-FOM方法的评价结果与实际的数据分类状况呈线性相关,适于动态心电波形的聚类有效性结果的评价。  相似文献   

15.
In this paper, we define a validity measure for fuzzy criterion clustering which is a novel approach to fuzzy clustering that in addition to being non-distance-based, addresses the cluster validity problem. The model is then recast as a bilevel fuzzy criterion clustering problem. We propose an algorithm for this model that solves both the validity and clustering problems. Our approach is validated via some sample problems.  相似文献   

16.
A cluster validity index for fuzzy clustering   总被引:1,自引:0,他引:1  
A new cluster validity index is proposed for the validation of partitions of object data produced by the fuzzy c-means algorithm. The proposed validity index uses a variation measure and a separation measure between two fuzzy clusters. A good fuzzy partition is expected to have a low degree of variation and a large separation distance. Testing of the proposed index and nine previously formulated indices on well-known data sets shows the superior effectiveness and reliability of the proposed index in comparison to other indices and the robustness of the proposed index in noisy environments.  相似文献   

17.
Unsupervised clustering methods such as K-means, hierarchical clustering and fuzzy c-means have been widely applied to the analysis of gene expression data to identify biologically relevant groups of genes. Recent studies have suggested that the incorporation of biological information into validation methods to assess the quality of clustering results might be useful in facilitating biological and biomedical knowledge discoveries. In this study, we generalize two bio-validity indices, the biological homogeneity index and the biological stability index, to quantify the abilities of soft clustering algorithms such as fuzzy c-means and model-based clustering. The results of an evaluation of several existing soft clustering algorithms using simulated and real data sets indicate that the soft versions of the indices provide both better precision and better accuracy than the classical ones. The significance of the proposed indices is also discussed.  相似文献   

18.
新的K-均值算法最佳聚类数确定方法   总被引:8,自引:0,他引:8       下载免费PDF全文
K-均值聚类算法是以确定的类数k和随机选定的初始聚类中心为前提对数据集进行聚类的。通常聚类数k事先无法确定,随机选定的初始聚类中心容易使聚类结果不稳定。提出了一种新的确定K-均值聚类算法的最佳聚类数方法,通过设定AP算法的参数,将AP算法产生的聚类数作为聚类数搜索范围的上界kmax,并通过选择合适的有效性指标Silhouette指标,以及基于最大最小距离算法思想设定初始聚类中心,分析聚类效果,确定最佳聚类数。仿真实验和分析验证了以上算法方案的可行性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号