首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
针对传统模糊C-均值(Fuzzy C-Means, FCM)聚类算法隐含假设各个样本和各维属性对聚类结果作用相同,导致算法聚类性能降低,以及对初始中心点敏感且易陷入局部最优的问题,提出一种基于改进蝙蝠算法优化的FCM聚类算法。该算法首先采用混沌映射和速度权重来改进蝙蝠算法,然后利用改进蝙蝠算法确定FCM算法的初始聚类中心,最后根据各个样本和各维属性对聚类结果作用不同,采用样本和属性加权法对FCM算法的目标函数重新设计。实验结果表明,改进算法表现出较好的聚类效果。  相似文献   

2.
FCM算法作为基于目标函数的模糊聚类算法中最经典的算法之一,在实际应用中得到了深入的研究,但FCM算法需要人为给定分类数C,因此破坏了聚类的无监督性。针对FCM算法的不足,提出了利用密度指标确定初始聚类数目上限Cmax,并且对有效性指标进行了改进,计算对于(1,Cmax]中的每一个c对应的有效性函数值,根据有效性评判,确定最佳聚类数,实现了自动得到最佳分类数的算法。  相似文献   

3.
基于加权模糊c均值聚类的快速图像自动分割算法   总被引:3,自引:1,他引:3       下载免费PDF全文
图像分割是指将一幅图像分解为若干互不交迭的区域的集合,是图像处理和计算机视觉的基本问题之一。为了提高图像分割的效率,提出了一种基于2维直方图加权的塔形模糊c均值(FCM)聚类图像快速分割算法。该方法先通过构造合理的2维直方图对噪声进行抑制;然后通过塔形分解来缩减聚类样本集;最后利用加权FCM聚类算法进行分类。仿真结果表明,该方法的效率明显优于标准的FCM算法。此外,为确定分割的最优类别数c,还引入了一种基于该快速算法的聚类有效性评价函数——修正划分模糊度,实现了最佳图像分割类别数c的自动确定。基于人造图像和实际图像的测试实验结果表明该方法是有效的。  相似文献   

4.
昌燕  张仕斌 《计算机应用》2012,32(4):1070-1073
针对已有基于直觉模糊集的聚类方法的局限性,提出了一种基于加权直觉模糊集合的聚类模型——WIFSCM。在该模型中,提出了特定特征空间下的等价样本和加权直觉模糊集合的概念;并推导出基于等价样本和加权直觉模糊集合的直觉模糊聚类算法的目标函数,利用该目标函数推导出直觉模糊聚类中心迭代算法和隶属度矩阵迭代算法;定义了基于加权直觉模糊集合的密度函数,确定了初始聚类中心,减少了迭代次数。通过灰度图像分割实验,证明了该模型的有效性,同时与普通直觉模糊集FCM聚类算法(IFCM)相比,聚类速度提高近百倍。  相似文献   

5.
基于模糊C均值聚类的医学图像分割研究   总被引:1,自引:0,他引:1  
模糊C均值聚类算法(FCM)在硬C均值聚类的基础上有效地解决了医学图像分割中存在的模糊情况,通过建立表示图像中像素点与聚类中心加权相似度的目标函数,采用迭代优化的方法求解目标函数的极小值来确定最佳聚类。针对FCM算法中存在的对大样本数据分割速度慢、结果易受初始值影响、对噪声敏感、难以适应多种数据分布等缺陷,涌现出了大量的改进算法。对其中的部分改进算法进行综述,主要介绍快速FCM算法、基于初始值选取的FCM算法、基于空间邻域信息的FCM算法以及基于核函数的FCM算法等,并对其优缺点进行概要的总结和介绍。指出该算法进一步的研究方向。  相似文献   

6.
一种改进的可能模糊聚类算法*   总被引:2,自引:0,他引:2  
通过分析FCM、PCM、IPCM和PFCM等流行的聚类算法和它们在噪声环境下所面临的问题,提出一种概率模糊聚类新算法(SWPFCM),该算法结合样本加权和一种适用于噪音环境下的初始化聚类中心的方法,可以有效地消除噪声对聚类结果的影响。实验表明,SWPFCM算法具有处理大量噪声数据的能力,但对于没有噪声或噪声很少时,效果不明显,当目标样本集中出现噪声时,使用SWPFCM算法聚类将会得到满意的聚类结果。  相似文献   

7.
一种基于大密度区域的模糊聚类算法   总被引:1,自引:0,他引:1  
针对模糊C-均值(FCM)算法对初始聚类中心和噪声数据敏感的缺陷,提出一种基于大密度区域的模糊聚类算法.该算法首先利用大密度区域以及样本的密度值变化方法,选取初始聚类中心以及候选初始聚类中心,并依据初始聚类中心与候选初始聚类中心的距离,确定初始聚类中心点,从而有效的克服了随机给定初始聚类中心容易使算法收敛到局部极小的缺陷;其次,分别利用密度函数为样本加权和引用改进的隶属度函数进行优化,有效地提高了模糊聚类的抗噪性;最后实验验证了算法在初始聚类中心的确定,聚类效果和抗噪性方面具有良好的效果.  相似文献   

8.
基于特征加权距离的双指数模糊子空间聚类算法   总被引:2,自引:2,他引:0  
传统的模糊聚类算法(FCM)使用欧氏距离计算数据点之间的差异时,对于高维数据集聚类效果不够理想.对此,以FCM算法的目标函数为基础,用特征加权距离代替传统的欧氏距离,同时向约束条件中引入指数γ和β,提出了一种基于特征加权距离的双指数模糊子空间聚类算法,并讨论了该算法的收敛性.实验表明,所提出算法可以有效提取高维数据集各类别的相关特征,在真实数据集上有较好的聚类效果.  相似文献   

9.
一种基于核的快速可能性聚类算法   总被引:1,自引:1,他引:0       下载免费PDF全文
传统的快速聚类算法大多基于模糊C均值算法(Fuzzy C-means,FCM),而FCM对初始聚类中心敏感,对噪音数据敏感并且容易收敛到局部极小值,因而聚类准确率不高。可能性C-均值聚类较好地解决了FCM对噪声敏感的问题,但容易产生一致性聚类。将FCM和可能性C-均值聚类结合的聚类算法较好地解决了一致性聚类问题。为进一步提高算法收敛速度和鲁棒性,提出一种基于核的快速可能性聚类算法。该方法引入核聚类的思想,同时使用样本方差对目标函数中参数η进行优化。标准数据集和人造数据集的实验结果表明这种基于核的快速可能性聚类算法提高了算法的聚类准确率,加快了收敛速度。  相似文献   

10.
针对模糊C-均值聚类(FCM)算法对噪声敏感、容易收敛到局部极小值的问题,提出一种基于交叉熵的模糊聚类算法。通过引入交叉熵重新定义了传统FCM算法的目标函数,利用交叉熵度量样本隶属度之间的差异性,并采用拉格朗日求解方法和朗伯W函数解决了目标函数的优化问题,此外,分析了样本划分矩阵的分布情况,依据分布特性对噪声样本进行识别。人工数据集合和标准数据集加噪的实验结果表明,该算法提高了传统FCM算法的抗干扰能力,具有更强的鲁棒性,噪声样本识别的准确率较高。  相似文献   

11.
结合密度聚类和模糊聚类的特点,提出一种基于密度的模糊代表点聚类算法.首先利用密度对数据点成为候选聚类中心点的可能性进行处理,密度越高的点成为聚类中心点的可能性越大;然后利用模糊方法对聚类中心点进行确定;最后通过合并聚类中心点确定最终的聚类中心.所提出算法具有很好的自适应性,能够处理不同形状的聚类问题,无需提前规定聚类个数,能够自动确定真实存在的聚类中心点,可解释性好.通过结合不同聚类方法的优点,最终实现对数据的有效划分.此外,所提出的算法对于聚类数和初始化、处理不同形状的聚类问题以及应对异常值等方面具有较好的鲁棒性.通过在人工数据集和UCI真实数据集上进行实验,表明所提出算法具有较好的聚类性能和广泛的适用性.  相似文献   

12.
朱林  雷景生  毕忠勤  杨杰 《软件学报》2013,24(11):2610-2627
针对高维数据的聚类研究表明,样本在不同数据簇往往与某些特定的数据特征子集相对应.因此,子空间聚类技术越来越受到关注.然而,现有的软子空间聚类算法都是基于批处理技术的聚类算法,不能很好地应用于高维数据流或大规模数据的聚类研究中.为此,利用模糊可扩展聚类框架,与熵加权软子空间聚类算法相结合,提出了一种有效的熵加权流数据软子空间聚类算法——EWSSC(entropy-weighting streaming subspace clustering).该算法不仅保留了传统软子空间聚类算法的特性,而且利用了模糊可扩展聚类策略,将软子空间聚类算法应用于流数据的聚类分析中.实验结果表明,EWSSC 算法对于高维数据流可以得到与批处理软子空间聚类方法近似一致的实验结果.  相似文献   

13.
Micro array technologies have become a widespread research technique for biomedical researchers to assess tens of thousands of gene expression values simultaneously in a single experiment. Micro array data analysis for biological discovery requires computational tools. In this research a novel two-dimensional hierarchical clustering is presented. From the review, it is evident that the previous research works have used clustering which have been applied in gene expression data to create only one cluster for a gene that leads to biological complexity. This is mainly because of the nature of proteins and their interactions. Since proteins normally interact with different groups of proteins in order to serve different biological roles, the genes that produce these proteins are therefore expected to co express with more than one group of genes. This constructs that in micro array gene expression data, a gene may makes its presence in more than one cluster. In this research, multi-level micro array clustering, performed in two dimensions by the proposed two-dimensional hierarchical clustering technique can be used to represent the existence of genes in one or more clusters consistent with the nature of the gene and its attributes and prevent biological complexities.  相似文献   

14.
分布式环境中聚类问题算法研究综述   总被引:1,自引:0,他引:1  
传统的集中式聚类是对集中存放在单个站点的数据集进行聚类,但不能解决数据分布存储环境下的聚类问题,而分布式聚类算法是从分布存储的数据集中提取分类模式,因此能满足此需求。针对分布式聚类算法进行综述和分析。首先对现有的分布式聚类算法进行了分类,然后对每类算法的基本思想和优缺点进行了比较,最后采用Iris和Wine两个数据集对几种分布式聚类算法从聚类精度和聚类时间两方面进行了比较。  相似文献   

15.
Abstract

Clustering is concerned with grouping a collection of input objects. Conventional clustering algorithms cluster unlabelled objects. We argue that there are useful applications that involve clustering of labelled objects. We propose an approach for clustering of labelled objects. The proposed approach makes use of the domain knowledge represented in the form of a directed acyclic graph for clustering. We also propose a set of proper axioms in logic as a basis for the proposed algorithm. We study some of the properties of the approach such as order-independence and describe in detail an application of the proposed algorithm in the context of document retrieval.  相似文献   

16.
文本聚类在文本挖掘和信息检索系统中发挥着重要的作用,而词聚类是文本聚类的基础。提出了一种基于混合聚类的中文词聚类方法,它将层次聚类和概念聚类结合起来,以缩短整个聚类时间。首先对预处理后的词集进行初始聚类,然后从每个类中各取一个出现次数最多的词组成新的词集,最后对该词集进行再聚类。实验表明,这种方法有效降低了中文词聚类的时间复杂度。  相似文献   

17.
Most of existing multi-view clustering methods assume that different feature views of data are fully observed. However, it is common that only portions of data features can be obtained in many practical applications. The presence of incomplete feature views hinders the performance of the conventional multi-view clustering methods to a large extent. Recently proposed incomplete multi-view clustering methods often focus on directly learning a common representation or a consensus affinity similarity graph from available feature views while ignore the valuable information hidden in the missing views. In this study, we present a novel incomplete multi-view clustering method via adaptive partial graph learning and fusion (APGLF), which can capture the local data structure of both within-view and cross-view. Specifically, we use the available data of each view to learn a corresponding view-specific partial graph, in which the within-view local structure can be well preserved. Then we design a cross-view graph fusion term to learn a consensus complete graph for different views, which can take advantage of the complementary information hidden in the view-specific partial graphs learned from incomplete views. In addition, a rank constraint is imposed on the graph Laplacian matrix of the fused graph to better recover the optimal cluster structure of original data. Therefore, APGLF integrates within-view partial graph learning, cross-view partial graph fusion and cluster structure recovering into a unified framework. Experiments on five incomplete multi-view data sets are conducted to validate the efficacy of APGLF when compared with eight state-of-the-art methods.  相似文献   

18.
Discovering interesting patterns or substructures in data streams is an important challenge in data mining. Clustering algorithms are very often applied to identify single substructures although they are designed to partition a data set. Another problem of clustering algorithms is that most of them are not designed for data streams. This paper discusses a recently introduced procedure that deals with both problems. The procedure explores ideas from cluster analysis, but was designed to identify single clusters without the necessity to partition the whole data set into clusters. The new extended version of the algorithm is an incremental clustering approach applicable to stream data. It identifies new clusters formed by the incoming data and updates the data space partition. Clustering of artificial and real data sets illustrates the abilities of the proposed method.  相似文献   

19.
一种新的聚类有效性函数   总被引:3,自引:1,他引:2       下载免费PDF全文
聚类有效性函数是用于评价聚类结果优劣的指标,准确地给出初始聚类类别数将使得聚类结果趋于合理化。根据模糊不确定性理论及聚类问题的基本特性,引入了新的紧密度度量指标DiU;c),在此基础上提出了一个旨在寻求最优聚类类别数的有效性函数。该函数基于数据集的紧密度与分离度特征,综合考虑了数据成员的隶属度及数据集的几何结构。实验结果表明该有效性函数能够发现最优的聚类类别数,对于分类结构较为明确的数据集表现出良好的性能,并且对于权重系数具有良好的鲁棒性。  相似文献   

20.
一种层次化的检索结果聚类方法   总被引:3,自引:1,他引:2  
检索结果聚类能够帮助用户快速地浏览搜索引擎返回的结果.传统的聚类方法由于不能生成有意义的类别标签因此是不适合的,为了改善检索结果层次化聚类的效果,采用了基于标签的聚类算法,提出了将DF、查询日志、查询词上下文特征融合的类别标签抽取算法,并以抽取的标签构造基础类别图,通过GBCA算法构建层次化聚类结果.实验证明了多特征融合模型的有效性;GBCA算法在类别标签抽取和F-Measure两个评价指标上都比STC和Snaket算法有很大的提高.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号