首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
针对模糊C-均值聚类算法对孤立点、随机初始化的聚类中心比较敏感的问题,将堆叠稀疏自编码与传统模糊C-均值聚类算法相结合,对传统模糊C-均值聚类算法进行了改进。由于堆叠稀疏自编码可以提取原始数据集从低层到高层的特征,而高层的特征通常比原始数据集更能反映待聚类样本的本质特征,用其代替原始数据集进行聚类,有助于提高聚类的效果。利用改进后的算法在UCI的几个标准数据集上进行实验,结果表明改进后的算法是有效可行的。  相似文献   

2.
针对模糊聚类存在的数据收缩问题的不足,提出了一种改进现有模糊聚类算法的方法,并进行仿真实验研究.模糊C-均值(FCM)算法主要通过目标函数的迭代优化来实现集合划分,以信息熵作为模糊C-均值算法的约束条件,给出改进算法的推导过程,得出改进后的模糊C-均值算法的隶属度和聚类中心,实现了模糊C-均值的改进算法.实验结果可以表明,改进的模糊C-均值算法是有效的,能够表现出比模糊C-均值算法更好的性能,在实际应用中可以取得较好的聚类效果.  相似文献   

3.
针对用模糊C-均值聚类算法选择初始聚类中心敏感及模糊加权指数m对模糊C-均值聚类算法的聚类性能影响较大等问题,利用粒子群优化算法的全局寻优能力强及收敛速度较快的特点,结合模糊C-均值算法提出一种新的模糊聚类算法;采用了一种简单有效的粒子编码方法,将初始聚类中心和模糊加权指数m同时进行粒子群优化搜索,在得到最优适应度的同时,m也收敛到一个稳定的最优解,从而有效地解决了上述问题。算法在人工合成数据集和多个UCI数据集上都取得了较好的效果。  相似文献   

4.
针对模糊C-均值聚类算法过度依赖初始聚类中心的选取,从而易受孤立点和样本分布不均衡的影响而陷入局部最优状态的不足,提出一种基于自适应权重的模糊C-均值聚类算法。该算法采用高斯距离比例表示权重,在每一次迭代过程中,根据当前数据的聚类划分情况,动态计算每个样本对于类的权重,降低了算法对初始聚类中心的依赖,减弱了孤立点和样本分布不均衡的影响。实验结果表明,该算法是一种较优的聚类算法,具有更好的健壮性和聚类效果。  相似文献   

5.
对基于区间值数据的模糊聚类算法进行了研究,介绍了具有控制区间大小对聚类结果影响的加权因子的模糊C-均值聚类新算法.针对区间值数据模糊C-均值聚类新算法提出了一个适应距离的弹性系数,使算法得到改进,既能利用传统的FCM算法,又考虑了区间大小对聚类结果的影响,同时也能发现不规则的聚类子集,使聚类结果更加准确.  相似文献   

6.
基于核方法的并行模糊聚类算法   总被引:1,自引:0,他引:1  
介绍并分析了模糊C-均值聚类算法、基于核方法的模糊C-均值聚类算法以及硬聚类算法.将硬聚类算法和模糊聚类算法结合起来,利用硬聚类算法初始化聚类中心,有效的减少模糊聚类算法的迭代次数.针对海量数据处理问题,将改进后的算法并行化,有效地提高了数据处理速度和效率,并在分布式互联PC环境下进行了性能测试.测试结果表明,基于核方法的并行模糊聚类算法具有很好的规模增长性和加速比.  相似文献   

7.
提出一种新的鲁棒核模糊C-均值聚类算法.将连通核与AFCM(Alternative fuzzy C-means)聚类算法相结合,给出基于连通核的核AFCM:CRKFCM(Connectivity kernel based robust fuzzy C-means).CRKFCM一方面有效地利用了连通核,可以对任意形状数据聚类,且避免了核参数的选取问题;另一方面在特征空间使用非欧氏距离,可以有效地处理含噪声数据的聚类问题.实验结果表明,与原有的AFCM和连通核硬C-均值(CKHCM,Connectivity kernel based hard C-means)聚类算法相比,新算法在处理噪声环境中的任意形状聚类问题方面更有效.  相似文献   

8.
改进的模糊C-均值聚类算法研究   总被引:10,自引:1,他引:9       下载免费PDF全文
为解决模糊C-均值(FCM)聚类算法对噪声和孤立点数据敏感、样本分布不均衡的问题,提出了具体的改进和提高的方法:改进隶属度函数,以消除孤立点对聚类结果的影响;为每个样本点赋予一个定量的权值,以区分不同的样本点对于知识发现的不同作用,改善噪音和分布不均衡的样本集的聚类结果。实验结果表明该算法具有更好的健壮性和聚类效果。  相似文献   

9.
提出了一种结合C-均值聚类算法和模糊熵的图像分割方法,该方法先采用C均值聚类算法对含噪图像进行初步分割,再利用模糊熵准则作后续处理。该方法一方面能够继承C-均值聚类算法的优点,可以灵活地用在基于多特征和多阂值的图像分割中,另一方面充分考虑了图像的区域信息,利用模糊熵最小作为准则,对c均值聚类算法初步分割结果的错分类点作了进一步的处理,克服了C-均值聚类算法对噪声敏感的缺点。实验结果表明,本文方法在运算开销上只比C-均值聚类算法多4~6S,对于低信噪比的图像能够取得优于C-均值聚类算法的分割效果。  相似文献   

10.
为进一步提高核模糊C-均值聚类算法的聚类性能,提出基于连续域混合蚁群优化的核模糊C-均值聚类算法(KFCM-HACO),使用HACO对KFCM算法的内核函数参数值和聚类中心进行优化,克服传统算法弊端,使核模糊C-均值聚类算法的目标函数最小化,加快算法的收敛速度.该优化算法在UCI数据集上的仿真实验及结果比较表明,KFCM-HACO算法的聚类性能优于传统的聚类算法,提高了聚类的准确性.  相似文献   

11.
结合密度聚类和模糊聚类的特点,提出一种基于密度的模糊代表点聚类算法.首先利用密度对数据点成为候选聚类中心点的可能性进行处理,密度越高的点成为聚类中心点的可能性越大;然后利用模糊方法对聚类中心点进行确定;最后通过合并聚类中心点确定最终的聚类中心.所提出算法具有很好的自适应性,能够处理不同形状的聚类问题,无需提前规定聚类个数,能够自动确定真实存在的聚类中心点,可解释性好.通过结合不同聚类方法的优点,最终实现对数据的有效划分.此外,所提出的算法对于聚类数和初始化、处理不同形状的聚类问题以及应对异常值等方面具有较好的鲁棒性.通过在人工数据集和UCI真实数据集上进行实验,表明所提出算法具有较好的聚类性能和广泛的适用性.  相似文献   

12.
Micro array technologies have become a widespread research technique for biomedical researchers to assess tens of thousands of gene expression values simultaneously in a single experiment. Micro array data analysis for biological discovery requires computational tools. In this research a novel two-dimensional hierarchical clustering is presented. From the review, it is evident that the previous research works have used clustering which have been applied in gene expression data to create only one cluster for a gene that leads to biological complexity. This is mainly because of the nature of proteins and their interactions. Since proteins normally interact with different groups of proteins in order to serve different biological roles, the genes that produce these proteins are therefore expected to co express with more than one group of genes. This constructs that in micro array gene expression data, a gene may makes its presence in more than one cluster. In this research, multi-level micro array clustering, performed in two dimensions by the proposed two-dimensional hierarchical clustering technique can be used to represent the existence of genes in one or more clusters consistent with the nature of the gene and its attributes and prevent biological complexities.  相似文献   

13.
分布式环境中聚类问题算法研究综述   总被引:1,自引:0,他引:1  
传统的集中式聚类是对集中存放在单个站点的数据集进行聚类,但不能解决数据分布存储环境下的聚类问题,而分布式聚类算法是从分布存储的数据集中提取分类模式,因此能满足此需求。针对分布式聚类算法进行综述和分析。首先对现有的分布式聚类算法进行了分类,然后对每类算法的基本思想和优缺点进行了比较,最后采用Iris和Wine两个数据集对几种分布式聚类算法从聚类精度和聚类时间两方面进行了比较。  相似文献   

14.
朱林  雷景生  毕忠勤  杨杰 《软件学报》2013,24(11):2610-2627
针对高维数据的聚类研究表明,样本在不同数据簇往往与某些特定的数据特征子集相对应.因此,子空间聚类技术越来越受到关注.然而,现有的软子空间聚类算法都是基于批处理技术的聚类算法,不能很好地应用于高维数据流或大规模数据的聚类研究中.为此,利用模糊可扩展聚类框架,与熵加权软子空间聚类算法相结合,提出了一种有效的熵加权流数据软子空间聚类算法——EWSSC(entropy-weighting streaming subspace clustering).该算法不仅保留了传统软子空间聚类算法的特性,而且利用了模糊可扩展聚类策略,将软子空间聚类算法应用于流数据的聚类分析中.实验结果表明,EWSSC 算法对于高维数据流可以得到与批处理软子空间聚类方法近似一致的实验结果.  相似文献   

15.
Abstract

Clustering is concerned with grouping a collection of input objects. Conventional clustering algorithms cluster unlabelled objects. We argue that there are useful applications that involve clustering of labelled objects. We propose an approach for clustering of labelled objects. The proposed approach makes use of the domain knowledge represented in the form of a directed acyclic graph for clustering. We also propose a set of proper axioms in logic as a basis for the proposed algorithm. We study some of the properties of the approach such as order-independence and describe in detail an application of the proposed algorithm in the context of document retrieval.  相似文献   

16.
文本聚类在文本挖掘和信息检索系统中发挥着重要的作用,而词聚类是文本聚类的基础。提出了一种基于混合聚类的中文词聚类方法,它将层次聚类和概念聚类结合起来,以缩短整个聚类时间。首先对预处理后的词集进行初始聚类,然后从每个类中各取一个出现次数最多的词组成新的词集,最后对该词集进行再聚类。实验表明,这种方法有效降低了中文词聚类的时间复杂度。  相似文献   

17.
Discovering interesting patterns or substructures in data streams is an important challenge in data mining. Clustering algorithms are very often applied to identify single substructures although they are designed to partition a data set. Another problem of clustering algorithms is that most of them are not designed for data streams. This paper discusses a recently introduced procedure that deals with both problems. The procedure explores ideas from cluster analysis, but was designed to identify single clusters without the necessity to partition the whole data set into clusters. The new extended version of the algorithm is an incremental clustering approach applicable to stream data. It identifies new clusters formed by the incoming data and updates the data space partition. Clustering of artificial and real data sets illustrates the abilities of the proposed method.  相似文献   

18.
Most of existing multi-view clustering methods assume that different feature views of data are fully observed. However, it is common that only portions of data features can be obtained in many practical applications. The presence of incomplete feature views hinders the performance of the conventional multi-view clustering methods to a large extent. Recently proposed incomplete multi-view clustering methods often focus on directly learning a common representation or a consensus affinity similarity graph from available feature views while ignore the valuable information hidden in the missing views. In this study, we present a novel incomplete multi-view clustering method via adaptive partial graph learning and fusion (APGLF), which can capture the local data structure of both within-view and cross-view. Specifically, we use the available data of each view to learn a corresponding view-specific partial graph, in which the within-view local structure can be well preserved. Then we design a cross-view graph fusion term to learn a consensus complete graph for different views, which can take advantage of the complementary information hidden in the view-specific partial graphs learned from incomplete views. In addition, a rank constraint is imposed on the graph Laplacian matrix of the fused graph to better recover the optimal cluster structure of original data. Therefore, APGLF integrates within-view partial graph learning, cross-view partial graph fusion and cluster structure recovering into a unified framework. Experiments on five incomplete multi-view data sets are conducted to validate the efficacy of APGLF when compared with eight state-of-the-art methods.  相似文献   

19.
一种新的聚类有效性函数   总被引:3,自引:1,他引:2       下载免费PDF全文
聚类有效性函数是用于评价聚类结果优劣的指标,准确地给出初始聚类类别数将使得聚类结果趋于合理化。根据模糊不确定性理论及聚类问题的基本特性,引入了新的紧密度度量指标DiU;c),在此基础上提出了一个旨在寻求最优聚类类别数的有效性函数。该函数基于数据集的紧密度与分离度特征,综合考虑了数据成员的隶属度及数据集的几何结构。实验结果表明该有效性函数能够发现最优的聚类类别数,对于分类结构较为明确的数据集表现出良好的性能,并且对于权重系数具有良好的鲁棒性。  相似文献   

20.
一种层次化的检索结果聚类方法   总被引:3,自引:1,他引:2  
检索结果聚类能够帮助用户快速地浏览搜索引擎返回的结果.传统的聚类方法由于不能生成有意义的类别标签因此是不适合的,为了改善检索结果层次化聚类的效果,采用了基于标签的聚类算法,提出了将DF、查询日志、查询词上下文特征融合的类别标签抽取算法,并以抽取的标签构造基础类别图,通过GBCA算法构建层次化聚类结果.实验证明了多特征融合模型的有效性;GBCA算法在类别标签抽取和F-Measure两个评价指标上都比STC和Snaket算法有很大的提高.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号