首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
流形上的非线性判别K均值聚类   总被引:1,自引:1,他引:0  
高丽平  周雪燕  詹宇斌 《计算机应用》2011,31(12):3247-3251
为提高具有流形结构的高维数据的聚类性能,提出非线性判别K均值聚类算法(NDisKmeans)。该方法通过引入流形上的谱正则化技术,将数据的低维嵌入表示成数据流形上平滑函数的线性组合,然后通过最大化低维空间中聚类类间的散度与总体散度的比值,来实现对高维数据的聚类。还设计了一种收敛的迭代求解方法来求解最优组合系数矩阵和聚类赋值矩阵。NDisKmeans方法由于考虑了数据的流形结构,克服了判别K均值算法中线性映射的不足,从而提高了对高维数据聚类的性能。最后在数据集上的广泛实验表明,NDisKmeans方法能有效实现对高维数据的聚类。  相似文献   

2.
The sensitivity of the constrained K-means clustering algorithm (Cop-Kmeans) to the assignment order of instances is studied, and a novel assignment order learning method for Cop-Kmeans, termed as clustering Uncertainty-based Assignment order Learning Algorithm (UALA), is proposed in this paper. The main idea of UALA is to rank all instances in the data set according to their clustering uncertainties calculated by using the ensembles of multiple clustering algorithms. Experimental results on several real data sets with artificial instance-level constraints demonstrate that UALA can identify a good assignment order of instances for Cop-Kmeans. In addition, the effects of ensemble sizes on the performance of UALA are analyzed, and the generalization property of Cop-Kmeans is also studied.   相似文献   

3.
针对密度峰值聚类算法(Density Peaks Clustering,DPC)需要人为指定截断距离d c,以及局部密度定义简单和一步分配策略导致算法在复杂数据集上表现不佳的问题,提出了一种基于自然最近邻的密度峰值聚类算法(Density Peaks Clustering based on Natural Nearest Neighbor,NNN-DPC)。该算法无需指定任何参数,是一种非参数的聚类方法。该算法首先根据自然最近邻的定义,给出新的局部密度计算方法来描述数据的分布,揭示内在的联系;然后设计了两步分配策略来进行样本点的划分。最后定义了簇间相似度并提出了新的簇合并规则进行簇的合并,从而得到最终聚类结果。实验结果表明,在无需参数的情况下,NNN-DPC算法在各类数据集上都有优秀的泛化能力,对于流形数据或簇间密度差异大的数据能更加准确地识别聚类数目和分配样本点。与DPC、FKNN-DPC(Fuzzy Weighted K-nearest Density Peak Clustering)以及其他3种经典聚类算法的性能指标相比,NNN-DPC算法更具优势。  相似文献   

4.
挖掘多视图一致性是提升多视图聚类性能的关键,为更好地从多视图数据中学习一致性表示,提出一种新的多视图聚类算法OMTSC。OMTSC算法同时学习每个视图的聚类分配矩阵和特征嵌入,并将聚类分配矩阵分解为共享正交基矩阵和聚类编码矩阵。正交基矩阵可捕获并储存多视图一致性信息形成潜在聚类中心,经过加权融合的多视图聚类编码矩阵可更好地平衡不同视图的质量差异。引入基于二部图的协同聚类,实现正交基、聚类编码和特征嵌入3个矩阵的知识相互迁移,以提升多视图数据一致性和多样性,并利用特征嵌入的多样性最大化多视图一致性学习最优的潜在聚类中心,从而提高多视图聚类的性能。此外,基于群稀疏约束的特征嵌入可有效消除多视图数据中的噪声,提升算法的鲁棒性。在WikipediaArticles、COIL20和ORL数据集上的实验结果表明,与SC-Best、Co-Reg等先进的多视图聚类算法相比,OMTSC算法在ACC、NMI、ARI 3个评价指标上整体取得最优值,其中在COIL20和ORL数据集中的NMI评价指标均高于0.9。  相似文献   

5.
In this short paper, a unified framework for performing density-weighted fuzzy $c$-means (FCM) clustering of feature and relational datasets is presented. The proposed approach consists of reducing the original dataset to a smaller one, assigning each selected datum a weight reflecting the number of nearby data, clustering the weighted reduced dataset using a weighted version of the feature or relational data FCM algorithm, and if desired, extending the reduced data results back to the original dataset. Several methods are given for each of the tasks of data subset selection, weight assignment, and extension of the weighted clustering results. The newly proposed weighted version of the non-Euclidean relational FCM algorithm is proved to produce the identical results as its feature data analog for a certain type of relational data. Artificial and real data examples are used to demonstrate and contrast various instances of this general approach.   相似文献   

6.
Clustering divides data into meaningful or useful groups (clusters) without any prior knowledge. It is a key technique in data mining and has become an important issue in many fields. This article presents a new clustering algorithm based on the mechanism analysis of chaotic ant swarm (CAS). It is an optimization methodology for clustering problem which aims to obtain global optimal assignment by minimizing the objective function. The proposed algorithm combines three advantages into one: finding global optimal solution to the objective function, not sensitive to clusters with different size and density and suitable to multi-dimensional data sets. The quality of this approach is evaluated on several well-known benchmark data sets. Compared with the popular clustering method named k-means algorithm and the PSO-based clustering technique, experimental results show that our algorithm is an effective clustering technique and can be used to handle data sets with complex cluster sizes, densities and multiple dimensions.  相似文献   

7.
目的 为了更有效地提高中智模糊C-均值聚类对非凸不规则数据的聚类性能和噪声污染图像的分割效果,提出了核空间中智模糊均值聚类算法。方法 引入核函数概念。利用满足Mercer条件的非线性问题,用非线性变换把低维空间线性不可分的输入模式空间映射到一个先行可分的高维特征空间进行中智模糊聚类分割。结果 通过对大量图像添加不同的加性和乘性噪声进行分割测试获得的核空间中智模糊聚类算法提高了现有算法的对含噪声聚类的鲁棒性和分类性能。峰值信噪比至少提高0.8 dB。结论 本文算法具有显著的分割效果和良好的鲁棒性,并适应于医学,遥感图像处理需要。  相似文献   

8.
为了克服k-均值聚类算法容易受到数据空间分布影响的缺点,将线性规划下的一类支持向量机算法与K-均值聚类方法相结合提出一种支持向量聚类算法,该算法的每次循环都采用线性规划下的一类支持向量机进行运算.该算法实现简单,与二次规划下的支持向量机聚类算法相比,该算法能够大大减小计算的复杂性,而且能保持良好的聚类效果.与K-均值聚类算法、自组织映射聚类算法等进行仿真比较,人工数据和实际数据表明了该算法的有效性和可行性.  相似文献   

9.
Clustering Incomplete Data Using Kernel-Based Fuzzy C-means Algorithm   总被引:3,自引:0,他引:3  
  相似文献   

10.
邱烨  何振峰 《计算机科学》2012,39(8):196-198,209
结合关联限制K-means算法能有效地提高聚类结果,但对数据对象分配次序却非常敏感。为获得一个好的分配次序,提出了一种基于分配次序聚类不稳定性的迭代学习算法。根据Cop-Kmeans算法的稳定性特点,采用迭代思想,逐步确定数据对象的稳定性,进而确定分配次序。实验结果表明,基于分配次序聚类不稳定性迭代学习算法有效地提高了Cop-Kmeans算法的准确率。  相似文献   

11.
谱嵌入聚类(SEC)算法要求样本满足流形假设,样本标签总是可以嵌入到一个线性空间中去,这为线性可分数据的谱嵌入聚类问题提供了新的思路,但该算法使用的线性映射函数不适用于处理高维非线性数据。针对这一问题,通过核化线性映射函数,建立了基于核函数的谱嵌入聚类(KSEC)模型,该模型既能解决线性映射函数不能处理非线性数据的问题,又实现了对高维数据的核降维。在真实数据集上的实验分析结果表明,使用所提算法后聚类正确率平均提高了13.11%,最高可提高31.62%,特别在高维数据上平均提高了16.53%,而且在算法关于参数的敏感度实验中发现算法的稳定性更好。所以改进后的算法对高维非线性数据具有很好的聚类效果,获得了比传统谱嵌入聚类算法更高的聚类准确率和更好的聚类性能。所提方法可以用于诸如遥感影像这类复杂图像的处理领域。  相似文献   

12.
In Arbel and Rath (1985) an iterative eigenvalue assignment algorithm was presented. This algorithm has the shortcomings of clustering most of the closed-loop eigenvalues on the real axis. A general method is given here for recursive eigenstructure assignment in linear systems. The method eliminates the shortcomings of the algorithm of Arbel and Rath. It is shown that the right and left eigenvectors of the closed-loop system matrix can be determined in terms of those of a small-dimension matrix A?c . It is also shown that the results of Arbel and Tse (1980) are special cases of those of the proposed method. Moreover, the arbitrary parameters, beyond eigenvalue assignment, are shown to be embedded in the choice of a certain arbitrary invertible matrix S. Furthermore, computer-oriented steps are outlined for recursive eigenstructure assignment in large-scale systems. Numerical examples are worked out to illustrate the generality and feasibility of the proposed method.  相似文献   

13.
密度峰值聚类算法在处理分类型数据时难以产生较好的聚类效果。针对该现象,详细分析了其产生的原因:距离计算的重叠问题和密度计算的聚集问题。同时为了解决上述问题,提出了一种面向分类型数据的密度峰值聚类算法(Cauchy kernel-based density peaks clustering for categorical data,CDPCD)。算法首先指出分类型数据距离度量过程中有序特性(分类型数据属性值之间的顺序关系)鲜有考虑的现状,进而提出一种基于概率分布的加权有序距离度量来缓解重叠问题。通过结合柯西核函数,在共享最近邻密度峰值聚类算法基础上重新评估数据密度值,改进了密度计算和二次分配方式,增强了密度多样性,降低了聚集问题带来的影响。多个真实数据集上的实验结果表明,相较于传统的基于划分和密度的聚类算法,CDPCD都取得了更好的聚类结果。  相似文献   

14.
潘兴广  王士同 《控制与决策》2021,36(11):2665-2673
对含有不重要特征、冗余特征的数据进行聚类,采用特征缩减模糊聚类(feature reduction fuzzy c-means, FRFCM)算法是有效的.该算法使用特征的均值方差比(mean-to-variance ratio,MVR)度量特征的重要性,删除权重小于阈值的特征,仅保留重要特征进行聚类,以提升算法的性能和速度.但该算法存在以下不足:1)数据归一化后,特征的MVR值会发生改变,重要特征的MVR值可能会变小,不重要特征的MVR值可能会变大;2)一些数据的重要特征,其MVR指标未必大;3)FRFCM算法特征权重分配依赖于初始化,不恰当的初始化会使算法给出错误的权重分配,使得聚类过程中算法会删除重要特征而保留不重要特征,造成FRFCM算法的聚类结果不正确.对此,首先构造边缘峰度度量(marginal kurtosis measuree,MKM)指标来度量特征的重要性;然后基于该指标提出一种新的、具有鲁棒的特征缩减模糊聚类算法.通过在人工数据集和真实数据集上的验证,表明所提出的算法是有效的.  相似文献   

15.
本论文在对各种算法深入分析的基础上,尤其在对基于密度的聚类算法he基于层次的聚类算法深入研究的基础上,提出了一种全新的基于密度和层次的快速聚类算法。该算法保持了基于密度聚类算法发现任意形状簇的优点,而且具有近似线性的时间复杂性,因此该算法适合对大规模数据的挖掘。理论分析和实验结果也证明了基于密度和层次的聚类算法具有处理任意形状簇的聚类、对噪音数据不敏感的特点,并且其执行效率明显高于传统的DBSCAN算法。  相似文献   

16.
Almost all subspace clustering algorithms proposed so far are designed for numeric datasets. In this paper, we present a k-means type clustering algorithm that finds clusters in data subspaces in mixed numeric and categorical datasets. In this method, we compute attributes contribution to different clusters. We propose a new cost function for a k-means type algorithm. One of the advantages of this algorithm is its complexity which is linear with respect to the number of the data points. This algorithm is also useful in describing the cluster formation in terms of attributes contribution to different clusters. The algorithm is tested on various synthetic and real datasets to show its effectiveness. The clustering results are explained by using attributes weights in the clusters. The clustering results are also compared with published results.  相似文献   

17.
DDM(DataDistributionManagement)服务是高层体系结构HLA(HighLevelArchitecture)中定义的六大服务之一,它主要目的是通过减少网络间不相关数据的分发,提高网络的利用效率。一种常用的DDM优化方法是使用组播,组播是一种非常适合一对多的通信方式,它能够将更新数据发送到一个指定的定购者子集里。传统的DDM组播使用固定网格分配算法,在资源使用和数据发送方面存在一定的问题,不适合超大规模的仿真。本文在固定网格算法基础上提出了一种基于聚类的组播组分配算法,通过聚类,将固定网格的组播组进行合并,减少组播组的使用数量,提高网络资源的利用率,最后从实验结果上分析了聚类组播算法的优缺点。  相似文献   

18.
文本聚类中,文本特征向量的高维特性使得对样本统计特征的评估十分困难,所以有必要进行有效的维数简约。LLE算法利用线性重构的局部对称性找出高维数据空间中的非线性结构,并在保持各数据点临近位置关系情况下,把高维空间数据点映射为低维空间对应的数据点。文章采用LLE-k均值方法进行中文文本聚类研究。首先利用LLE进行降维处理,然后对得到的线性特征向量用k均值进行聚类分析,与PCAI、SOMAP和LLE算法比较,结果显示LLE-k均值算法能得到更好的可视化效果。  相似文献   

19.
块对角表示(BDR)模型可以通过利用线性表示对数据有效地进行聚类,却无法很好地利用高维数据常见的非线性流形结构信息。针对这一问题,提出了基于近邻图改进的块对角子空间聚类(BDRNG)算法来通过近邻图来线性拟合高维数据的局部几何结构,并通过块对角约束来生成具有全局信息的块对角结构。BDRNG同时学习全局信息以及局部数据结构,从而获得更好的聚类表现。由于模型包含近邻图算子和非凸的块对角表示范数,BDRNG 采用了交替最小化来优化求解算法。实验结果如下:在噪声数据集上,BDRNG能够生成稳定的块对角结构系数矩阵,这说明了BDRNG对于噪声数据具有鲁棒性;在标准数据集上,BDRNG的聚类表现均优于BDR,尤其在人脸数据集上,相较于BDR,BDRNG的聚类准确度提高了8%。  相似文献   

20.
为满足大规模空间数据库的聚类需求,面向计算机集群,提出一种基于密度的并行聚类算法。该算法根据数据库分布特征进行数据分区,在每一个节点上对数据块并行聚类,在主节点上合并聚类结果。实验结果表明,该算法的计算速度随着节点数的增多呈线性增加,具有较好的延展性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号