首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 156 毫秒
1.
针对模糊C-均值聚类算法对孤立点、随机初始化的聚类中心比较敏感的问题,将堆叠稀疏自编码与传统模糊C-均值聚类算法相结合,对传统模糊C-均值聚类算法进行了改进。由于堆叠稀疏自编码可以提取原始数据集从低层到高层的特征,而高层的特征通常比原始数据集更能反映待聚类样本的本质特征,用其代替原始数据集进行聚类,有助于提高聚类的效果。利用改进后的算法在UCI的几个标准数据集上进行实验,结果表明改进后的算法是有效可行的。  相似文献   

2.
传统谱聚类算法受高斯核尺度参数的影响较大,对噪声点较为敏感,并且不能利用先验信息指导聚类过程。针对以上问题,提出了一种基于路径相似度测量的鲁棒性谱聚类算法(RPB-SC)。该算法将路径聚类与谱聚类算法相结合,通过定义高斯核的邻域加权尺度因子计算相似度,再用路径聚类思想对全局相似度进行调节,同时通过成对限制先验信息辅助聚类搜索。在人工数据集和真实数据集上的实验表明,新提出的算法能有效减弱高斯核尺度参数的影响,增强对噪声点的鲁棒性,提高聚类性能。  相似文献   

3.
针对传统聚类算法中只注重数据间的距离关系,而忽视数据全局性分布结构的问题,提出一种基于EK-medoids聚类和邻域距离的特征选择方法。首先,用稀疏重构的方法计算数据样本之间的有效距离,构建基于有效距离的相似性矩阵;然后,将相似性矩阵应用到K-medoids聚类算法中,获取新的聚类中心,进而提出EK-medoids聚类算法,可有效对原始数据集进行聚类;最后,根据划分结果所构成簇的邻域距离给出确定数据集中的属性重要度定义,应用启发式搜索方法设计一种EK-medoids聚类和邻域距离的特征选择算法,降低了聚类算法的时间复杂度。实验结果表明,该算法不仅有效地提高了聚类结果的精度,而且也可选择出分类精度较高的特征子集。  相似文献   

4.
利用局部线性嵌入(LLE)算法中获得局部邻域之间的重构关系与使用最小角回归方法解决L1归一化问题都使用回归方法,针对在通过映射获得低维嵌入空间与通过特征选择获得低维空间上有着一致的思想,提出一种能保持局部重构关系的无监督谱特征选择方法.该方法利用最小二乘法计算样本的邻域重构系数,并用这些系数表示样本之间的关系,通过解决稀疏特征值问题获得能够保持样本间关系的低维嵌入空间,最后通过解决L1归一化问题实现自动特征选择.通过在四个不同数据集上的聚类实验结果证明,该方法能更准确地评价每个特征的重要性,能自动适应不同的数据集,受参数影响更小,可以明显提升聚类效果.  相似文献   

5.
稀疏关系表示(SRR)是一种性能良好的子空间聚类算法,其利用一个数据样本和所有样本间的邻域关系作为新特征来学习自表示系数,由自表示系数矩阵构建相似度矩阵并通过谱聚类得到聚类结果。同时考虑相似度矩阵的稀疏性和聚集性,在SRR算法基础上提出一个判别性增强的稀疏子空间聚类模型。对邻域关系矩阵的自表示矩阵采用平方F范数代替SSR中的核范数,降低模型求解难度,并在邻域关系矩阵的自表示矩阵中引入新的正则项,保证自表示矩阵的类间判别性和邻域关系矩阵的类内聚集性,进一步优化聚类性能。实验结果表明:与SSC、LRR、LSR、BDR-B、SRR等模型相比,该模型具有较好的聚类性能;在MNIST、USPS、ORL数据集上,聚类错误率较SRR模型分别下降9.6、14.1、3.8个百分点;在Extended Yale B数据集上,针对2、3、5、8、10类聚类问题的聚类错误率较SRR模型分别下降0.39、0.72、1.32、2.73、3.28个百分点。  相似文献   

6.
针对传统模糊聚类分割方法无法有效模拟数据分布特征的问题,提出基于邻域约束高斯混合模型的模糊聚类图像分割算法.利用高斯分布刻画聚类内像素光谱测度统计特征,定义像素与其邻域像素相关性的先验概率,并作为高斯混合模型中各高斯分量权重系数,构建包含特征场邻域作用的高斯混合模型.利用高斯分量描述像素与聚类间的非相似性测度,建立基于高斯混合模型的模糊聚类目标函数.在传统模糊聚类方法基础上,采用高斯混合模型定义像素与聚类间的非相似性测度,并在高斯混合模型中融入邻域作用,有效解决数据具有多峰值特征的问题.最后通过实验验证文中算法的准确性.  相似文献   

7.
目前,谱聚类已经成为图像分割领域的研究热点,但是,常见谱聚类算法具有0(n3)的复杂度,在图像分割的应用受到限制.基于在线的多尺度竞争学习,文中提出了一种基于在线编码的多尺度谱聚类算法,并应用于图像分割.首先,算法通过在线竞争学习算法构造m(m≤n)个原型来编码原始数据.然后,利用多尺度谱聚类对原型进行分组,标注样本并得到最终的聚类结果.算法的复杂度近似为O(mn十m2),因而,较好地提高了谱聚类在图像分割上的效率.在三组数据上开展了实验:在非凸数据集上的结果表明,文中算法具有良好的多尺度性质.在合成的高斯数据集上进行了效率对比分析,说明文中算法能有效压缩样本量,提高效率.在标准的图像上的分割效率优于通常的NJW谱聚类算法和在分割质量上优于k-means算法.和基于抽样的Nystr(o)m算法相比,具有一定优势.  相似文献   

8.
谱聚类能识别非线性数据,且优于传统聚类.谱聚类中度量相似性的高斯核函数尺度参数σ和聚类个数k对聚类效果影响较大,但需要人工判断.用向量之间夹角余弦代替σ并且通过特征值的跳跃性确定聚类个数,对于非线性高维数据,提出一种自适应谱聚类算法,将数据通过显式构造映射到随机特征空间,在随机特征空间中实现聚类.实验结果表明,在UCI数据上该算法与传统算法相比效果更好.  相似文献   

9.
谱聚类算法中如何定义一个合适的尺度参数仍待学习。针对谱聚类算法中由高斯核函数建立的相似度矩阵对尺度参数敏感的问题,提出了一个新的基于加权密度的自适应谱聚类算法——WDSC。该算法将数据点的加权K近邻距离作为尺度参数,尺度参数的倒数作为数据点所在邻域的密度,引入新的密度差调整相似度矩阵;考虑了每个数据点的邻域分布,故对噪声有一定的鲁棒性,且对参数也不再敏感。在不同数据集上的实验以及对比实验均验证了该算法的有效性与鲁棒性。  相似文献   

10.
基于图划分的谱聚类算法在文本挖掘中应用   总被引:1,自引:0,他引:1  
传统文本挖掘算法都是建立在凸球形的样本空间上,当样本空间不为凸时,算法就陷入"局部"最优.为了满足"全局"最优,引进了无向图结构表示文档之间的相似关系,由无向图建立文档之间的相邻接矩阵,谱聚类算法是通过对邻接矩阵进行分析,导出聚类对象的新特征,利用新的特征对原数据进行聚类.通过实验对该算法和其他的文本挖掘的算法进行分析比较,实验结果表明该算法聚类效果比传统数据挖掘方法好.最后指出谱聚类的不足和进一步的研究方向.  相似文献   

11.
谱聚类将数据聚类问题转化成图划分问题,通过寻找最优的子图,对数据点进行聚类。谱聚类的关键是构造合适的相似矩阵,将数据集的内在结构真实地描述出来。针对传统的谱聚类算法采用高斯核函数来构造相似矩阵时对尺度参数的选择很敏感,而且在聚类阶段需要随机确定初始的聚类中心,聚类性能也不稳定等问题,本文提出了基于消息传递的谱聚类算法。该算法采用密度自适应的相似性度量方法,可以更好地描述数据点之间的关系,然后利用近邻传播(Affinity propagation,AP)聚类中“消息传递”机制获得高质量的聚类中心,提高了谱聚类算法的性能。实验表明,新算法可以有效地处理多尺度数据集的聚类问题,其聚类性能非常稳定,聚类质量也优于传统的谱聚类算法和k-means算法。  相似文献   

12.
在谱聚类算法没有先验信息的情况下,对于具有复杂形状和不同密度变化的数据集很难构建合适的相似图,且基于欧氏距离的高斯核函数的相似性度量忽略了全局一致性。针对该问题,提出一种基于共享最近邻的密度自适应邻域谱聚类算法(SC-DANSN)。通过一种无参数的密度自适应邻域构建方法构建无向图,将共享最近邻作为衡量样本之间的相似性度量进而消除参数对构建相似图的影响,体现全局和局部的一致性。实验结果表明,SC-DANSN算法相比K-means算法和基于K最近邻的谱聚类算法(SC-KNN)具有更高的聚类精度,同时相比SC-KNN算法对参数的选取敏感性更低。  相似文献   

13.
Clustering Incomplete Data Using Kernel-Based Fuzzy C-means Algorithm   总被引:3,自引:0,他引:3  
  相似文献   

14.
Fuzzy c-means clustering with spatial constraints is considered as suitable algorithm for data clustering or data analyzing. But FCM has still lacks enough robustness to employ with noise data, because of its Euclidean distance measure objective function for finding the relationship between the objects. It can only be effective in clustering ‘spherical’ clusters, and it may not give reasonable clustering results for “non-compactly filled” spherical data such as “annular-shaped” data. This paper realized the drawbacks of the general fuzzy c-mean algorithm and it tries to introduce an extended Gaussian version of fuzzy C-means by replacing the Euclidean distance in the original object function of FCM. Firstly, this paper proposes initial kernel version of fuzzy c-means to aim at simplifying its computation and then extended it to extended Gaussian kernel version of fuzzy c-means. It derives an effective method to construct the membership matrix for objects, and it derives a robust method for updating centers from extended Gaussian version of fuzzy C-means. Furthermore, this paper proposes a new prototypes learning method and it obtains initial cluster centers using new mathematical initialization centers for the new effective objective function of fuzzy c-means, so that this paper tries to minimize the iteration of algorithms to obtain more accurate result. Initial experiment will be done with an artificially generated data to show how effectively the new proposed Gaussian version of fuzzy C-means works in obtaining clusters, and then the proposed methods can be implemented to cluster the Wisconsin breast cancer database into two clusters for the classes benign and malignant. To show the effective performance of proposed fuzzy c-means with new initialization of centers of clusters, this work compares the results with results of recent fuzzy c-means algorithm; in addition, it uses Silhouette method to validate the obtained clusters from breast cancer datasets.  相似文献   

15.
针对半监督谱聚类不能有效处理大规模数据,没有考虑约束传递不能充分利用有限约束信息的问题,提出一种结合稀疏表示和约束传递的半监督谱聚类算法。首先,根据约束信息生成约束矩阵,将其引入到谱聚类中;然后,将约束集合中的数据作为地标点构造稀疏表示矩阵,近似获得图相似度矩阵,从而改进约束谱聚类模型;同时,根据地标点的相似度矩阵生成连通区域,在每个连通区域内动态调整近邻点,利用约束传递进一步提高聚类准确率。实验表明,所提算法和约束谱聚类相比,在算法效率方面具有明显优势,且准确率没有明显下降;和快速谱聚类方法相比,在聚类准确率上有所提升。  相似文献   

16.
针对传统谱聚类算法应用于图像分割时仅采用特征相似性信息构造相似性矩阵,而忽略了像素分布的空间临近信息的缺陷,提出一种新的相似性度量公式--加权欧氏距离的高斯核函数,充分利用图像特征相似性信息和空间临近信息构造相似性矩阵。在谱映射过程中,采用Nystrom逼近策略近似估计相似性矩阵及其特征向量,大大减少了求解相似性矩阵的运算复杂度,降低了内存消耗。对得到的低维向量子空间采用一种新型的聚类算法--近邻传播聚类算法进行聚类,避免了传统谱聚类采用K-means算法对初始值敏感,易陷入局部最优的缺陷。实验表明该算法获得了比传统谱聚类算法更好的分割效果。  相似文献   

17.
Spectral clustering with fuzzy similarity measure   总被引:1,自引:0,他引:1  
Spectral clustering algorithms have been successfully used in the field of pattern recognition and computer vision. The widely used similarity measure for spectral clustering is Gaussian kernel function which measures the similarity between data points. However, it is difficult for spectral clustering to choose the suitable scaling parameter in Gaussian kernel similarity measure. In this paper, utilizing the prototypes and partition matrix obtained by fuzzy c-means clustering algorithm, we develop a fuzzy similarity measure for spectral clustering (FSSC). Furthermore, we introduce the K-nearest neighbor sparse strategy into FSSC and apply the sparse FSSC to texture image segmentation. In our experiments, we firstly perform some experiments on artificial data to verify the efficiency of the proposed fuzzy similarity measure. Then we analyze the parameters sensitivity of our method. Finally, we take self-tuning spectral clustering and Nyström methods for baseline comparisons, and apply these three methods to the synthetic texture and remote sensing image segmentation. The experimental results show that the proposed method is significantly effective and stable.  相似文献   

18.
李鹏清  李扬定  邓雪莲  李永钢  方月 《计算机科学》2018,45(Z11):458-461, 467
传统的谱聚类算法在建立相似度矩阵时仅考虑数据点与点的距离,忽略了数据点之间隐含的内在联系。针对这一问题,提出了一种基于SimRank的谱聚类算法。该算法首先用无向图数据建立邻接矩阵,并计算出基于SimRank的相似度矩阵;然后根据相似度矩阵建立拉普拉斯矩阵表达式,对其进行归一化后再进行谱分解;最后对分解得到的特征向量进行k-means聚类。在Zoo等UCI标准数据集上的实验结果表明,所提算法在聚类精确度、标准互信息和纯度3个评价指标上均优于现有的LRR(Low Rank Rrepresentation)等基于距离相似度的谱聚类算法。  相似文献   

19.
针对传统谱聚类算法在处理大规模数据集时,聚类精度低并且存在相似度矩阵存储开销大和拉普拉斯矩阵特征分解计算复杂度高的问题。提出了一种加权PageRank改进地标表示的自编码谱聚类算法,首先选取数据亲和图中权重最高的节点作为地标点,以选定的地标点与其他数据点之间的相似关系来逼近相似度矩阵作为叠加自动编码器的输入。然后利用聚类损失同时更新自动编码器和聚类中心的参数,从而实现可扩展和精确的聚类。实验表明,在几种典型的数据集上,所提算法与地标点谱聚类算法和深度谱聚类算法相比具有更好的聚类性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号