首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
针对传统谱聚类算法应用于图像分割时仅采用特征相似性信息构造相似性矩阵,而忽略了像素分布的空间临近信息的缺陷,提出一种新的相似性度量公式--加权欧氏距离的高斯核函数,充分利用图像特征相似性信息和空间临近信息构造相似性矩阵。在谱映射过程中,采用Nystrom逼近策略近似估计相似性矩阵及其特征向量,大大减少了求解相似性矩阵的运算复杂度,降低了内存消耗。对得到的低维向量子空间采用一种新型的聚类算法--近邻传播聚类算法进行聚类,避免了传统谱聚类采用K-means算法对初始值敏感,易陷入局部最优的缺陷。实验表明该算法获得了比传统谱聚类算法更好的分割效果。  相似文献   

2.
聚类分析是一种常见的分析方法,谱聚类作为聚类分析的一支,因其不受样本形状约束等特点备受瞩目。为及时掌握当前谱聚类算法研究动态,通过对比分析众多谱聚类优化算法,从半监督学习、二阶段聚类算法选择、算法执行效率优化等三个角度,将谱聚类优化算法分为三类,并对每类算法的优化思想进行综述。介绍经典多路谱聚类与基本理论,并分析相似矩阵及其特征值、特征向量选取原因及影响,旨在明确特征矩阵的重要性与优化的必要性。基于算法改进策略差异,梳理并总结每类算法的改进思想、研究现状及优缺点。在UCI数据集与手写体数据集上,针对谱聚类算法与优化算法进行实验对比,并对谱聚类优化算法的未来研究方向进行展望。  相似文献   

3.
The task of discovering natural groupings of input patterns, or clustering, is an important aspect of machine learning and pattern analysis. In this paper, we study the widely used spectral clustering algorithm which clusters data using eigenvectors of a similarity/affinity matrix derived from a data set. In particular, we aim to solve two critical issues in spectral clustering: (1) how to automatically determine the number of clusters, and (2) how to perform effective clustering given noisy and sparse data. An analysis of the characteristics of eigenspace is carried out which shows that (a) not every eigenvectors of a data affinity matrix is informative and relevant for clustering; (b) eigenvector selection is critical because using uninformative/irrelevant eigenvectors could lead to poor clustering results; and (c) the corresponding eigenvalues cannot be used for relevant eigenvector selection given a realistic data set. Motivated by the analysis, a novel spectral clustering algorithm is proposed which differs from previous approaches in that only informative/relevant eigenvectors are employed for determining the number of clusters and performing clustering. The key element of the proposed algorithm is a simple but effective relevance learning method which measures the relevance of an eigenvector according to how well it can separate the data set into different clusters. Our algorithm was evaluated using synthetic data sets as well as real-world data sets generated from two challenging visual learning problems. The results demonstrated that our algorithm is able to estimate the cluster number correctly and reveal natural grouping of the input data/patterns even given sparse and noisy data.  相似文献   

4.
蒋勇  谭怀亮  李光文 《计算机应用》2011,31(9):2546-2550
在处理大数据集聚类问题上,谱聚算法因存在占用存储空间大、时间复杂度高的缺陷而难以推广,针对此问题,提出采用多次分割、向上向下双向收缩的QR算法求得特征值对应的特征向量来实现降维,并在此基础上构造映射空间上的样本来实现量子遗传谱聚算法的聚类。该方法通过映射为后续的量子遗传谱聚算法聚类提供低维的输入,而量子遗传算法具有快速收敛到全局最优并且对初始化不敏感的特性,从而可以获得良好的聚类结果。实验结果显示,使用该算法的聚类比谱聚算法、K-means算法、NJW算法等单一方法具有更好的收敛性、稳定性和更高的全局最优。  相似文献   

5.
针对传统谱聚类算法没有解决簇划分过程中,簇间交叉区域样本点对聚类效果有影响这个问题,提出一种基于局部协方差矩阵的谱聚类算法,主要介绍了一种新的计算样本之间相似度亲和矩阵的方法,即通过计算样本点之间的欧氏距离划分出小子集,计算小子集的协方差,通过设定阈值剔除交叉点,由剩下的点构造相似矩阵,对相似矩阵进行特征值分解,用经典的[k]-means算法对由特征向量组成的矩阵聚类。通过在Control等真实数据集上的实验结果表明,该算法在聚类准确率、标准互信息等指标上比较对比算法获得更优秀的效果。  相似文献   

6.
In recent years, spectral clustering has become one of the most popular clustering algorithms in areas of pattern analysis and recognition. This algorithm uses the eigenvalues and eigenvectors of a normalized similarity matrix to partition the data, and is simple to implement. However, when the image is corrupted by noise, spectral clustering cannot obtain satisfying segmentation performance. In order to overcome the noise sensitivity of the standard spectral clustering algorithm, a novel fuzzy spectral clustering algorithm with robust spatial information for image segmentation (FSC_RS) is proposed in this paper. Firstly, a non-local-weighted sum image of the original image is generated by utilizing the pixels with a similar configuration of each pixel. Then a robust gray-based fuzzy similarity measure is defined by using the fuzzy membership values among gray values in the new generated image. Thus, the similarity matrix obtained by this measure is only dependent on the number of the gray-levels and can be easily stored. Finally, the spectral graph partitioning method can be applied to this similarity matrix to group the gray values of the new generated image and then the corresponding pixels in the image are reclassified to obtain the final segmentation result. Some segmentation experiments on synthetic and real images show that the proposed method outperforms traditional spectral clustering methods and spatial fuzzy clustering in efficiency and robustness.  相似文献   

7.
谱聚类算法对输入数据顺序的敏感性*   总被引:2,自引:1,他引:1  
结合矩阵分析知识,还原了实施谱聚类算法过程中的矩阵表示.发现了不同数据输入顺序使得相应的Affinity矩阵及Laplacian矩阵是相似的.这样,Laplacian矩阵的特征向量生成的矩阵Y也是相似的;而以Y的行向量作为输入数据的K-平均算法依赖于初始的k个对象的选择.由此给出了导致谱聚类算法对数据输入顺序敏感的原因.  相似文献   

8.
针对网络故障检测中利用先验知识不足和多数谱聚类算法需事先确定聚类数的问题,提出一种新的基于成对约束信息传播与自动确定聚类数相结合的半监督自动谱聚类算法。通过学习一种新的相似性测度函数来满足约束条件,改进NJW聚类算法,对非规范化的Laplacian矩阵特征向量进行自动谱聚类,从而提高聚类性能。在UCI标准数据集和网络实测数据上的实验表明,该算法较相关比对算法聚类准确率更高,可满足网络故障检测的实际需要。  相似文献   

9.
李鹏清  李扬定  邓雪莲  李永钢  方月 《计算机科学》2018,45(Z11):458-461, 467
传统的谱聚类算法在建立相似度矩阵时仅考虑数据点与点的距离,忽略了数据点之间隐含的内在联系。针对这一问题,提出了一种基于SimRank的谱聚类算法。该算法首先用无向图数据建立邻接矩阵,并计算出基于SimRank的相似度矩阵;然后根据相似度矩阵建立拉普拉斯矩阵表达式,对其进行归一化后再进行谱分解;最后对分解得到的特征向量进行k-means聚类。在Zoo等UCI标准数据集上的实验结果表明,所提算法在聚类精确度、标准互信息和纯度3个评价指标上均优于现有的LRR(Low Rank Rrepresentation)等基于距离相似度的谱聚类算法。  相似文献   

10.
宋艳  殷俊 《计算机应用》2005,40(11):3211-3216
为了解决谱聚类算法中相似矩阵的构造不能满足簇内数据点高度相似的问题,给出一种基于共享近邻的多视角谱聚类算法(MV-SNN)。首先,算法通过提高共享近邻个数多的两个数据点的相似度,使同簇的数据之间的相似度更高;然后,将改进后的多个视角的相似矩阵进行相加从而整合得到全局相似矩阵;最后,为了解决一般谱聚类算法在后期仍需要通过k均值聚类算法进行数据点划分的问题,给出拉普拉斯矩阵秩约束的方法,从而直接通过全局相似矩阵得到最终的类簇结构。实验结果表明,对比其他几种多视角谱聚类算法,MV-SNN算法在三个聚类衡量标准:准确度、纯度和归一化互信息上的性能提高了1%~20%,在聚类时间上减少了50%左右,可见MV-SNN算法的聚类性能更好,用时更短。  相似文献   

11.
一种基于谱聚类的半监督聚类方法   总被引:7,自引:1,他引:6  
司文武  钱沄涛 《计算机应用》2005,25(6):1347-1349
半监督聚类利用少部分标签的数据辅助大量未标签的数据进行非监督的学习,从而提高聚类的性能。提出一种基于谱聚类的半监督聚类算法,其利用标签数据的信息,调整点与点之间的距离所形成的距离矩阵,而后基于被调整的距离矩阵进行谱聚类。实验表明,该算法较之于已提出的半监督聚类算法,获得了更好的聚类性能。  相似文献   

12.
宋艳  殷俊 《计算机应用》2020,40(11):3211-3216
为了解决谱聚类算法中相似矩阵的构造不能满足簇内数据点高度相似的问题,给出一种基于共享近邻的多视角谱聚类算法(MV-SNN)。首先,算法通过提高共享近邻个数多的两个数据点的相似度,使同簇的数据之间的相似度更高;然后,将改进后的多个视角的相似矩阵进行相加从而整合得到全局相似矩阵;最后,为了解决一般谱聚类算法在后期仍需要通过k均值聚类算法进行数据点划分的问题,给出拉普拉斯矩阵秩约束的方法,从而直接通过全局相似矩阵得到最终的类簇结构。实验结果表明,对比其他几种多视角谱聚类算法,MV-SNN算法在三个聚类衡量标准:准确度、纯度和归一化互信息上的性能提高了1%~20%,在聚类时间上减少了50%左右,可见MV-SNN算法的聚类性能更好,用时更短。  相似文献   

13.
邹小林 《计算机应用》2012,32(8):2291-2298
谱聚类算法能在任意形状的样本空间上聚类且收敛于全局最优解,但判别割(Dcut)算法在计算正则化相似度矩阵及其特征向量时比较耗时,而基于子空间的Dcut(SDcut)算法则不稳定,为此,提出基于主成分分析(PCA)的Dcut算法(PCA-Dcut)。PCA-Dcut算法采用PCA算法计算相似度矩阵的前m个大的特征值对应的特征向量构造一个新的矩阵,然后采用构造的矩阵与相似度矩阵和拉普拉斯矩阵分别进行矩阵运算;接着通过计算获得一个m阶正则化相似度矩阵,并计算该矩阵的k个最大特征向量;最后使用构造的矩阵与这k个特征向量相乘获得最终用于分类的特征向量。PCA-Dcut算法能降低Dcut算法的计算复杂度。通过对人工合成数据集、UCI数据集和真实图像的仿真实验表明,PCA-Dcut算法的聚类准确率与Dcut等谱聚类算法相当,同时在分割图像时的运算速度约为Dcut的5.4倍,并具有比SDcut更快的速度和更好的性能。  相似文献   

14.
基于矩阵谱分析的文本聚类集成算法   总被引:1,自引:0,他引:1  
聚类集成技术可有效提高单聚类算法的精度和稳定性,其中的关键问题是如何根据不同的聚类成员组合为更好的聚类结果.文中引入谱聚类算法解决文本聚类集成问题,设计基于正则化拉普拉斯矩阵的谱算法(NLM-SA).该算法基于代数变换,通过求解小规模矩阵的特征值和特征向量间接获得正则化拉普拉斯矩阵的特征向量,并用于后续聚类.进一步研究谱聚类算法的关键思想,设计基于超边转移概率矩阵的谱算法(HTMSA).该算法通过求解超边的低维嵌入间接获得文本的低维嵌入,并用于后续K均值算法.在TREC和Reuters文本集上的实验结果验证NLMSA和HTMSA的有效性,它们都获得比其它基于图划分的集成算法更为优越的结果.HTMSA获得的结果比NLMSA略差,而时间和空间需求则比NLMSA低得多.  相似文献   

15.
杨宁  唐常杰  王悦  陈瑜  郑皎凌 《软件学报》2010,21(10):2395-2409
为解决从多数据流挖掘演化事件这一难题,提出了一种多数据流上的谱聚类算法SCAM(spectral clustering algorithm of multi-streams),其相似矩阵基于耦合度构造,而耦合度衡量了两个数据流的动态相似性.提出了算法EEMA(evolutionary events mining algorithm),该算法基于聚类模型的演变挖掘多数据流的演化事件.定义了聚类模型凝聚度,用以衡量聚类的紧凑程度,并证明了凝聚度的上界.基于到上界的距离和规范化相似矩阵的特征间隙,定义了聚类模型质量,并作为EEMA的优化目标自动地确定聚簇数k.设计了O-EEMA作为EEMA的优化实现,其时间复杂度为O(cn2/2).在合成和真实数据集上的实验结果表明,EEMA和O-EEMA是有效的、可行的.  相似文献   

16.
针对传统谱聚类算法中亲合矩阵构造不准确和聚类结果不稳定的问题,提出一种基于邻里关系传播与模式合并的谱聚类算法。根据邻里关系传播原则更新子集内样本的相似度,设计局部最大相似值更新方法更新子集间样本的相似度,使用模式合并技术对子集个数较多的集合加以合并得出粗类,再对粗类间样本相似度进行二次更新,构造出亲合矩阵并将其用于谱聚类运算。实验结果表明,二次更新后,同类中样本的相似度被相对性放大,而不同类中样本的相似度则相对性缩小。与近邻传播的谱聚类算法相比,使用该算法能够得到更准确、稳定的聚类结果。  相似文献   

17.
解决文本聚类集成问题的两个谱算法   总被引:8,自引:0,他引:8  
徐森  卢志茂  顾国昌 《自动化学报》2009,35(7):997-1002
聚类集成中的关键问题是如何根据不同的聚类器组合为最终的更好的聚类结果. 本文引入谱聚类思想解决文本聚类集成问题, 然而谱聚类算法需要计算大规模矩阵的特征值分解问题来获得文本的低维嵌入, 并用于后续聚类. 本文首先提出了一个集成算法, 该算法使用代数变换将大规模矩阵的特征值分解问题转化为等价的奇异值分解问题, 并继续转化为规模更小的特征值分解问题; 然后进一步研究了谱聚类算法的特性, 提出了另一个集成算法, 该算法通过求解超边的低维嵌入, 间接得到文本的低维嵌入. 在TREC和Reuters文本数据集上的实验结果表明, 本文提出的两个谱聚类算法比其他基于图划分的集成算法鲁棒, 是解决文本聚类集成问题行之有效的方法.  相似文献   

18.
In this paper, we present a perturbation analysis for the matrices in the multiway normalized cut spectral clustering method based on the matrix perturbation theory. The analytical results show that the eigenvalues and the eigenspaces of the normalized Laplacian matrices are continuous. Therefore, clustering algorithms can be designed according to the special properties of the normalized Laplacian matrices in the ideal case and the method can be extended to the general case based on the continuity of the eigenvalues and the eigenspaces of the normalized Laplacian matrices. The numerical results are consistent with the theoretical results.  相似文献   

19.
谱聚类将数据聚类问题转化成图划分问题,通过寻找最优的子图,对数据点进行聚类。谱聚类的关键是构造合适的相似矩阵,将数据集的内在结构真实地描述出来。针对传统的谱聚类算法采用高斯核函数来构造相似矩阵时对尺度参数的选择很敏感,而且在聚类阶段需要随机确定初始的聚类中心,聚类性能也不稳定等问题,本文提出了基于消息传递的谱聚类算法。该算法采用密度自适应的相似性度量方法,可以更好地描述数据点之间的关系,然后利用近邻传播(Affinity propagation,AP)聚类中“消息传递”机制获得高质量的聚类中心,提高了谱聚类算法的性能。实验表明,新算法可以有效地处理多尺度数据集的聚类问题,其聚类性能非常稳定,聚类质量也优于传统的谱聚类算法和k-means算法。  相似文献   

20.
基于密度峰值优化的谱聚类算法   总被引:1,自引:0,他引:1  
针对经典谱聚类算法无法自适应确定聚类数目、以及在处理大数据量的聚类问题时效率不高的问题,本文提出了一种基于密度峰值优化的谱聚类算法。该方法首先计算数据对象的局部密度,以及每个数据对象与较其他数据对象的最小距离,并依据一定的规则自适应产生初始聚类中心,确定聚类数目。其次,使用Nystr?m抽样来降低特征分解的计算复杂度以达到提高谱聚类算法的效率。实验结果表明,本文方法能够准确地得到聚类数目,并且有效提高聚类的准确率和效率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号