首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 78 毫秒
1.
使用谱聚类算法解决文本聚类集成问题   总被引:1,自引:0,他引:1  
采用2个不同的谱聚类算法解决文本聚类集成问题.为使算法可扩展到大规模应用,基于代数变换,通过求解小规模矩阵的特征值分解问题避免了大规模矩阵的特征值分解问题,有效降低了2个谱聚类算法的计算复杂度.分别从矩阵扰动理论和图上的随机游走的角度解释了2个算法的有效性.在真实文本集上的实验结果表明:提出的代数变换方法是有效的,该方法可以有效提高谱聚类算法的运行效率;该聚类集成谱算法比其他常见的聚类集成算法更优越、更高效,可以有效解决文本聚类集成问题.  相似文献   

2.
K-means聚类算法研究综述   总被引:5,自引:0,他引:5  
总结评述了K-means聚类算法的研究现状,指出K-means聚类算法是一个NP难优化问题,无法获得全局最优。介绍了K-means聚类算法的目标函数、算法流程,并列举了一个实例,指出了数据子集的数目K、初始聚类中心选取、相似性度量和距离矩阵为K-means聚类算法的3个基本参数。总结了K-means聚类算法存在的问题及其改进算法,指出了K-means聚类的进一步研究方向。  相似文献   

3.
半监督谱聚类是当前模式聚类领域研究的一个重要方向.本文在分析三种传统半监督谱聚类方法的基础上,提出一种新的多二类谱聚类方法.考虑到拉普拉斯矩阵的第二特征向量具有最强的聚类能力,该方法使用多个拉普拉斯矩阵的第二特征向量实现聚类,不同于传统方法只使用一个拉普拉斯矩阵的多个特征向量.在Iris等标准数据集和图像分割上的实验结果表明本文方法的有效性.  相似文献   

4.
谱聚类算法是近年来国际上机器学习领域的一个新的研究热点,但其在文本聚类上的应用还较少。设计了一种文本聚类谱算法,首先构建文本相似度矩阵并进而得到拉普拉斯矩阵,随后对其进行特征值分解获得前k个最小特征向量,最后使用K均值算法(K-means)获得k个文本簇。在真实文本数据集上进行了实验,与超球K均值算法相比,本文算法获得了更好的聚类结果。  相似文献   

5.
针对传统谱聚类算法初始化敏感引起的聚类效率与正确率不稳定问题,给出一种改进的谱聚类算法.该算法首先构造Laplacian矩阵并得到其特征谱空间,然后引入粒子群优化的FCM算法在该空间中寻找最优粒子作为初始类簇中心用以解决敏感问题.实验表明,与传统谱聚类算法比较,该算法的聚类结果更稳定,在较高维数据集上聚类效率与正确率有明显提高.  相似文献   

6.
传统谱聚类算法在构造相似度矩阵时,高斯核函数参数选取的无规律性会对聚类结果造成严重影响。针对的这一缺陷,提出一种基于密度均值的谱聚类算法。与传统算法不同,该算法选取样本点到周围K个样本点的平均距离作为尺度参数,并引入样本点的密度信息,使得聚类结果更符合实际样本的分布。同时,由于相似矩阵能自适应不同的局部密度,使得该算法对样本的空间分布并不敏感。在不同类型数据集上的实验验证了算法的有效性和较高的鲁棒性。  相似文献   

7.
该文针对现有的谱聚类方法用于极化SAR图像分类时精度较低的问题,提出一种基于马尔科夫的判别谱聚类方法(MDSC),具有低秩和稀疏分解的特点。该方法首先恢复一个真实的低秩概率转移矩阵,将其作为标准马尔科夫谱聚类方法的输入,以减少噪声对分类结果的影响;然后在目标函数中引入判别信息,使极化SAR图像的数据信息能够得到更加充分地利用;最后采用增广拉格朗日乘子法来解决低秩和概率单纯形约束下的目标函数优化问题。在荷兰小农田、德国、西安和荷兰大农田4个不同数据集上的实验证明,该方法具有较好的准确率,且参数敏感性较低,表现出了良好的分类性能。   相似文献   

8.
针对多视图聚类中如何更好地融合不同视图之间信息的问题,提出了一种多视图聚类算法。采用谱聚类中的归一化割算法,得到每个单视图的嵌入矩阵。通过最小化最终的全局图与各单视图之间的差距来学习最终的全局图。考虑到不同视图的重要性不同,使用了一种自加权的方式为每个视图添加权重。利用秩约束的方式控制全局图的连通分量个数。聚类结果可以从最终学习得到的全局图中直接得出,每个连通分量即为一个簇。通过在两个真实数据集上进行实验,对比该算法与其他类似算法在相同数据集上的聚类评价指标,得出该算法的聚类指标相比于对比算法有最大12%的提升。  相似文献   

9.
基于非负矩阵分解的谱聚类集成SAR图像分割   总被引:4,自引:0,他引:4       下载免费PDF全文
邓晓政  焦李成  卢山 《电子学报》2011,39(12):2905-2909
 本文提出了一种新颖的基于非负矩阵分解的谱聚类集成SAR图像分割框架.首先,个体分割结果的产生采用基于Nystrom逼近的谱聚类方法,使用不同的尺度参数,得到具有差异性的个体分割结果;其次,使用非负矩阵分解的方法来合并这些个体分割结果,使用非负矩阵分解方法的优点在于其合乎人类大脑感知的直观体验,并具有明确的物理含义;最后,根据合并得到的像素点隶属度关系得到SAR图像分割结果.为了验证本文方法的有效性,对3幅纹理图像和4幅SAR图像进行分割实验,并对比K-means方法、基于Nystrom逼近的谱聚类方法、Meta-clustering方法,本文的方法无论是定性还是定量分析都是较好的,并具有一定的实用性.  相似文献   

10.
从理论、程序设计和代码实现等方面,介绍如何将谱聚类算法利用Matlab的灵活编程功能进行仿真设计。  相似文献   

11.
完全自适应的谱聚类算法   总被引:2,自引:0,他引:2       下载免费PDF全文
谢娟英  丁丽娟 《电子学报》2019,47(5):1000-1008
针对谱聚类算法self-tuning的局部尺度参数σi会受噪音点影响,进而影响聚类结果,及其所使用的K-means算法的不稳定,对聚类结果的影响,提出两种完全自适应的谱聚类算法SC_SD(Spectral Clustering based on Standard Deviation)和SC_MD(Spectral Clustering based on Mean Distance),分别定义样本i的标准差、样本i到其余样本的距离均值,为样本i的邻域半径,统计邻域内的样本数,以样本i的邻域标准差为其局部尺度参数,避免样本i的局部尺度参数受噪音点影响,进而影响聚类结果;以方差优化初始聚类中心的SD_K-medoids算法代替K-means算法,克服K-means算法的不稳定,发现数据的真实分布.UCI数据集和人工数据集实验测试表明,提出的SC_SD和SC_MD算法能得到更优聚类结果,不受噪音点影响,有很好的伸缩性.提出的SC_SD和SC_MD能完全自适应地发现数据集的真实分布信息,尤其SC_MD算法很适合较大规模数据集的聚类分析.  相似文献   

12.
In most spectral clustering approaches, the Gaussian kernel‐based similarity measure is used to construct the affinity matrix. However, such a similarity measure does not work well on a dataset with a nonlinear and elongated structure. In this paper, we present a new similarity measure to deal with the nonlinearity issue. The maximum flow between data points is computed as the new similarity, which can satisfy the requirement for similarity in the clustering method. Additionally, the new similarity carries the global and local relations between data. We apply it to spectral clustering and compare the proposed similarity measure with other state‐of‐the‐art methods on both synthetic and real‐world data. The experiment results show the superiority of the new similarity: 1) The max‐flow‐based similarity measure can significantly improve the performance of spectral clustering; 2) It is robust and not sensitive to the parameters.  相似文献   

13.
基于本征间隙与正交特征向量的自动谱聚类   总被引:3,自引:0,他引:3       下载免费PDF全文
 针对经典谱聚类算法无法自动确定数据类个数的问题,本文提出了一种基于本征间隙与正交特征向量的自动谱聚类算法.该方法利用样本数据构建亲和度矩阵,然后进行谱分解得到相应的特征值和特征向量,对特征值从大至小依次排序,用本征间隙来刻画相邻特征值之间的差,通过第一个极大本征间隙出现的位置来自动确定类个数,最后以特征向量之间的夹角作为相似度和已获得的类个数相结合来实现数据分类.本文算法的正确性在人造数据库上得到了验证,并在UCI数据库上与k-means、FCM、 Jordan算法进行了分类准确性比较实验,结果表明本文方法比其他三种方法的分类准确率更高.  相似文献   

14.
Spectral clustering is a powerful tool for exploratory data analysis. Many existing spectral clustering algorithms typically measure the similarity by using a Gaussian kernel function or an undirected k‐nearest neighbor (kNN) graph, which cannot reveal the real clusters when the data are not well separated. In this paper, to improve the spectral clustering, we consider a robust similarity measure based on the shared nearest neighbors in a directed kNN graph. We propose two novel algorithms for spectral clustering: one based on the number of shared nearest neighbors, and one based on their closeness. The proposed algorithms are able to explore the underlying similarity relationships between data points, and are robust to datasets that are not well separated. Moreover, the proposed algorithms have only one parameter, k. We evaluated the proposed algorithms using synthetic and real‐world datasets. The experimental results demonstrate that the proposed algorithms not only achieve a good level of performance, they also outperform the traditional spectral clustering algorithms.  相似文献   

15.
基于监督信息特性的主动半监督谱聚类算法   总被引:4,自引:0,他引:4  
王娜  李霞 《电子学报》2010,38(1):172-176
 半监督聚类是利用少部分监督信息辅助大量未标签数据进行非监督的学习,其聚类性能的改善依赖于监督信息,因此挖掘适合半监督聚类的监督信息非常关键.提出了一种基于监督信息特性的主动学习策略,即找出同一类中距离相对较远的数据对象对和不同类中距离相对较近的数据对象对组成监督信息,并将其引入谱聚类算法,构建新颖的主动半监督谱聚类算法ASSC(Active Semi-supervised Spectral Clustering).利用该监督信息调整谱聚类中点与点之间的距离矩阵,使类内各点紧聚,类间散布.通过对UCI基准数据集以及人工数据集的实验结果表明,ASSC算法优于采用随机选取监督信息的谱聚类性能.  相似文献   

16.
Clustering is one of the most widely used techniques for exploratory data analysis.Spectral clustering algorithm,a popular modern clustering algorithm,has been shown to be more effective in detecting clusters than many traditional algorithms.It has applications ranging from computer vision and information retrieval to social science and biology.With the size of databases soaring,clustering algorithms have scaling computational time and memory use.In this paper,we propose a parallel spectral clustering implementation based on MapReduce.Both the computation and data storage are distributed,which solves the scalability problems for most existing algorithms.We empirically analyze the proposed implementation on both benchmark networks and a real social network dataset of about two million vertices and two billion edges crawled from Sina Weibo.It is shown that the proposed implementation scales well,speeds up the clustering without sacrificing quality,and processes massive datasets efficiently on commodity machine clusters.  相似文献   

17.
提出一种新的图聚类算法,结合结点的结构及属性特性,使用统一的随机移动距离计算结点间的相似度,在邻接随机移动距离矩阵的基础上进行聚类.实验结果表明,基于属性扩展图的聚类算法在图拓扑结构的基础上,充分考虑了各个结点所拥有的属性特点,得到的聚类结果将更好的切合实际的应用.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号