共查询到19条相似文献,搜索用时 78 毫秒
1.
谱聚类算法已得到机器学习领域的广泛关注,其算法思想来源于谱图理论,通过矩阵的特征分解获得数据的低维嵌入,并用于后续聚类中。介绍了谱聚类方法的基本原理和算法思想,指出现有的谱聚类算法中存在初始化敏感、如何自动确定聚类分组数以及如何降低问题复杂度等问题,并针对存在的问题提出了相应的解决方法。 相似文献
2.
谱聚类方法的应用已经开始从图像分割领域扩展到文本挖掘领域中,并取得了一定的成果。在自动确定聚类数目的基础上,结合模糊理论与谱聚类算法,提出了一种应用在多文本聚类中的模糊聚类算法,该算法主要描述了如何实现单个文本同时属于多个文本类的模糊谱聚类方法。实验仿真结果表明该算法具有很好的聚类效果。 相似文献
3.
4.
聚类算法是一种典型的无监督学习算法.本文分析了样本度量算法及类间的度量方法,机器学习中的聚类数据划分算法有k-平均算法、k-中心点算法,分析了两种算法的优缺点,最后说明算法在scikit-learn中的应用. 相似文献
5.
最近,算法的公平性问题引起了机器学习领域学者的广泛讨论。鉴于谱聚类在现代数据科学中的广泛流行,研究谱聚类的算法公平性是一个至关重要的话题。现有的公平谱聚类算法主要存在两个缺点:1)公平性能差;2)仅在单个敏感属性下工作。文中将公平问题视为一种约束谱聚类问题,通过求解约束谱聚类的可行解集,提出了一种非规范化公平谱聚类方法(Unnormalized Fair Spectral Clustering, UFSC),用于提升公平性能。此外,文中还提出了一种适用于多个敏感属性约束的公平聚类算法(Multi-sensitive Attributes Fair Spectral Clustering, MFSC)。在多个真实数据集上进行了实验,结果表明,UFSC和MFSC算法比现有的公平谱聚类算法生成的聚类结果更加公平。 相似文献
6.
聚类分析在机器学习、数据挖掘、生物DNA信息等方面都起着极为关键的作用。聚类算法从方法学上可分为扁平聚类和层谱聚类。扁平聚类通常将数据集分为K个并行社区,社区之间没有交集,但现实世界的社区之间多具有不同层次之间的包含关系,因而层谱聚类算法能对数据进行更精细的分析,提供更好的可解释性。而相比扁平聚类,层谱聚类研究进展缓慢。针对层谱聚类面临的问题,从对代价函数的选择、聚类结果衡量指标、聚类算法性能等方面入手,调研了大量的相关文献。其中聚类结果衡量指标主要有模块度、Jaccard指数、标准化互信息、树状图纯度等。扁平聚类算法中比较经典的算法有K-means算法、标签传播算法、DBSCAN算法、谱聚类算法等。层谱聚类算法可以进一步划分为分裂聚类算法和凝聚聚类算法,分裂层谱聚类算法有二分K-means算法和递归稀疏割算法,凝聚层谱聚类算法有经典的Louvain算法、BIRCH算法和近年来提出的HLP算法、PERCH算法及GRINCH算法。最后,进一步分析了这些算法的优缺点,并总结全文。 相似文献
7.
介绍了谱聚类方法的基本原理和算法思想,针对谱聚类方法优化问题求解的困难,分析了一种有原则的求解策略,从而给出算法的具体描述,并作为一个插件在Weka上进行了实现.对实现的系统进行了实验和测试,指出了应用中的关键问题.实验结果表明,谱聚类方法效果优于K-means方法. 相似文献
8.
一、引言机器学习是人工智能发展中一个十分活跃的领域,机器学习的研究就是希望计算机能够像人类那样具有从现实世界获取知识的能力。学习应是一切智能系统的重要特征之一,没有学习能力的系统都不堪称为智能系统。因此不少学者认为,如果说八十年代是专家系统的年代,那么九十年代将是机器学习的年代。归纳学习是机器学习研究中最为困难,然而却最为诱人的一个方面。从科学哲学的观点来看,归纳能够帮助人们学习,而且也 相似文献
9.
传统的谱聚类对初始化数据敏感,聚类结果随不同的初始输入数据而波动。针对上述问题,提出了一种基于遗传算法的谱聚类算法,该算法克服了谱聚类算法对初始数据的敏感性,得到较稳定的聚类结果。与遗传k均值和谱聚类算法相比,该算法在模拟数据和UCI数据集上获得了较好的聚类性能。 相似文献
10.
一种基于谱聚类的半监督聚类方法 总被引:6,自引:1,他引:6
半监督聚类利用少部分标签的数据辅助大量未标签的数据进行非监督的学习,从而提高聚类的性能。提出一种基于谱聚类的半监督聚类算法,其利用标签数据的信息,调整点与点之间的距离所形成的距离矩阵,而后基于被调整的距离矩阵进行谱聚类。实验表明,该算法较之于已提出的半监督聚类算法,获得了更好的聚类性能。 相似文献
11.
聚类算法是近年来国际上机器学习领域的一个新的研究热点。为了能在任意形状的样本空间上聚类,学者们提出了谱聚类和图论聚类等优秀的算法。首先介绍了图论聚类算法中的谱聚类经典NJW算法和NeiMu图论聚类算法的基本思路,提出了改进的自适应谱聚类NJW算法。提出的自适应NJW算法的优点在于无需调试参数,即可自动求出聚类个数,克服了经典NJW算法需要事先设置聚类个数且需反复调试参数δ才能得出数据分类结果的缺点。在UCI标准数据集及实测数据集上对自适应NJW算法与经典NJW算法、自适应NJW算法与NeiMu图论聚类算法进行了比较。实验结果表明,自适应NJW算法方便快捷,且具有较好的实用性。 相似文献
12.
数据聚类技术的研究 总被引:1,自引:0,他引:1
张蓉 《计算机工程与应用》2002,38(16):145-147
在分析指出传统数据聚类方法的缺点和不足的基础上,提出了一种新的数据聚类方法,给当前数据聚类技术的研究提供了一个新的思路。 相似文献
13.
一种基于粗糙集理论的谱聚类算法 总被引:1,自引:1,他引:0
谱聚类算法利用特征向量构造简化的数据空间,在降低数据维数的同时,使得数据在子空间中的分布结构更加明显.现有谱聚类算法的聚类结果多为精确集,而真实数据集中重叠现象广泛存在.基于粗糙集理论提出了一种新的谱聚类算法,其主要思想是对谱聚类算法进行粗糙集扩展,使得聚类结果成为具有下近似和上近似定义的、类与类之间存在重叠区域的结构.实验表明,该算法与现有的谱聚类算法相比,稳定性和准确率都有一定的提高. 相似文献
14.
谱聚类是一种新兴的聚类算法,数据点间的相似度定义对其聚类效果起着至关重要的作用。传统的谱聚类算法通常利用高斯核函数作为相似度函数,但是对于多密度的数据往往不能取得良好的效果。在定义新的相似度函数的基础上,提出了一种密度自适应的半监督聚类算法。该算法结合半监督聚类的成对约束理论,利用先验信息对样本点之间的相似度进行自适应调整,提高了聚类的精度。该算法在人工数据集和真实数据集上的仿真实验都取得了良好的效果。 相似文献
15.
无监督学习聚类算法的性能依赖于用户在输入数据集上指定的距离度量,该距离度量直接影响数据样本之间的相似性计算,因此,不同的距离度量往往对数据集的聚类结果具有重要的影响。针对谱聚类算法中距离度量的选取问题,提出一种基于边信息距离度量学习的谱聚类算法。该算法利用数据集本身蕴涵的边信息,即在数据集中抽样产生的若干数据样本之间是否具有相似性的信息,进行距离度量学习,将学习所得的距离度量准则应用于谱聚类算法的相似度计算函数,并据此构造相似度矩阵。通过在UCI标准数据集上的实验进行分析,结果表明,与标准谱聚类算法相比,该算法的预测精度得到明显提高。 相似文献
16.
超图谱聚类方法由于能很好地描述数据点间的高阶信息,近年来受到了广泛的关注。不同于传统图结构,超图结构中的超边不是两两数据点间的连接,而是一组具有某种相同特性的数据子集。在实际应用中,常用K-近邻来构建超图中的超边,因此,并没有考虑到数据内在的关联性。提出一种新的基于稀疏重构的超图构建方法。对每一样本,用稀疏表示来找到与其最有关联的近邻样本,以此形成基于稀疏重构的超图模型,使得每个超边内的样本都具有很强的关联性。最后通过对超图拉普拉斯矩阵进行谱分解得到聚类结果。在人脸数据库、手写体数据库上的实验结果验证了算法的有效性。 相似文献
17.
谱聚类来源于算子理论研究成果,在大数据降维和分类中发挥着重要的作用,但是目前国内的研究多注重应用算法设计,很少见到谱聚类理论方面的研究。为弥补这方面的一些不足,较为系统地总结了这些理论,侧重于阐述与谱聚类的算子理论紧密相关的最新理论研究成果,并简要介绍了一些具体的谱聚类算法、原理及其性能。从积分算子、图谱理论、流形学习出发,评述和分析了谱聚类的最新理论原理、收敛性结论、发展现状以及与流形学习的内在联系,最后指出了理论研究的一些方向。 相似文献
18.
为提高谱聚类算法的鲁棒性,基于稀疏编码在图的构造中提出一种改进L1稀疏表示图模型。每个样本表示为数据集中其他样本的稀疏线性组合,得到稀疏图的边权表示,所构造的稀疏图对数据噪声有很好的鲁棒性,同时能够反映数据局部线性结构。采用稀疏矩阵表示,该方法能够大大降低存储量和计算量,因而对于处理较大规模问题有着较好的可伸缩性。人工数据和实际数据上的谱聚类实验验证了该算法的性能。 相似文献
19.
传统的谱聚类算法在建立相似度矩阵时仅考虑数据点与点的距离,忽略了数据点之间隐含的内在联系。针对这一问题,提出了一种基于SimRank的谱聚类算法。该算法首先用无向图数据建立邻接矩阵,并计算出基于SimRank的相似度矩阵;然后根据相似度矩阵建立拉普拉斯矩阵表达式,对其进行归一化后再进行谱分解;最后对分解得到的特征向量进行k-means聚类。在Zoo等UCI标准数据集上的实验结果表明,所提算法在聚类精确度、标准互信息和纯度3个评价指标上均优于现有的LRR(Low Rank Rrepresentation)等基于距离相似度的谱聚类算法。 相似文献