首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 62 毫秒
1.
周海松  黄德才 《计算机科学》2016,43(12):209-212
谱聚类是一种新兴的聚类算法,数据点间的相似度定义对其聚类效果起着至关重要的作用。传统的谱聚类算法通常利用高斯核函数作为相似度函数,但是对于多密度的数据往往不能取得良好的效果。在定义新的相似度函数的基础上,提出了一种密度自适应的半监督聚类算法。该算法结合半监督聚类的成对约束理论,利用先验信息对样本点之间的相似度进行自适应调整,提高了聚类的精度。该算法在人工数据集和真实数据集上的仿真实验都取得了良好的效果。  相似文献   

2.
一种基于谱聚类的半监督聚类方法   总被引:6,自引:1,他引:6  
司文武  钱沄涛 《计算机应用》2005,25(6):1347-1349
半监督聚类利用少部分标签的数据辅助大量未标签的数据进行非监督的学习,从而提高聚类的性能。提出一种基于谱聚类的半监督聚类算法,其利用标签数据的信息,调整点与点之间的距离所形成的距离矩阵,而后基于被调整的距离矩阵进行谱聚类。实验表明,该算法较之于已提出的半监督聚类算法,获得了更好的聚类性能。  相似文献   

3.
在谱聚类算法没有先验信息的情况下,对于具有复杂形状和不同密度变化的数据集很难构建合适的相似图,且基于欧氏距离的高斯核函数的相似性度量忽略了全局一致性.针对该问题,提出一种基于共享最近邻的密度自适应邻域谱聚类算法(SC-DANSN).通过一种无参数的密度自适应邻域构建方法构建无向图,将共享最近邻作为衡量样本之间的相似性度...  相似文献   

4.
密度敏感的半监督谱聚类   总被引:27,自引:0,他引:27  
王玲  薄列峰  焦李成 《软件学报》2007,18(10):2412-2422
聚类通常被认为是一种无监督的数据分析方法,然而在实际问题中可以很容易地获得有限的样本先验信息,如样本的成对限制信息.大量研究表明,在聚类搜索过程中充分利用先验信息会显著提高聚类算法的性能.首先分析了在聚类过程中仅利用成对限制信息存在的不足,尝试探索数据集本身固有的先验信息--空间一致性先验信息,并提出利用这类先验信息的具体方法.接着,将两类先验信息同时引入经典的谱聚类算法中,提出一种密度敏感的半监督谱聚类算法(density-sensitive semi-supervised spectral clustering algorithm,简称DS-SSC).两类先验信息在指导聚类搜索的过程中能够起到相辅相成的作用,这使得DS-SSC算法相对于仅利用成对限制信息的聚类算法在聚类性能上有了显著的提高.在UCI基准数据集、USPS手写体数字集以及TREC的文本数据集上的实验结果验证了这一点.  相似文献   

5.
半监督聚类利用少部分标签的数据辅助大量未标签的数据进行非监督的学习,从而提高聚类的性能。大部分的谱聚类算法都需事先确定聚类数目,利用半监督机器学习技术和自适应聚类算法,解决算法中存在的聚类数目需要事先确定、易陷入局部最优、收敛速度缓慢、对孤立点敏感等缺陷。实验证明该算法有很好的聚类效果。  相似文献   

6.
传统谱聚类算法经常在处理一些结构复杂的数据集时效果不太理想,并且其相似度矩阵构造时参数的选取往往需要依靠多次实验及个人经验。在这种情况下,提出一种基于自然最近邻相似图的谱聚类(NSG-SC)算法。自然最近邻是一种新颖的最近邻概念,可以有效地避免K最近邻以及ε-最近邻方法需要人为设置参数的缺点。该算法构造相似度矩阵时依靠数据集自身的特性进行搜索,避免了参数选取不当以及离散点所带来的影响,更加真实地反映了数据集的结构关系。实验结果表明,提出的NSG-SC算法具有可行性和有效性。  相似文献   

7.
针对网络故障检测中利用先验知识不足和多数谱聚类算法需事先确定聚类数的问题,提出一种新的基于成对约束信息传播与自动确定聚类数相结合的半监督自动谱聚类算法。通过学习一种新的相似性测度函数来满足约束条件,改进NJW聚类算法,对非规范化的Laplacian矩阵特征向量进行自动谱聚类,从而提高聚类性能。在UCI标准数据集和网络实测数据上的实验表明,该算法较相关比对算法聚类准确率更高,可满足网络故障检测的实际需要。  相似文献   

8.
通过对几种典型聚类算法的分析和比较,提出了一种新的聚类算法,基于扩展约束的半监督谱聚类算法,简称CE-SSC。这种算法扩展了已知约束集,通过密度敏感距离改变样本点的相似关系,结合半监督谱聚类进行聚类。在UCI基准集上的仿真实验结果证明,基于扩展约束的半监督谱聚类算法具有良好的聚类效应。  相似文献   

9.
李明  杨艳屏  占惠融 《自动化学报》2010,36(12):1655-1660
基于图的算法已经成为半监督学习中的一种流行方法, 该方法把数据定义为图的节点, 用图的边表示数据之间的关系, 在各种数据分布情况下都具有很高的分类准确度. 然而图方法的计算复杂度比较高, 当图的规模比较大时, 计算所需要的时间和存储都非常大, 这在一定程度上限制了图方法的使用. 因此, 如何控制图的大小是基于图的半监督学习算法中的一个重要问题. 本文提出了一种基于密度估计的快速聚类方法, 可以在局部范围对数据点进行聚类, 以聚类形成的子集作为构图的节点, 从而大大降低了图的复杂度. 新的聚类方法计算量较小, 通过推导得到的距离函数能较好地保持原有数据分布. 实验结果表明, 通过局部聚类后构建的小图在分类效果上与在原图上的结果相当, 同时在计算速度上有极大的提高.  相似文献   

10.
依据OPTICS可视化密度模型计算球形分布对象的密度扩张序列,指数缩减自适应水平阈值以获取聚类数量和聚类邻域;基于粗集理论计算各聚类核的上下近似区域,通过该邻域系统实现显式的对象划分方法.依据对象聚类邻域确定聚类数量和聚类核,以及对象的粗糙近似划分,使得聚类具有密度自适应和孤点不敏感的特点,取样分析有效提高了算法效率.  相似文献   

11.
宋艳  殷俊 《计算机应用》2005,40(11):3211-3216
为了解决谱聚类算法中相似矩阵的构造不能满足簇内数据点高度相似的问题,给出一种基于共享近邻的多视角谱聚类算法(MV-SNN)。首先,算法通过提高共享近邻个数多的两个数据点的相似度,使同簇的数据之间的相似度更高;然后,将改进后的多个视角的相似矩阵进行相加从而整合得到全局相似矩阵;最后,为了解决一般谱聚类算法在后期仍需要通过k均值聚类算法进行数据点划分的问题,给出拉普拉斯矩阵秩约束的方法,从而直接通过全局相似矩阵得到最终的类簇结构。实验结果表明,对比其他几种多视角谱聚类算法,MV-SNN算法在三个聚类衡量标准:准确度、纯度和归一化互信息上的性能提高了1%~20%,在聚类时间上减少了50%左右,可见MV-SNN算法的聚类性能更好,用时更短。  相似文献   

12.
宋艳  殷俊 《计算机应用》2020,40(11):3211-3216
为了解决谱聚类算法中相似矩阵的构造不能满足簇内数据点高度相似的问题,给出一种基于共享近邻的多视角谱聚类算法(MV-SNN)。首先,算法通过提高共享近邻个数多的两个数据点的相似度,使同簇的数据之间的相似度更高;然后,将改进后的多个视角的相似矩阵进行相加从而整合得到全局相似矩阵;最后,为了解决一般谱聚类算法在后期仍需要通过k均值聚类算法进行数据点划分的问题,给出拉普拉斯矩阵秩约束的方法,从而直接通过全局相似矩阵得到最终的类簇结构。实验结果表明,对比其他几种多视角谱聚类算法,MV-SNN算法在三个聚类衡量标准:准确度、纯度和归一化互信息上的性能提高了1%~20%,在聚类时间上减少了50%左右,可见MV-SNN算法的聚类性能更好,用时更短。  相似文献   

13.
谱聚类算法中如何定义一个合适的尺度参数仍待学习。针对谱聚类算法中由高斯核函数建立的相似度矩阵对尺度参数敏感的问题,提出了一个新的基于加权密度的自适应谱聚类算法——WDSC。该算法将数据点的加权K近邻距离作为尺度参数,尺度参数的倒数作为数据点所在邻域的密度,引入新的密度差调整相似度矩阵;考虑了每个数据点的邻域分布,故对噪声有一定的鲁棒性,且对参数也不再敏感。在不同数据集上的实验以及对比实验均验证了该算法的有效性与鲁棒性。  相似文献   

14.
随着数据来源方式的多样化发展,多视图聚类成为研究热点。大多数算法过于专注利用图结构寻求一致表示,却忽视了如何学习图结构本身;此外,一些方法通常基于固定视图进行算法优化。为了解决这些问题,提出了一种基于相似图投影学习的多视图聚类算法(multi-view clustering based on similarity graph projection learning, MCSGP),通过利用投影图有效地融合了全局结构信息和局部潜在信息到一个共识图中,而不仅是追求每个视图与共识图的一致性。通过在共识图矩阵的图拉普拉斯矩阵上施加秩约束,该算法能够自然地将数据点划分到所需数量的簇中。在两个人工数据集和七个真实数据集的实验中,MCSGP算法在人工数据集上的聚类效果表现出色,同时在涉及21个指标的真实数据集中,有17个指标达到了最优水平,从而充分证明了该算法的优越性能。  相似文献   

15.
时间序列相似度是时间序列数据挖掘的重要研究方向之一。如何利用时间序列相似度对提高时间序列数据聚类有着重要的意义。提出一种基于时间序列相似度的半监督谱聚类算法,通过选取适当的时间序列特征构造相似度与距离,在谱聚类算法的基础上利用标签数据选取初始类簇。实验表明,该算法使具有相似特征的时间序列可以很有效地被聚集到同一类中。  相似文献   

16.

针对谱聚类存在构造相似度矩阵时对尺度参数敏感以及处理多重尺度数据集效果不理想的缺陷, 提出一种基于密度调整的改进自适应谱聚类算法. 该算法将样本点所处领域的密度引入谱聚类, 利用密度差来调整样本点之间的相似度, 使其更符合实际簇类中样本点间的内在关系, 在一定程度上解决了多尺度聚类问题; 同时, 通过样本点的近邻距离自适应得到尺度参数, 使算法对尺度参数相对不敏感. 仿真实验验证了所提出算法的有效性和优越性.

  相似文献   

17.
传统根据[K]-近邻图计算测地距离的方法,虽然能够发现流形分布数据间的相似关系,但是当不同类的点存在粘连关系时,依此计算相似度时不能体现样本间的真实关系,从而无法有效聚类。针对传统测地距离计算相似度的方法不能有效处理粘连数据集的问题,提出了基于局部密度和测地距离的谱聚类方法。计算样本的局部密度,寻找每个样本点的最近高密度点,并选择边缘点和非边缘点;在边缘点和其最近高密度点之间构造边、非边缘点之间的[K]个近邻点构造边,依此计算测地距离和相似度并进行聚类。在人工数据集和UCI数据集上的实验表明,该算法在处理粘连数据集时有效提高了聚类准确率。  相似文献   

18.
周欢欢  郑伯川  张征  张琦 《计算机应用》2022,42(5):1464-1471
针对基于共享最近邻的密度峰聚类算法中的近邻参数需要人为设定的问题,提出了一种基于自适应近邻参数的密度峰聚类算法。首先,利用所提出的近邻参数搜索算法自动获得近邻参数;然后,通过决策图选取聚类中心;最后,根据所提出的代表点分配策略,先分配代表点,后分配非代表点,从而实现所有样本点的聚类。将所提出的算法与基于共享最近邻的快速密度峰搜索聚类(SNN?DPC)、基于密度峰值的聚类(DPC)、近邻传播聚类(AP)、对点排序来确定聚类结构(OPTICS)、基于密度的噪声应用空间聚类(DBSCAN)和K-means这6种算法在合成数据集以及UCI数据集上进行聚类结果对比。实验结果表明,所提出的算法在调整互信息(AMI)、调整兰德系数(ARI)和FM指数(FMI)等评价指标上整体优于其他6种算法。所提算法能自动获得有效的近邻参数,且能较好地分配簇边缘区域的样本点。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号