首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到14条相似文献,搜索用时 171 毫秒
1.
通过对几种典型聚类算法的分析和比较,提出了一种新的聚类算法,基于扩展约束的半监督谱聚类算法,简称CE-SSC。这种算法扩展了已知约束集,通过密度敏感距离改变样本点的相似关系,结合半监督谱聚类进行聚类。在UCI基准集上的仿真实验结果证明,基于扩展约束的半监督谱聚类算法具有良好的聚类效应。  相似文献   

2.
周海松  黄德才 《计算机科学》2016,43(12):209-212
谱聚类是一种新兴的聚类算法,数据点间的相似度定义对其聚类效果起着至关重要的作用。传统的谱聚类算法通常利用高斯核函数作为相似度函数,但是对于多密度的数据往往不能取得良好的效果。在定义新的相似度函数的基础上,提出了一种密度自适应的半监督聚类算法。该算法结合半监督聚类的成对约束理论,利用先验信息对样本点之间的相似度进行自适应调整,提高了聚类的精度。该算法在人工数据集和真实数据集上的仿真实验都取得了良好的效果。  相似文献   

3.
基于近邻传播算法的半监督聚类   总被引:31,自引:2,他引:29  
肖宇  于剑 《软件学报》2008,19(11):2803-2813
提出了一种基于近邻传播(affinity propagation,简称AP)算法的半监督聚类方法.AP是在数据点的相似度矩阵的基础上进行聚类.对于规模很大的数据集,AP算法是一种快速、有效的聚类方法,这是其他传统的聚类算法所不能及的,比如:K中心聚类算法.但是,对于一些聚类结构比较复杂的数据集,AP算法往往不能得到很好的聚类结果.使用已知的标签数据或者成对点约束对数据形成的相似度矩阵进行调整,进而达到提高AP算法的聚类性能.实验结果表明,该方法不仅提高了AP对复杂数据的聚类结果,而且在约束对数量较多时,该方法要优于相关比对算法.  相似文献   

4.
随着大数据时代的到来,复杂网络的社区发现已成为一个重要研究方向。层次聚类算法作为社区发现的经典算法受到了广泛应用,然而该算法具有较高的时间复杂度和较低的运行效率。为提高社区发现算法的运行效率,提出了一种基于节点相似度的半监督社区发现新算法--SSGN算法。充分利用先验知识must-link、cannot-link约束集合,将先验信息通过衍生规则进行扩展,并对扩展的信息通过基于距离度量的方式加以验证。采用人工网络和真实网络进行验证,UCI 数据集和大型真实数据集上的实验结果表明, 基于节点相似度的半监督社区发现算法较其他半监督聚类算法更准确,也更高效。  相似文献   

5.
通过学习数据集的低维流形结构,给出一种流形距离测度;结合成对约束信息,调整数据的相似度矩阵,将其作为近邻传播算法的输入,提出了基于流形距离的半监督近邻传播聚类算法(SAP-MD)。通过在UCI标准数据集上的仿真实验表明,SAP-MD算法相比于仅利用成对约束信息的聚类算法,在聚类性能上有很大提高。  相似文献   

6.
王纵虎  刘速 《计算机科学》2016,43(12):183-188
半监督聚类能利用少量标记数据来提高聚类算法性能,但大部分文本聚类算法无法直接应用成对约束等先验信息。针对文本数据高维稀疏的特点,提出了一种半监督文本聚类算法。将成对约束信息扩展后嵌入文档相似度矩阵,在此基础上根据已划分与未划分文档之间的统计信息逐步找出剩余未划分文本集合中密集的且与已划分聚类中心集合相似度较小的K个初始聚类中心集合,然后将剩余的相对较难区分的文档结合成对约束限制信息划分到K个初始聚类中心集合,最后通过融合成对约束违反惩罚的收敛准则函数对聚类结果进行进一步优化。算法在聚类过程中自动确定初始聚类中心集合,避免了K均值算法对初始聚类中心选择的敏感性。在几个中英文数据集上的实验结果表明,所提算法能有效地利用少量的成对约束先验信息提高聚类效果。  相似文献   

7.
基于成对约束的判别型半监督聚类分析   总被引:10,自引:1,他引:9  
尹学松  胡恩良  陈松灿 《软件学报》2008,19(11):2791-2802
现有一些典型的半监督聚类方法一方面难以有效地解决成对约束的违反问题,另一方面未能同时处理高维数据.通过提出一种基于成对约束的判别型半监督聚类分析方法来同时解决上述问题.该方法有效地利用了监督信息集成数据降维和聚类,即在投影空间中使用基于成对约束的K均值算法对数据聚类,再利用聚类结果选择投影空间.同时,该算法降低了基于约束的半监督聚类算法的计算复杂度,并解决了聚类过程中成对约束的违反问题.在一组真实数据集上的实验结果表明,与现有相关半监督聚类算法相比,新方法不仅能够处理高维数据,还有效地提高了聚类性能.  相似文献   

8.
传统的聚类算法是一种无监督的学习过程,聚类的精度受到相似性度量方式以及数据集中孤立点的影响,并且算法也没有很好的利用先验知识,无法体现用户的需求。因此提出了基于共享最近邻的孤立点检测及半监督聚类算法。该算法采用共享最近邻为相似度,根据数据点的最近邻居数目来判断是否为孤立点,并在删除孤立点的数据集上进行半监督聚类。在半监督聚类过程中加入了经过扩展的先验知识,同时根据图形分割原理对数据集进行聚类。文中使用真实的数据集进行仿真,其仿真结果表明,本文所提出的算法能有效的检测出孤立点,并具有很好的聚类效果。  相似文献   

9.
针对半监督聚类算法性能受到成对约束数量多寡的限制问题,现有的研究大都依赖于原始成对约束的数量。因此,首先提出了基于灰关联分析的成对约束初始化算法(initialization algorithm of pair constraints based on grey relational analysis,PCIG)。该算法通过均衡接近度计算数据对象间的相似度,并根据相似度的取值来确定可信区间,然后借鉴网络结构初始化方法来扩充数据对象间的成对关系。最后,将其应用于标签传播聚类算法。通过在五个基准数据集上进行实验,基于改进成对约束扩充的标签传播聚类算法与其他方法相比NMI值和ARI值有所提升。实验结果证明了改进成对约束扩充可以有效改善标签传播算法的聚类效果。  相似文献   

10.
李乐  王斐 《计算机应用研究》2021,38(5):1387-1392
针对现有基于K-means的半监督聚类算法存在的共同问题,即对离群点敏感、在非凸数据集与不平衡数据集上表现差,提出了一种基于层次策略的散布种子半监督中心聚类算法。首先通过基于影响空间的样本边缘因子将数据集分为核心层与边缘层,然后应用一种改进的K-medoids算法完成核心层聚类,最后采用一种递进半监督分配策略对边缘层进行分配得到最终聚类结果。算法通过层次策略解决了离群点干扰问题、半监督子簇聚类及合并策略实现了在不同分布数据集上有效聚类。通过与几种半监督聚类方法在人工数据集以及真实数据集上进行的对比实验证明,该算法能够解决现存问题,提升了聚类性能与鲁棒性。  相似文献   

11.
针对半监督谱聚类不能有效处理大规模数据,没有考虑约束传递不能充分利用有限约束信息的问题,提出一种结合稀疏表示和约束传递的半监督谱聚类算法。首先,根据约束信息生成约束矩阵,将其引入到谱聚类中;然后,将约束集合中的数据作为地标点构造稀疏表示矩阵,近似获得图相似度矩阵,从而改进约束谱聚类模型;同时,根据地标点的相似度矩阵生成连通区域,在每个连通区域内动态调整近邻点,利用约束传递进一步提高聚类准确率。实验表明,所提算法和约束谱聚类相比,在算法效率方面具有明显优势,且准确率没有明显下降;和快速谱聚类方法相比,在聚类准确率上有所提升。  相似文献   

12.
在聚类过程中利用一定量先验信息会显著提高聚类算法的性能。为了解决求解图谱划分方法NP难的问题并合理地利用一定量的先验信息,将成对限制信息引入到图谱划分方法中样本点的相似性测度,并在获得的相应的相似性矩阵的基础上,利用免疫克隆选择优化方法来优化图谱划分准则,提出了半监督免疫克隆选择图划分方法。USPS手写体数字集和UMIST人脸数据集识别的仿真实验证明了新方法的有效性。  相似文献   

13.
随着数据来源方式的多样化发展,多视图聚类成为研究热点。大多数算法过于专注利用图结构寻求一致表示,却忽视了如何学习图结构本身;此外,一些方法通常基于固定视图进行算法优化。为了解决这些问题,提出了一种基于相似图投影学习的多视图聚类算法(multi-view clustering based on similarity graph projection learning, MCSGP),通过利用投影图有效地融合了全局结构信息和局部潜在信息到一个共识图中,而不仅是追求每个视图与共识图的一致性。通过在共识图矩阵的图拉普拉斯矩阵上施加秩约束,该算法能够自然地将数据点划分到所需数量的簇中。在两个人工数据集和七个真实数据集的实验中,MCSGP算法在人工数据集上的聚类效果表现出色,同时在涉及21个指标的真实数据集中,有17个指标达到了最优水平,从而充分证明了该算法的优越性能。  相似文献   

14.
谱聚类将数据聚类问题转化成图划分问题,通过寻找最优的子图,对数据点进行聚类。谱聚类的关键是构造合适的相似矩阵,将数据集的内在结构真实地描述出来。针对传统的谱聚类算法采用高斯核函数来构造相似矩阵时对尺度参数的选择很敏感,而且在聚类阶段需要随机确定初始的聚类中心,聚类性能也不稳定等问题,本文提出了基于消息传递的谱聚类算法。该算法采用密度自适应的相似性度量方法,可以更好地描述数据点之间的关系,然后利用近邻传播(Affinity propagation,AP)聚类中“消息传递”机制获得高质量的聚类中心,提高了谱聚类算法的性能。实验表明,新算法可以有效地处理多尺度数据集的聚类问题,其聚类性能非常稳定,聚类质量也优于传统的谱聚类算法和k-means算法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号