首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 109 毫秒
1.
一种基于谱聚类的半监督聚类方法   总被引:6,自引:1,他引:6  
司文武  钱沄涛 《计算机应用》2005,25(6):1347-1349
半监督聚类利用少部分标签的数据辅助大量未标签的数据进行非监督的学习,从而提高聚类的性能。提出一种基于谱聚类的半监督聚类算法,其利用标签数据的信息,调整点与点之间的距离所形成的距离矩阵,而后基于被调整的距离矩阵进行谱聚类。实验表明,该算法较之于已提出的半监督聚类算法,获得了更好的聚类性能。  相似文献   

2.
采用凝聚聚类思想进行聚类分析,通过对距离最小的两个类进行循环合并,从而改进了最大最小关联度图聚类方法在针对图中两个邻接结点的度都非常大,而它们连接相同结点的数目极少的问题时,普通聚类方法难以解决两个结点的关联度很大,而实际上相似性并不高的情况,最后通过实例检验了凝聚聚类算法的正确性和有效性.  相似文献   

3.
提出了一种基于新相异度量的模糊K-Modes算法。该算法假定不同属性对聚类结果有不同程度的影响,定义了新的属性值函数,以基于划分相似度的聚类精确度作为聚类结果的评价准则。通过真实数据的实验结果表明,新的基于相异度量的模糊K-Modes算法比传统的模糊K-Modes算法有更好的聚类效果。  相似文献   

4.
为获得更贴近于混合属性数据点集空间的相异性度量,从而探测出数据点集的更有意义的聚类分布,提出了一种推进式优化特征权重的K-中心点聚类算法。对该聚类算法进行了必要的讨论,给出其时间复杂度分析及算法收敛性分析。为实现该聚类算法的特征权重优化步骤,给出了二种不同的特征权重优化方法和几个自适应优化距离权重系数、目标函数系数的方法。这些优化方法在一定的理论层次上解决了相异性度量的自适应优化问题。通过几个UCI标准数据集验证了该聚类算法有时能取得更好的聚类质量,从而说明该加权聚类算法具有一定的有效性。给出了几点研究展望,为下一步的研究指明了方向。  相似文献   

5.
在实际应用领域,常常存在同时包含数值型和分类型特征的混合数据。然而,已有的大多数聚类算法只能处理数值型或分类型单一类型数据,因此,提出一个基于划分的混合数据聚类算法。首先给出K-Prototypes算法中分类型数据类中心的多Modes表示方式,进而将传统的欧式距离扩展到混合数据,使之能够在相同框架下更加精确地反映对象与类之间的相异性,在此基础上提出一个用于处理混合数据的划分式聚类算法。最后,在UCI数据集上的实验结果表明,与K-Prototypes算法相比,所提出的算法能够有效提高聚类质量。  相似文献   

6.
提出一种混合约束的半监督聚类算法(HCC),综合考虑标号点和成对点约束信息的作用,使两种先验信息在聚类的过程中能以不同的方式发挥作用.给出理论推导、具体算法步骤、实验及分析.实验表明在HCC算法中,标号点对提高聚类结果的作用要比成对点约束信息的作用更明显,算法得到的CRI、聚类数、运行时间等多项指标都比对比算法好.  相似文献   

7.
基于分类的半监督聚类方法   总被引:1,自引:0,他引:1       下载免费PDF全文
提出一种基于分类的半监督聚类算法。充分利用了数据集中的少量标记对象对原始数据集进行粗分类,在传统k均值算法的基础上扩展了聚类中心点的选择方法;用k-meansGuider方法对数据集进行粗聚类,在此基础上对粗聚类结果进行集成。在多个UCI标准数据集上进行实验,结果表明提出的算法能有效改善聚类质量。  相似文献   

8.
现有的自适应亲和传播聚类存在聚类时间长、精度低的缺点,提出了一种结合半监督的改进自适应亲和传播聚类(SAAP)。它首先利用半监督学习更新相似度矩阵,而后在亲和传播聚类的基础上,通过基于二分法判断实现自适应搜索有效聚类数空间,最后由加权评价函数确定最佳聚类。经实验证明,SAAP算法可以更快速地扫描有效聚类空间,并能够得到较小的错分率和较高的有效性评价。  相似文献   

9.
针对微视频语义标注问题,本文提出一种基于半监督聚类的微视频标注方法。文中从事件驱动的角度,以镜头事件为单位,用事件组来标注微视频。进一步构造半监督K-means聚类算法,优化目标函数,使得最终的聚类结果既体现类间的低耦合及类内的高聚合,又体现类内局部的数据分布密度。该聚类算法实现了诸如微视频等多属性异构数据的聚类,提高了微视频标注效果。实验结果表明本文所提微视频标注方法具有很强的语义表达能力,本文的聚类方法也具有很强的聚类准确度。  相似文献   

10.
现有的半监督聚类集成方法能利用先验信息,使集成的准确性、鲁棒性和稳定性得到提高,但在集成阶段加入成对约束信息时,只考虑了给定的约束信息而忽视了约束点与被约束点的邻域点之间的关系.针对此问题,提出了一种基于数据相关性的半监督模糊聚类集成方法.该方法首先利用半监督模糊聚类算法建立集成信息矩阵,并将其转换为相似性矩阵;然后,利用已知的约束信息及约束点与被约束点的邻域点之间的关系来修改相似性矩阵;最后,利用图划分算法得到最终的聚类结果.真实数据上的实验结果表明,提出的方法可以有效提高聚类质量.  相似文献   

11.
客户分类作为客户关系管理(CRM)的重要管理方法,是企业进行市场营销的重要依据.通过对客户进行分类,有利于对客户价值进行准确评估,方便进行精准营销.本文通过对RFM模型数据集本身潜藏的先验结构化信息进行研究,标记出两组客户数据作为先验类别标记,进而得到两个初始聚类中心.基于传统K-means算法使用自适应方法确定K值和初始聚类中心.引入Must-link和Cannot-link两种约束将类别标记转换为成对约束信息,基于HMRF-KMeans成对约束,引入约束惩罚项和约束奖励项,实现对聚类引导和聚类结果的调整.使用改进的半监督聚类算法(RFM-SS-means)对标准数据集进行了测试,同时使用Food mart数据集对比了RFM-SS-means算法与传统K-means算法、two-steps算法的聚类效果.由实验结果可知,RFM-SS-means的CH系数最大,无需事先确定K值和初始聚类中心,聚类效果良好.  相似文献   

12.
距离与差异性度量是聚类分析中的基本概念,是许多聚类算法的核心内容。在经典的聚类分析中,度量差异性的指标是距离的简单函数。该文针对混合属性数据集,提出两种距离定义,将差异性度量推广成为距离、类大小等因素的多元函数,使得原来只适用于数值属性或分类属性数据的聚类算法可用于混合属性数据。实验结果表明新的距离定义和差异性度量方法可提高聚类的质量。  相似文献   

13.
基于相异性选择的密度聚类算法研究   总被引:4,自引:0,他引:4  
在最优K相异性算法(OptiSim)的基础上,提出一种扩展的最优K相异性算(EOptiSim)。由于EOptiSim在处理组合数据库和分布式数据库方面能弥补基本的OptiSim方法的不足,所以通过在DBSCAN算法之前应用0ptiSim或EOptiSim多样化代表性子集选择技术。在显著降低I/O耗费和内存需求的同时,不仅能够有效地聚类单一的大规模空间数据库,而且还能聚类大规模组合数据库或分布式数据库.实验结果表明本文的算法是可行、有效的.  相似文献   

14.
密度敏感的半监督谱聚类   总被引:27,自引:0,他引:27  
王玲  薄列峰  焦李成 《软件学报》2007,18(10):2412-2422
聚类通常被认为是一种无监督的数据分析方法,然而在实际问题中可以很容易地获得有限的样本先验信息,如样本的成对限制信息.大量研究表明,在聚类搜索过程中充分利用先验信息会显著提高聚类算法的性能.首先分析了在聚类过程中仅利用成对限制信息存在的不足,尝试探索数据集本身固有的先验信息--空间一致性先验信息,并提出利用这类先验信息的具体方法.接着,将两类先验信息同时引入经典的谱聚类算法中,提出一种密度敏感的半监督谱聚类算法(density-sensitive semi-supervised spectral clustering algorithm,简称DS-SSC).两类先验信息在指导聚类搜索的过程中能够起到相辅相成的作用,这使得DS-SSC算法相对于仅利用成对限制信息的聚类算法在聚类性能上有了显著的提高.在UCI基准数据集、USPS手写体数字集以及TREC的文本数据集上的实验结果验证了这一点.  相似文献   

15.
基于近邻传播算法的半监督聚类   总被引:29,自引:2,他引:29  
肖宇  于剑 《软件学报》2008,19(11):2803-2813
提出了一种基于近邻传播(affinity propagation,简称AP)算法的半监督聚类方法.AP是在数据点的相似度矩阵的基础上进行聚类.对于规模很大的数据集,AP算法是一种快速、有效的聚类方法,这是其他传统的聚类算法所不能及的,比如:K中心聚类算法.但是,对于一些聚类结构比较复杂的数据集,AP算法往往不能得到很好的聚类结果.使用已知的标签数据或者成对点约束对数据形成的相似度矩阵进行调整,进而达到提高AP算法的聚类性能.实验结果表明,该方法不仅提高了AP对复杂数据的聚类结果,而且在约束对数量较多时,该方法要优于相关比对算法.  相似文献   

16.
基于新的相异度量的模糊K-Modes聚类算法   总被引:3,自引:2,他引:1  
白亮  曹付元  梁吉业 《计算机工程》2009,35(16):192-194
传统的模糊K-Modes聚类算法采用简单匹配方法度量对象与Mode之间的相异程度,没有充分考虑Mode对类的代表程度,容易造成信息的丢失,弱化了类内的相似性。针对上述问题,通过对象对类的隶属度反映Mode对类的代表程度,提出一种新的相异度量,并将它应用于传统的模糊K—Modes聚类算法。与传统的K—Modes和模糊K-Modes聚类算法相比,该相异度量是有效的。  相似文献   

17.
半监督聚类是机器学习的重要研究内容之一,它通过利用样本层面的少量标记数据信息或者利用特征层面的特征偏好信息来指导半监督聚类。但现有的半监督聚类算法仅考虑了单一层面的半监督先验信息,罕有同时考虑两个不同层面的此类信息进行半监督聚类。为了弥补这一遗漏,联合利用特征层面给定的特征偏好,即特征之间的相对重要性关系,并结合样本层面的少量标记数据等半监督信息,在传统的半监督聚类算法基础上发展出一个扩展型半监督聚类算法。初步实验验证了该算法的有效性。  相似文献   

18.
基于Tri-Training和数据剪辑的半监督聚类算法   总被引:2,自引:1,他引:2  
邓超  郭茂祖 《软件学报》2008,19(3):663-673
提出一种半监督聚类算法,该算法在用seeds集初始化聚类中心前,利用半监督分类方法Tri-training的迭代训练过程对无标记数据进行标记,并加入seeds集以扩大规模;同时,在Tri-training训练过程中结合基于最近邻规则的Depuration数据剪辑技术对seeds集扩大过程中产生的误标记噪声数据进行修正、净化,以提高seeds集质量.实验结果表明,所提出的基于Tri-training和数据剪辑的DE-Tri-training半监督聚类新算法能够有效改善seeds集对聚类中心的初始化效果,提高聚类性能.  相似文献   

19.
CABOSFV是一种有效的高维数据聚类算法。针对CABOSFV算法倾向于将数据对象分配到更大的类中这一问题,提出一种拓展差异度的高维数据聚类算法(CABOSFV_D)。该算法引入了调整指数[p],对原始稀疏差异度进行拓展,降低类大小对对象分配的影响;同时用位集的方式实现CABOSFV_D算法,使算法的运算效率明显提升。基于多个UCI标准数据集进行聚类实验,结果表明CABOSFV_D在聚类效果和时间效率上均优于原始CABOSFV算法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号