共查询到20条相似文献,搜索用时 15 毫秒
1.
基于Tri-Training和数据剪辑的半监督聚类算法 总被引:2,自引:1,他引:2
提出一种半监督聚类算法,该算法在用seeds集初始化聚类中心前,利用半监督分类方法Tri-training的迭代训练过程对无标记数据进行标记,并加入seeds集以扩大规模;同时,在Tri-training训练过程中结合基于最近邻规则的Depuration数据剪辑技术对seeds集扩大过程中产生的误标记噪声数据进行修正、净化,以提高seeds集质量.实验结果表明,所提出的基于Tri-training和数据剪辑的DE-Tri-training半监督聚类新算法能够有效改善seeds集对聚类中心的初始化效果,提高聚类性能. 相似文献
2.
3.
4.
针对seeded-K-means和constrained-K-means算法要求标签数据类别完备的限制,本文提出了基于不完备标签数据的半监督K-means聚类算法,重点讨论了未标签类别初始聚类中心的选取问题.首先给出了未标签类别聚类中心最优候选集的定义,然后提出了一种新的朱标签类别初始聚类中心选取方法,即采用K-mea... 相似文献
5.
6.
数据挖掘过程中的模糊聚类方法 总被引:6,自引:0,他引:6
在研究数据挖掘过程中常见的数据聚类方法的基础上,在数据挖掘中引入了模糊聚类分析的方法,分析了该方法在数据挖掘过程中的特性,讨论了其在大型数据库中的应用方法。 相似文献
7.
8.
一种结合主动学习的半监督文档聚类算法 总被引:1,自引:0,他引:1
半监督文档聚类,即利用少量具有监督信息的数据来辅助无监督文档聚类,近几年来逐渐成为机器学习和数据挖掘领域研究的热点问题.由于获取大量监督信息费时费力,因此,国内外学者考虑如何获得少量但对聚类性能提高显著的监督信息.提出一种结合主动学习的半监督文档聚类算法,通过引入成对约束信息指导DBSCAN的聚类过程来提高聚类性能,得到一种半监督文档聚类算法Cons-DBSCAN.通过对约束集中所含信息量的衡量和对DBSCAN算法本身的分析,提出了一种启发式的主动学习算法,能够选取含信息量大的成对约束集,从而能够更高效地辅助半监督文档聚类.实验结果表明,所提出的算法能够高效地进行文档聚类.通过主动学习算法获得的成对约束集,能够显著地提高聚类性能.并且,算法的性能优于两个代表性的结合主动学习的半监督聚类算法. 相似文献
9.
一种改进的半监督K-Means聚类算法 总被引:1,自引:0,他引:1
半监督聚类利用部分标签的数据辅助未标签的数据进行学习,从而提高聚类的性能。针对基于K-means的聚类算法发现非球状簇能力差的问题,本文提出新的处理思想,即把已标签数据对未标签数据的引力影响加入到类别分配决策中,给出了类与点的引力影响度定义,设计了带引力参数的半监督K-means聚类算法。实验表明,该算法在处理非球状簇分布的聚类时比现有的半监督K-means方法效果更好。 相似文献
10.
11.
关于模糊C-均值(FCM)聚类算法的改进 总被引:3,自引:0,他引:3
针对模糊C-均值(FCM)聚类算法的容易收敛于局部极值的不足,提出了一种改进的模糊FCM聚类算法,此新算法在聚类中心选取和优化过程中进行了充分的考虑,是一种用于确定最佳聚类数的聚类算法,并且利用了分阶段思想,结合动态直接聚类算法和标准聚类算法,来尽量避免模糊C-均值(FCM)聚类算法的不足。新算法与传统(FCM)聚类算法方法相比,提高了算法的寻优能力,并且迭代次数更少,在准确度上也有较大的提高,具有很好的实际应用价值。 相似文献
12.
为解决高维和高不确定级别的数据流聚类问题,提出了一种针对不确定数据流的聚类算法HFMicro。引入粗糙模糊集理论,定义了一种新的不确定数据流模型,并利用隶属程度的上、下近似来描述微簇。根据粗糙模糊集间的相似程度来选择最合适的微簇。使用动态衰减窗口模型提高算法的效率和聚类效果。由于采用了离线聚类模式,使得算法具有较好的实时性。实验结果表明,该算法能够很好地处理高维和高不确定级别的数据流,同时兼容存在级不确定性和属性级不确定性,与现有算法相比效果更好。 相似文献
13.
在机器学习领域,基于图的半监督学习凭借其直观性和良好的学习性能而吸引了越来越多的关注。 针对现有的基于图的半监督学习方法对噪声和异常数据的鲁棒性不够好/较敏感的问题,提出一种基于可能性聚类假设的半监督分类方法(Semi-Supervised Classification Method of Possibilistic Clustering Assumption,SSPCA),其约束每个数据点与其局部加权均值具有相同的标签隶属度值,以此来提高分类方法的可靠性,此外,在目标函数中引入一个关于模糊熵的正则项,通过增大样本判别信息量来增强隶属度函数的泛化能力,提高了该方法对噪声和异常数据的鲁棒性。在实际数据集上的大量实验结果证实了所提方法具有很好的分类可靠性和鲁棒性。 相似文献
14.
模糊粗糙数据模型:一种数据分析的新方法 总被引:7,自引:0,他引:7
提出了一种数据分析的新方法——模糊粗糙数据模型(Fuzzy Rough Data Model,FRDM).该方法采用动态自适应模糊聚类技术,将Kowalczyk方法中的粗糙数据模型(Rough Data Model,RDM)对输入数据空间的网格状“硬划分”转化为模糊划分,辨识输入数据空间中的模糊模式类,并通过定义各模糊模式类与决策类别之间的类型映射关系ftype:Ci→y,以及输入数据对各模式类分类规则的匹配度(Degree of Fulfillment,DoF(x))概念,建立起相应的FRDM模型.不同数据集的实验测试结果表明,与Kowalczyk的RDM方法相比,文中方法具有更好的数据概括能力、更强的噪声数据处理能力和更高的搜索效率. 相似文献
15.
传统的模糊方法已无法解决数据本身不确定性的问题,犹豫模糊集方法却行之有效.原有的犹豫模糊层次聚类算法没有考虑犹豫模糊集对权值的影响,缺乏合理的权重计算方法,并且算法的时间复杂度和空间复杂度都为指数级.为了更有效地解决聚类分析问题,本文提出一种凝聚中心犹豫度恒定的模糊层次聚类算法(FHCA),首先设计了一种基于数据集本身... 相似文献
16.
17.
针对传统面向分类属性数据的聚类算法大多是对单一指标优化而存在的局限性,将类内和类间信息同时引入到优化过程中,结合多目标优化算法与模糊中心点聚类,提出一种新颖的多目标模糊聚类算法.与传统的基于遗传算法的混合聚类方法不同的是,采用模糊隶属度对染色体进行编码,同时优化2个相对的聚类目标函数获得一组最优解集,并且采用了一种提前终止准则判断算法是否达到稳定状态并停止操作,以减少不必要的计算开销.为了进一步提高算法的效率,通过采样子集计算出相应的模糊中心点作为类的表达,然后以这些模糊中心点计算出全体样本的隶属度矩阵即可获得最终的聚类结果.对10种数据集的实验结果表明:所提方法在聚类精度和稳定性方面优于当前最新的多目标聚类算法,且计算效率也获得较大的提升. 相似文献
18.
一种建立粗糙数据模型的监督模糊聚类方法 总被引:6,自引:0,他引:6
提出了在输入-输出积空间中利用监督模糊聚类技术快速建立粗糙数据模型(rough data model,简称RDM)的一种方法.该方法将RDM模型的分类质量性能指标与具有良好特性的Gustafson-Kessel(G-K)聚类算法结合在一起,并通过引入数据对模糊类的推定隶属度的概念,给出了将模糊聚类模型转化为粗糙数据模型的方法,从而设计出一种通过迭代计算使目标函数最小的两个必要条件方程来获取RDM模型的有效算法,将Kowalczyk方法的多维搜索过程变为以聚类数目为参数的一维搜索,极大地减少了寻优时间.与传统的粗糙集理论和Kowalczyk方法相比,提出的方法具有更好的数据概括能力和噪声数据处理能力.最后,通过不同的数据集实验测试,结果表明了该方法的有效性. 相似文献
19.
情感分类是观点挖掘的一个重要的方面.提出了一种基于情感特征聚类的半监督式情感分类方法,该方法只需要对少量训练数据实例进行情感类别标注.首先从消费者评论中提取普通分类特征和情感特征,普通分类特征可以用来训练一个情感分类器.然后使用spectral聚类算法把这些情感特征映射成扩展特征.普通分类特征和扩展特征一起通过训练得到另一个情感分类器.2个分类器再从未标签数据集中选择实例放入到训练集合中,并通过训练得到最终的情感分类器.实验结果表明,在同样的数据集上该方法的情感分类准确度比基于self-learning SVM的方法和基于co-training SVM的方法的情感分类准确度要高. 相似文献