共查询到18条相似文献,搜索用时 78 毫秒
1.
2.
由于缺少数据分布、参数和数据类别标记的先验信息,部分基聚类的正确性无法保证,进而影响聚类融合的性能;而且不同基聚类决策对于聚类融合的贡献程度不同,同等对待基聚类决策,将影响聚类融合结果的提升。为解决此问题,提出了基于随机取样的选择性K-means聚类融合算法(RS-KMCE)。该算法中的随机取样策略可以避免基聚类决策选取陷入局部极小,而且依据多样性和正确性定义的综合评价值,有利于算法快速收敛到较优的基聚类子集,提升融合性能。通过2个仿真数据库和4个UCI数据库的实验结果显示:RS-KMCE的聚类性能优于K-means算法、K-means融合算法(KMCE)以及基于Bagging的选择性K-means聚类融合(BA-KMCE)。 相似文献
3.
传统的聚类融合方法通过融合所有成员实现融合,无法彻底消除劣质聚类成员对融合质量的影响,而从聚类成员的选择和加权两方面进行聚类融合,即先采用两两融合技术代替融合所有聚类结果进行聚类成员选择,然后进行基于属性的聚类成员加权,在理论上具有更好优越性。通过对真实数据和模拟数据的实验发现,该算法能有效处理聚类成员的质量差异,比传统聚类融合能得到更好的聚类结果,具有较好可扩展性。 相似文献
4.
针对传统聚类融合算法不能消除劣质聚类成员的干扰,以及聚类准确性不高等问题,提出一种基于分形维数的选择性聚类融合算法.该算法实现增量式聚类,能够发现任意形状的聚类.通过基于互信息计算权值的选择策略,选取部分优质聚类成员,再利用加权共协矩阵实现融合,获得最终的聚类结果.实验证明,与传统聚类融合算法相比,该算法提高了聚类质量,具有较好的扩展性. 相似文献
5.
针对聚类融合算法可能出现信息失真等问题,提出一种新的聚类融合算法.该算法兼顾聚类质量与成员多样性,采用一种新的相似性度量,并依据度量结果先对聚类成员进行剪辑操作,再分组、选择,最后根据每个聚类成员对于各类别的贡献设计了一种新的加权函数.与其他方法相比,该方法具有较好的稳定性和精确性. 相似文献
6.
针对当前研究动态复杂网络的热点问题,提出了一种基于选择性聚类融合的社区挖掘算法.该算法首先将动态过程划分为相同时间间隔的快照,利用欧几里德距离、顶点权重等技术,使用一种改进的层次聚类算法加快聚类速度,得到每个快照相应的聚类结果;然后根据这些聚类结果之间的差异性,筛选聚类结果集合,为融合过程提供多样性的聚类成员;考虑到时间衰减性,设计了加权共联矩阵,使用单链接算法来得到最终的聚类结果.在随机网络和真实世界网络上对算法的计算速度和动态特征挖掘情况两方面进行实验,结果表明了该算法的可行性和有效性. 相似文献
7.
8.
针对标题文本聚类中的聚类结果不稳定问题,提出一种基于聚类融合的标题文本聚类方法。该方法对标题文本的特征词进行筛选,将标题文本转化为特征词集合;提出基于统计和语义的相似度计算方法,计算特征词集合间的相似度;引入基于共协矩阵的聚类融合算法,得出聚类结果。实验结果表明,和传统聚类算法相比,该方法提升了标题文本聚类的稳定性。 相似文献
9.
网格聚类以网格为单位学习聚簇,速度快、效率高。但它过于依赖密度阂值的选择,并且构造的每个聚簇边界呈锯齿状,不能很好地识别平滑边界曲面。针对该问题,提出一种新的面向网格问题的聚类融合算法(RG) . RG不是通过随机抽样数据集或随机初始化相关参数来创建有差异的划分,而是随机地将特征划分为K个子集,使用特征变换得到K个不同的旋转变换基,形成新的特征空间,并将网格聚类算法应用于该特征空间,从而构建有差异的划分。实验表明,RU能够有效地划分任意形状、大小的数据集,并能有效地解决网格聚类过分依赖于密度阂值选择以及边界处理过于粗糙的问题,其精度明显高于单个网格聚类。 相似文献
10.
11.
作为目前聚类分析的新兴研究热点,聚类组合方法能将两种或多种聚类方法集成起来以改善其性能。从聚类多样性和共识函数两方面综述了最新研究进展,探讨将神经网络组合的思想用于聚类组合。最后指出了将来可能的研究方向。 相似文献
12.
13.
针对既有历史数据又有流特征的全新应用场景,提出了一种基于组特征选择和流特征的在线特征选择算法。在对历史数据的组特征选择阶段,为了弥补单一聚类算法的不足,引入聚类集成的思想。先利用k-means方法通过多次聚类得到一个聚类集体,在集成阶段再利用层次聚类算法对聚类集体进行集成得到最终的结果。在对流特征数据的在线特征选择阶段,对组构造产生的特征组通过探讨特征间的相关性来更新特征组,最终通过组变换获得特征子集。实验结果表明,所提算法能有效应对全新场景下的在线特征选择问题,并且有很好的分类性能。 相似文献
14.
15.
当前流行的聚类集成算法无法依据不同数据集的不同特点给出恰当的处理方案,为此提出一种新的基于数据集特点的增强聚类集成算法,该算法由基聚类器的生成、基聚类器的选择与共识函数构成。该算法依据数据集的特点,通过启发式方法,选出合适的基聚类器,构建最终的基聚类器集合,并产生最终聚类结果。实验中,对ecoli,leukaemia与Vehicle三个基准数据集进行了聚类,所提出算法的聚类误差分别是0.014,0.489,0.479,同基于Bagging的结构化集成(BSEA)、异构聚类集成(HCE)和基于聚类的集成分类(COEC)算法相比,所提出算法的聚类误差始终最低;而在增加候基聚类器的情况下,所提出算法的标准化互信息(NMI)值始终高于对比算法。实验结果表明,同对比的聚类集成算法相比,所提出算法的聚类精度最高,可伸缩性最强。 相似文献
16.
Cluster ensemble approaches make use of a set of clustering solutions which are derived from different data sources to gain a more comprehensive and significant clustering result over conventional single clustering approaches. Unfortunately, not all the clustering solutions in the ensemble contribute to the final result. In this paper, we focus on the clustering solution selection strategy in the cluster ensemble, and propose to view clustering solutions as features such that suitable feature selection techniques can be used to perform clustering solution selection. Furthermore, a hybrid clustering solution selection strategy (HCSS) is designed based on a proposed weighting function, which combines several feature selection techniques for the refinement of clustering solutions in the ensemble. Finally, a new measure is designed to evaluate the effectiveness of clustering solution selection strategies. The experimental results on both UCI machine learning datasets and cancer gene expression profiles demonstrate that HCSS works well on most of the datasets, obtains more desirable final results, and outperforms most of the state-of-the-art clustering solution selection strategies. 相似文献
17.
当前聚类集成的研究主要是围绕着集成策略的优化展开,而针对基聚类质量的度量及优化却较少研究。基于信息熵理论提出了一种基聚类的质量度量指标,并结合三支决策思想构造了面向基聚类的三支筛选方法。首先预设基聚类筛选三支决策的阈值α、β,然后计算各基聚类中类簇质量的平均值,并把其作为各基聚类的质量度量指标,最后实施三支决策。决策策略为:当某个基聚类的质量度量指标小于阈值β时,删除该基聚类;当某个基聚类的质量度量指标大于等于阈值α时,保留该基聚类;当某个基聚类的质量度量指标大于等于β小于α时,重新计算该基聚类质量,并且再次实施上述三支决策直至没有基聚类被删除或达到指定迭代次数。对比实验结果表明,基聚类三支筛选方法能够有效提升聚类集成效果。 相似文献