共查询到20条相似文献,搜索用时 15 毫秒
1.
当前聚类集成的研究主要是围绕着集成策略的优化展开,而针对基聚类质量的度量及优化却较少研究。基于信息熵理论提出了一种基聚类的质量度量指标,并结合三支决策思想构造了面向基聚类的三支筛选方法。首先预设基聚类筛选三支决策的阈值α、β,然后计算各基聚类中类簇质量的平均值,并把其作为各基聚类的质量度量指标,最后实施三支决策。决策策略为:当某个基聚类的质量度量指标小于阈值β时,删除该基聚类;当某个基聚类的质量度量指标大于等于阈值α时,保留该基聚类;当某个基聚类的质量度量指标大于等于β小于α时,重新计算该基聚类质量,并且再次实施上述三支决策直至没有基聚类被删除或达到指定迭代次数。对比实验结果表明,基聚类三支筛选方法能够有效提升聚类集成效果。 相似文献
2.
Xibin DONG Zhiwen YU Wenming CAO Yifan SHI Qianli MA 《Frontiers of Computer Science》2020,14(2):241-258
Despite significant successes achieved in knowledge discovery,traditional machine learning methods may fail to obtain satisfactory performances when dealing with complex data,such as imbalanced,high-dimensional,noisy data,etc.The reason behind is that it is difficult for these methods to capture multiple characteristics and underlying structure of data.In this context,it becomes an important topic in the data mining field that how to effectively construct an efficient knowledge discovery and mining model.Ensemble learning,as one research hot spot,aims to integrate data fusion,data modeling,and data mining into a unified framework.Specifically,ensemble learning firstly extracts a set of features with a variety of transformations.Based on these learned features,multiple learning algorithms are utilized to produce weak predictive results.Finally,ensemble learning fuses the informative knowledge from the above results obtained to achieve knowledge discovery and better predictive performance via voting schemes in an adaptive way.In this paper,we review the research progress of the mainstream approaches of ensemble learning and classify them based on different characteristics.In addition,we present challenges and possible research directions for each mainstream approach of ensemble learning,and we also give an extra introduction for the combination of ensemble learning with other machine learning hot spots such as deep learning,reinforcement learning,etc. 相似文献
3.
近年来深度学习的迅速发展为聚类研究提供了一个有力的工具;并衍生出了许多基于深度神经网络的聚类方法。在这些方法中;深度嵌入聚类(DEC)因其可对深度表示学习和聚类分配同时进行优化的优势而日益受到关注。但是;深度嵌入聚类的一个局限性在于其超参数λ的敏感性;而往往需要诉诸人工调节来解决。对此;提出一种基于集成学习的改进深度嵌入聚类(IDECEL)方法。相较于寻求单个最优超参数的常规做法;提出以多样化超参数λ构建一组具有差异性的基聚类;并结合熵理论对基聚类集合的簇不确定性进行评估与加权;进而在簇与样本之间构建一个局部加权二部图模型;再将之高效划分以得到一个更优聚类结果。在多个数据集上的实验结果表明;提出的IDECEL方法不仅可缓解常规DEC算法超参数敏感性的问题;同时也表现出比其他多个深度聚类和集成聚类方法更为鲁棒的聚类性能。 相似文献
4.
选择性聚类融合研究进展 总被引:1,自引:0,他引:1
传统的聚类融合方法通常是将所有产生的聚类成员融合以获得最终的聚类结果。在监督学习中,选择分类融合方法会获得更好的结果,从选择分类融合中得到启示,在聚类融合中应用这种方法被定义为选择性聚类融合。对选择性聚类融合关键技术进行了综述,讨论了未来的研究方向。 相似文献
5.
由于缺少数据分布、参数和数据类别标记的先验信息,部分基聚类的正确性无法保证,进而影响聚类融合的性能;而且不同基聚类决策对于聚类融合的贡献程度不同,同等对待基聚类决策,将影响聚类融合结果的提升。为解决此问题,提出了基于随机取样的选择性K-means聚类融合算法(RS-KMCE)。该算法中的随机取样策略可以避免基聚类决策选取陷入局部极小,而且依据多样性和正确性定义的综合评价值,有利于算法快速收敛到较优的基聚类子集,提升融合性能。通过2个仿真数据库和4个UCI数据库的实验结果显示:RS-KMCE的聚类性能优于K-means算法、K-means融合算法(KMCE)以及基于Bagging的选择性K-means聚类融合(BA-KMCE)。 相似文献
6.
7.
8.
聚类集成中的差异性度量研究 总被引:14,自引:0,他引:14
集体的差异性被认为是影响集成学习的一个关键因素.在分类器集成中有许多的差异性度量被提出,但是在聚类集成中如何测量聚类集体的差异性,目前研究得很少.作者研究了7种聚类集体差异性度量方法,并通过实验研究了这7种度量在不同的平均成员聚类准确度、不同的集体大小和不同的数据分布情况下与各种聚类集成算法性能之间的关系.实验表明:这些差异性度量与聚类集成性能间并没有单调关系,但是在平均成员准确度较高、聚类集体大小适中和数据中有均匀簇分布的情况下,它们与集成性能间的相关度还是比较高的.最后给出了一些差异性度量用于指导聚类集体生成的可行性建议. 相似文献
9.
作为一种典型的大数据,数据流具有连续、无限、概念漂移和快速到达等特点,因此传统的分类技术无法直接有效地应用于数据流挖掘。本文在经典的精度加权集成(Accuracy weighted ensemble,AWE)算法的基础上提出概念自适应快速决策树更新集成(Concept very fast decision tree update ensemble,CUE)算法。该算法不仅在基分类器的权重分配方面进行了改进,而且在解决数据块大小的敏感性问题以及增加基分类器之间的相异性方面,有明显的改善。实验表明在分类准确率上,CUE算法高于AWE算法。最后,提出聚类动态分类器选择(Dynamic classifier selection with clustering,DCSC)算法。该算法基于分类器动态选择的思想,没有繁琐的赋权值机制,所以时间效率较高。实验结果验证了DCSC算法的有效和高效性,并能有效地处理概念漂移。 相似文献
10.
聚类分析作为数据研究领域的基本技术,旨在从无标签数据集中发现有意义的簇结构.由Kleinberg定理可知不存在能够学习任何数据集的基本聚类算法,即没有一种聚类方法能够正确地找到所有数据集的簇结构.聚类集成解决了这一固有挑战,通过组合多个聚类结果来探索高稳定性和鲁棒性的最终聚类.近些年来,提出了许多聚类集成技术,产生了解决实际问题的新方法以及新应用领域.从基聚类生成机制和共识函数设计两个维度对聚类集成技术进行了综述,分析了各种方法的优缺点并进行实验比较.最后针对当前的研究现状,讨论了未来的研究方向. 相似文献
11.
Dandan Wang;Qi Li; 《Concurrency and Computation》2024,36(16):e8097
A generic variation of hierarchical clustering (HC) that builds clusters from the bottom up is called agglomerative hierarchical clustering (AHC). The extension of AHC techniques using similarity criteria is the main topic of this research. Based on this, we create an AHC method that accomplishes clustering through ensemble approaches and combines the clustering of clusters with an original similarity measure. Three steps make up the proposed method's primary section. The first phase combines several individual AHC techniques to identify links between samples and create preliminary clusters. A heuristic similarity measure based on the developed clusters is used to determine how similar the samples are. The initial clusters produced using various techniques are all re-clustered to create superclusters in the second step. The third phase involves creating the final clusters by assigning each sample to a supercluster with the greatest similarity after the clusters have been formed. Based on several benchmark datasets from the UCI machine learning repository, extensive experimental research has been done to assess the performance of the suggested approach. The outcomes unequivocally demonstrate that the suggested AHC-based paradigm outperforms cutting-edge techniques. 相似文献
12.
神经网络集成是一种很流行的学习方法,通过组合每个神经网络的输出生成最后的预测.为 了提高集成方法的有效性,不仅要求集成中的个体神经网络具有很高的正确率,而且要求这 些网络在输入空间产生不相关的错误.然而,在现有的众多集成方法中,大都采用将训练的 所有神经网络直接进行组合以形成集成,实际上生成的这些神经网络可能具有一定的相关性 .为了进一步提高神经网络间的差异性,一种基于聚类技术的选择性神经网络集成方法CLU_E NN被提出.在获得个体神经网络后,并不直接对这些神经网络集成,而是先应用聚类算法对 这些神经网络模型聚类以获得差异较大的部分神经网络;然后由部分神经网络构成集成;最 后,通过实验研究了CLU_ENN集成方法,与传统的集成方法Bagging相比,该方法取得了更好 的效果. 相似文献
13.
Süreyya Özöğür-Akyüz Buse Çisil Otar Pınar Karadayı Atas 《Computational Intelligence》2020,36(1):297-319
Ensemble learning is the process of aggregating the decisions of different learners/models. Fundamentally, the performance of the ensemble relies on the degree of accuracy in individual learner predictions and the degree of diversity among the learners. The trade-off between accuracy and diversity within the ensemble needs to be optimized to provide the best grouping of learners as it relates to their performance. In this optimization theory article, we propose a novel ensemble selection algorithm which, focusing specifically on clustering problems, selects the optimal subset of the ensemble that has both accurate and diverse models. Those ensemble selection algorithms work for a given number of the best learners within the subset prior to their selection. The cardinality of a subset of the ensemble changes the prediction accuracy. The proposed algorithm in this study determines both the number of best learners and also the best ones. We compared our prediction results to recent ensemble clustering selection algorithms by the number of cardinalities and best predictions, finding better and approximated results to the optimum solutions. 相似文献
14.
针对传统的聚类集成算法难以高效地处理海量数据的聚类分析问题,提出一种基于MapReduce的并行FCM聚类集成算法。算法利用随机初始聚心来获取具有差异化的聚类成员,通过建立聚类成员簇间OVERLAP矩阵来寻找逻辑等价簇,最后利用投票法共享聚类成员中数据对象的分类情况得出最终的聚类结果。实验证明,该算法具有良好的精确度,加速比和扩展性,具有处理较大规模数据集的能力。 相似文献
15.
聚类组合研究的新进展 总被引:1,自引:0,他引:1
作为目前聚类分析的新兴研究热点,聚类组合方法能将两种或多种聚类方法集成起来以改善其性能。从聚类多样性和共识函数两方面综述了最新研究进展,探讨将神经网络组合的思想用于聚类组合。最后指出了将来可能的研究方向。 相似文献
16.
通过把聚类集体当成一个概念型数据集,把聚类集体一致性函数问题转换成了一个普通的聚类问题,应用概念型数据聚类算法k-modes和LIMBO来进行聚类集成。实验结果证明用概念型数据聚类算法进行集成效果理想。 相似文献
17.
提出一种基于投票的聚类集成方法. 通过分析聚类结构与聚类准确率的关系, 将内聚度最高的聚类成员作为重新标记的基准以实现簇标记的统一; 同时, 根据数据点在不同聚类成员中与所划分簇中心的距离确定权值, 最终实现加权投票. 实验结果表明, 该算法在准确率和稳定性上均有较大提高. 相似文献
18.
聚类集成中的关键问题是如何根据不同的聚类器组合为最终的更好的聚类结果. 本文引入谱聚类思想解决文本聚类集成问题, 然而谱聚类算法需要计算大规模矩阵的特征值分解问题来获得文本的低维嵌入, 并用于后续聚类. 本文首先提出了一个集成算法, 该算法使用代数变换将大规模矩阵的特征值分解问题转化为等价的奇异值分解问题, 并继续转化为规模更小的特征值分解问题; 然后进一步研究了谱聚类算法的特性, 提出了另一个集成算法, 该算法通过求解超边的低维嵌入, 间接得到文本的低维嵌入. 在TREC和Reuters文本数据集上的实验结果表明, 本文提出的两个谱聚类算法比其他基于图划分的集成算法鲁棒, 是解决文本聚类集成问题行之有效的方法. 相似文献
19.
20.
针对传统增量聚类方法对混合属性数据聚类时存在不稳定、随机性大和准确性不够高的缺点,提出一种基于聚类融合的混合属性数据增量聚类算法.该算法以传统增量聚类为基础,采用多种聚类算法的结果进行融合来代替原有单一划分,并重新修正了阈值的取值范围.实验表明,所提出的算法利用原有数据的特征,提高了聚类的稳定性和精确性,具有很好的聚类效果. 相似文献