期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

徐健锋邹伟康梁伟程高洁张远健《计算机应用》2019,39(11):3120-3126

当前聚类集成的研究主要是围绕着集成策略的优化展开,而针对基聚类质量的度量及优化却较少研究。基于信息熵理论提出了一种基聚类的质量度量指标,并结合三支决策思想构造了面向基聚类的三支筛选方法。首先预设基聚类筛选三支决策的阈值α、β,然后计算各基聚类中类簇质量的平均值,并把其作为各基聚类的质量度量指标,最后实施三支决策。决策策略为：当某个基聚类的质量度量指标小于阈值β时,删除该基聚类;当某个基聚类的质量度量指标大于等于阈值α时,保留该基聚类;当某个基聚类的质量度量指标大于等于β小于α时,重新计算该基聚类质量,并且再次实施上述三支决策直至没有基聚类被删除或达到指定迭代次数。对比实验结果表明,基聚类三支筛选方法能够有效提升聚类集成效果。相似文献

2.

Xibin DONG Zhiwen YU Wenming CAO Yifan SHI Qianli MA 《Frontiers of Computer Science》2020,14(2):241-258

Despite significant successes achieved in knowledge discovery,traditional machine learning methods may fail to obtain satisfactory performances when dealing with complex data,such as imbalanced,high-dimensional,noisy data,etc.The reason behind is that it is difficult for these methods to capture multiple characteristics and underlying structure of data.In this context,it becomes an important topic in the data mining field that how to effectively construct an efficient knowledge discovery and mining model.Ensemble learning,as one research hot spot,aims to integrate data fusion,data modeling,and data mining into a unified framework.Specifically,ensemble learning firstly extracts a set of features with a variety of transformations.Based on these learned features,multiple learning algorithms are utilized to produce weak predictive results.Finally,ensemble learning fuses the informative knowledge from the above results obtained to achieve knowledge discovery and better predictive performance via voting schemes in an adaptive way.In this paper,we review the research progress of the mainstream approaches of ensemble learning and classify them based on different characteristics.In addition,we present challenges and possible research directions for each mainstream approach of ensemble learning,and we also give an extra introduction for the combination of ensemble learning with other machine learning hot spots such as deep learning,reinforcement learning,etc. 相似文献

3.

基于集成学习的改进深度嵌入聚类算法

黄宇翔黄栋王昌栋赖剑煌《计算机科学与探索》2021,15(10):1949-1957

近年来深度学习的迅速发展为聚类研究提供了一个有力的工具;并衍生出了许多基于深度神经网络的聚类方法。在这些方法中;深度嵌入聚类（DEC）因其可对深度表示学习和聚类分配同时进行优化的优势而日益受到关注。但是;深度嵌入聚类的一个局限性在于其超参数λ的敏感性;而往往需要诉诸人工调节来解决。对此;提出一种基于集成学习的改进深度嵌入聚类（IDECEL）方法。相较于寻求单个最优超参数的常规做法;提出以多样化超参数λ构建一组具有差异性的基聚类;并结合熵理论对基聚类集合的簇不确定性进行评估与加权;进而在簇与样本之间构建一个局部加权二部图模型;再将之高效划分以得到一个更优聚类结果。在多个数据集上的实验结果表明;提出的IDECEL方法不仅可缓解常规DEC算法超参数敏感性的问题;同时也表现出比其他多个深度聚类和集成聚类方法更为鲁棒的聚类性能。相似文献

4.

选择性聚类融合研究进展 总被引：1，自引：0，他引：1

刘丽敏樊晓平廖志芳《计算机工程与应用》2012,48(10):1-5,15

传统的聚类融合方法通常是将所有产生的聚类成员融合以获得最终的聚类结果。在监督学习中,选择分类融合方法会获得更好的结果,从选择分类融合中得到启示,在聚类融合中应用这种方法被定义为选择性聚类融合。对选择性聚类融合关键技术进行了综述,讨论了未来的研究方向。相似文献

5.

基于随机取样的选择性K-means聚类融合算法

王丽娟郝志峰蔡瑞初温雯《计算机应用》2013,33(7):1969-1972

由于缺少数据分布、参数和数据类别标记的先验信息,部分基聚类的正确性无法保证,进而影响聚类融合的性能;而且不同基聚类决策对于聚类融合的贡献程度不同,同等对待基聚类决策,将影响聚类融合结果的提升。为解决此问题,提出了基于随机取样的选择性K-means聚类融合算法（RS-KMCE）。该算法中的随机取样策略可以避免基聚类决策选取陷入局部极小,而且依据多样性和正确性定义的综合评价值,有利于算法快速收敛到较优的基聚类子集,提升融合性能。通过2个仿真数据库和4个UCI数据库的实验结果显示：RS-KMCE的聚类性能优于K-means算法、K-means融合算法（KMCE）以及基于Bagging的选择性K-means聚类融合（BA-KMCE）。相似文献

6.

基于实数值链接分析的ESSC融合算法

王丽娟郝志峰蔡瑞初温雯《计算机应用研究》2014,31(5):1366-1369

为了进一步提升ESSC聚类融合性能,采用实数值链接分析（real valued link analysis）计算聚类融合中模糊数据类的相似性。根据模糊决策及其相似性定义优化的融合信息,从而达到改进聚类性能的目的。实验选用了两个仿真数据库和五个UCI数据库。实验结果表明,基于实数值链接分析的ESSC聚类融合算法（RLA-ESSCE）的性能优于K-means聚类算法（KMC）、ESSC、ESSCE。相似文献

7.

基于差异性度量的基础聚类三支过滤算法

梁伟段晓东徐健锋《计算机科学》2021,48(1):136-144

基础聚类成员预处理是聚类集成算法中的一个重要研究步骤.众多研究表明,基础聚类成员集合的差异性会影响聚类集成算法性能.当前聚类集成研究围绕着生成基础聚类和优化集成策略展开,而针对基础聚类成员的差异性度量及其优化的研究尚不完善.文中基于Jaccard相似性提出一种基础聚类成员差异性度量指标,并结合三支决策思想提出了基础聚类... 相似文献

8.

聚类集成中的差异性度量研究 总被引：14，自引：0，他引：14

罗会兰孔繁胜李一啸《计算机学报》2007,30(8):1315-1324

集体的差异性被认为是影响集成学习的一个关键因素.在分类器集成中有许多的差异性度量被提出,但是在聚类集成中如何测量聚类集体的差异性,目前研究得很少.作者研究了7种聚类集体差异性度量方法,并通过实验研究了这7种度量在不同的平均成员聚类准确度、不同的集体大小和不同的数据分布情况下与各种聚类集成算法性能之间的关系.实验表明:这些差异性度量与聚类集成性能间并没有单调关系,但是在平均成员准确度较高、聚类集体大小适中和数据中有均匀簇分布的情况下,它们与集成性能间的相关度还是比较高的.最后给出了一些差异性度量用于指导聚类集体生成的可行性建议. 相似文献

9.

基于集成分类器的数据流分类算法

韩东红马宪哲李莉莉王国仁《数据采集与处理》2018,33(6):1021-1033

作为一种典型的大数据,数据流具有连续、无限、概念漂移和快速到达等特点,因此传统的分类技术无法直接有效地应用于数据流挖掘。本文在经典的精度加权集成（Accuracy weighted ensemble,AWE）算法的基础上提出概念自适应快速决策树更新集成（Concept very fast decision tree update ensemble,CUE）算法。该算法不仅在基分类器的权重分配方面进行了改进,而且在解决数据块大小的敏感性问题以及增加基分类器之间的相异性方面,有明显的改善。实验表明在分类准确率上,CUE算法高于AWE算法。最后,提出聚类动态分类器选择（Dynamic classifier selection with clustering,DCSC）算法。该算法基于分类器动态选择的思想,没有繁琐的赋权值机制,所以时间效率较高。实验结果验证了DCSC算法的有效和高效性,并能有效地处理概念漂移。相似文献

10.

聚类集成研究综述

邵超润清晨《计算机工程与应用》2024,60(7):41-57

聚类分析作为数据研究领域的基本技术,旨在从无标签数据集中发现有意义的簇结构.由Kleinberg定理可知不存在能够学习任何数据集的基本聚类算法,即没有一种聚类方法能够正确地找到所有数据集的簇结构.聚类集成解决了这一固有挑战,通过组合多个聚类结果来探索高稳定性和鲁棒性的最终聚类.近些年来,提出了许多聚类集成技术,产生了解决实际问题的新方法以及新应用领域.从基聚类生成机制和共识函数设计两个维度对聚类集成技术进行了综述,分析了各种方法的优缺点并进行实验比较.最后针对当前的研究现状,讨论了未来的研究方向. 相似文献

11.

Dandan Wang;Qi Li; 《Concurrency and Computation》2024,36(16):e8097

A generic variation of hierarchical clustering (HC) that builds clusters from the bottom up is called agglomerative hierarchical clustering (AHC). The extension of AHC techniques using similarity criteria is the main topic of this research. Based on this, we create an AHC method that accomplishes clustering through ensemble approaches and combines the clustering of clusters with an original similarity measure. Three steps make up the proposed method's primary section. The first phase combines several individual AHC techniques to identify links between samples and create preliminary clusters. A heuristic similarity measure based on the developed clusters is used to determine how similar the samples are. The initial clusters produced using various techniques are all re-clustered to create superclusters in the second step. The third phase involves creating the final clusters by assigning each sample to a supercluster with the greatest similarity after the clusters have been formed. Based on several benchmark datasets from the UCI machine learning repository, extensive experimental research has been done to assess the performance of the suggested approach. The outcomes unequivocally demonstrate that the suggested AHC-based paradigm outperforms cutting-edge techniques. 相似文献

12.

一种基于聚类技术的选择性神经网络集成方法 总被引：11，自引：0，他引：11

下载免费PDF全文

李凯黄厚宽《计算机研究与发展》2005,42(4):594-598

神经网络集成是一种很流行的学习方法,通过组合每个神经网络的输出生成最后的预测.为了提高集成方法的有效性,不仅要求集成中的个体神经网络具有很高的正确率,而且要求这些网络在输入空间产生不相关的错误.然而,在现有的众多集成方法中,大都采用将训练的所有神经网络直接进行组合以形成集成,实际上生成的这些神经网络可能具有一定的相关性 .为了进一步提高神经网络间的差异性,一种基于聚类技术的选择性神经网络集成方法CLU_E NN被提出.在获得个体神经网络后,并不直接对这些神经网络集成,而是先应用聚类算法对这些神经网络模型聚类以获得差异较大的部分神经网络;然后由部分神经网络构成集成;最后,通过实验研究了CLU_ENN集成方法,与传统的集成方法Bagging相比,该方法取得了更好的效果. 相似文献

13.

Süreyya Özöğür-Akyüz Buse Çisil Otar Pınar Karadayı Atas 《Computational Intelligence》2020,36(1):297-319

Ensemble learning is the process of aggregating the decisions of different learners/models. Fundamentally, the performance of the ensemble relies on the degree of accuracy in individual learner predictions and the degree of diversity among the learners. The trade-off between accuracy and diversity within the ensemble needs to be optimized to provide the best grouping of learners as it relates to their performance. In this optimization theory article, we propose a novel ensemble selection algorithm which, focusing specifically on clustering problems, selects the optimal subset of the ensemble that has both accurate and diverse models. Those ensemble selection algorithms work for a given number of the best learners within the subset prior to their selection. The cardinality of a subset of the ensemble changes the prediction accuracy. The proposed algorithm in this study determines both the number of best learners and also the best ones. We compared our prediction results to recent ensemble clustering selection algorithms by the number of cardinalities and best predictions, finding better and approximated results to the optimum solutions. 相似文献

14.

基于MapReduce的FCM聚类集成算法

马自堂苟杰《计算机应用研究》2016,33(12)

针对传统的聚类集成算法难以高效地处理海量数据的聚类分析问题,提出一种基于MapReduce的并行FCM聚类集成算法。算法利用随机初始聚心来获取具有差异化的聚类成员,通过建立聚类成员簇间OVERLAP矩阵来寻找逻辑等价簇,最后利用投票法共享聚类成员中数据对象的分类情况得出最终的聚类结果。实验证明,该算法具有良好的精确度,加速比和扩展性,具有处理较大规模数据集的能力。相似文献

15.

聚类组合研究的新进展 总被引：1，自引：0，他引：1

杨燕靳蕃 KAMEL Mohamed 《计算机工程与应用》2008,44(11):142-144

作为目前聚类分析的新兴研究热点,聚类组合方法能将两种或多种聚类方法集成起来以改善其性能。从聚类多样性和共识函数两方面综述了最新研究进展,探讨将神经网络组合的思想用于聚类组合。最后指出了将来可能的研究方向。相似文献

16.

一致性函数研究

罗会兰危辉《计算机工程与应用》2009,45(17):1-4

通过把聚类集体当成一个概念型数据集,把聚类集体一致性函数问题转换成了一个普通的聚类问题,应用概念型数据聚类算法k-modes和LIMBO来进行聚类集成。实验结果证明用概念型数据聚类算法进行集成效果理想。相似文献

17.

基于最大内聚度基准的加权投票聚类集成

陈刚陈晓云《控制与决策》2014,29(2):236-240

提出一种基于投票的聚类集成方法. 通过分析聚类结构与聚类准确率的关系, 将内聚度最高的聚类成员作为重新标记的基准以实现簇标记的统一; 同时, 根据数据点在不同聚类成员中与所划分簇中心的距离确定权值, 最终实现加权投票. 实验结果表明, 该算法在准确率和稳定性上均有较大提高. 相似文献

18.

解决文本聚类集成问题的两个谱算法 总被引：8，自引：0，他引：8

下载免费PDF全文

徐森卢志茂顾国昌《自动化学报》2009,35(7):997-1002

聚类集成中的关键问题是如何根据不同的聚类器组合为最终的更好的聚类结果. 本文引入谱聚类思想解决文本聚类集成问题, 然而谱聚类算法需要计算大规模矩阵的特征值分解问题来获得文本的低维嵌入, 并用于后续聚类. 本文首先提出了一个集成算法, 该算法使用代数变换将大规模矩阵的特征值分解问题转化为等价的奇异值分解问题, 并继续转化为规模更小的特征值分解问题; 然后进一步研究了谱聚类算法的特性, 提出了另一个集成算法, 该算法通过求解超边的低维嵌入, 间接得到文本的低维嵌入. 在TREC和Reuters文本数据集上的实验结果表明, 本文提出的两个谱聚类算法比其他基于图划分的集成算法鲁棒, 是解决文本聚类集成问题行之有效的方法. 相似文献

19.

基于先验信息和谱分析的聚类融合算法 总被引：1，自引：0，他引：1

侯娟费耀平胡小霞李决润《计算机应用研究》2010,27(6):2103-2105

在聚类过程中利用先验信息能显著提高聚类算法的性能,但已存在的聚类融合算法很少考虑到数据集的先验信息。基于先验信息和谱分析,提出一种聚类融合算法,将成对限制信息引入到谱聚类算法中,用受限的谱聚类算法产生聚类成员,再采用基于互联合矩阵的集成方法生成最后的聚类结果。实验结果表明,利用先验信息能有效提高聚类的效果。相似文献

20.

基于聚类融合的混合属性数据增量聚类算法

李桃迎陈燕张金松秦胜君《控制与决策》2012,27(4):603-608

针对传统增量聚类方法对混合属性数据聚类时存在不稳定、随机性大和准确性不够高的缺点,提出一种基于聚类融合的混合属性数据增量聚类算法.该算法以传统增量聚类为基础,采用多种聚类算法的结果进行融合来代替原有单一划分,并重新修正了阈值的取值范围.实验表明,所提出的算法利用原有数据的特征,提高了聚类的稳定性和精确性,具有很好的聚类效果. 相似文献