首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 46 毫秒
1.
提出一种基于Bagging的集成聚类方法,采用一种新的数据集采样技术生成数据子集,尽可能的保持了子样本的多样性和最大相关性,然后应用一种改进的k均值聚类算法生成个体学习器,根据互信息对数据集的不同聚类结果进行处理,最后通过计算有争议的数据对象与各个聚类中心的距离将其重新划分到新的聚类结果中.在多个UCI标准数据集上的实验结果表明,该方法能有效改善聚类质量.  相似文献   

2.
将集成学习方法应用到XML文档聚类中来改进传统聚类算法的不足。提出一种标签与路径相结合的XML文档向量模型,基于这个模型,首先对原始文档集进行多次抽样,在新文档集上进行K均值聚类,然后对得到的聚类中心集合进行层次聚类。在人工数据集和真实数据集上的实验表明,该算法在召回率和精确率上优于K均值算法,并且增强了其鲁棒性。  相似文献   

3.
半监督学习和集成学习是目前机器学习领域中的重要方法。半监督学习利用未标记样本,而集成学习综合多个弱学习器,以提高分类精度。针对名词型数据,本文提出一种融合聚类和集成学习的半监督分类方法SUCE。在不同的参数设置下,采用多个聚类算法生成大量的弱学习器;利用已有的类标签信息,对弱学习器进行评价和选择;通过集成弱学习器对测试集进行预分类,并将置信度高的样本放入训练集;利用扩展的训练集,使用ID3、Nave Bayes、 kNN、C4.5、OneR、Logistic等基础算法对其他样本进行分类。在UCI数据集上的实验结果表明,当训练样本较少时,本方法能稳定提高多数基础算法的准确性。  相似文献   

4.
王忠民  张爽  贺炎 《计算机科学》2018,45(1):307-312
为了提高基于智能手机的人体行为识别率,优化多分类器集成系统的泛化性能及个体分类器的差异性,提出了基于差异性增量聚类(Diversity Measure Increment-Affinity Propagation clustering,DMI-AP)的选择性集成人体行为识别模型。首先对训练集的所有样本进行bootstrap抽样并训练基分类器,选出大于平均识别率的基分类器构成分类器集合;然后将集合的基分类器作为聚类对象进行分组,通过计算基分类器间的双误差异性值求出表征个体分类器特征的双误差异性增量值,输入近邻传播聚类算法得到k个类簇,选取每簇的中心分类器构成多分类器集成系统;最后使用等概率均值法融合k个分类器的输出结果。实验表明,该模型算法使个体分类器的差异性增大、分类器搜索空间缩小;与传统的Bagging,Adaboost以及RF方法相比,该模型的识别准确率平均提高了8.11%。  相似文献   

5.
陈全  赵文辉  李洁  江雨燕 《微机发展》2010,(2):87-89,94
通过选择性集成可以获得比单个学习器和全部集成学习更好的学习效果,可以显著地提高学习系统的泛化性能。文中提出一种多层次选择性集成学习算法,即在基分类器中通过多次按权重进行部分选择,形成多个集成分类器,对形成的集成分类器进行再集成,最后通过对个集成分类器多数投票的方式决定算法的输出。针对决策树与神经网络模型在20个标准数据集对集成学习算法Ada—ens进行了实验研究,试验证明基于数据的集成学习算法的性能优于基于特征集的集成学习算法的性能,有更好的分类准确率和泛化性能。  相似文献   

6.
通过选择性集成可以获得比单个学习器和全部集成学习更好的学习效果,可以显著地提高学习系统的泛化性能。文中提出一种多层次选择性集成学习算法,即在基分类器中通过多次按权重进行部分选择,形成多个集成分类器,对形成的集成分类器进行再集成,最后通过对个集成分类器多数投票的方式决定算法的输出。针对决策树与神经网络模型在20个标准数据集对集成学习算法Ada—ens进行了实验研究,试验证明基于数据的集成学习算法的性能优于基于特征集的集成学习算法的性能,有更好的分类准确率和泛化性能。  相似文献   

7.
一种改进的自适应聚类集成选择方法   总被引:1,自引:0,他引:1  
徐森  皋军  花小朋  李先锋  徐静 《自动化学报》2018,44(11):2103-2112
针对自适应聚类集成选择方法(Adaptive cluster ensemble selection,ACES)存在聚类集体稳定性判定方法不客观和聚类成员选择方法不够合理的问题,提出了一种改进的自适应聚类集成选择方法(Improved ACES,IACES).IACES依据聚类集体的整体平均归一化互信息值判定聚类集体稳定性,若稳定则选择具有较高质量和适中差异性的聚类成员,否则选择质量较高的聚类成员.在多组基准数据集上的实验结果验证了IACES方法的有效性:1)IACES能够准确判定聚类集体的稳定性,而ACES会将某些不稳定的聚类集体误判为稳定;2)与其他聚类成员选择方法相比,根据IACES选择聚类成员进行集成在绝大部分情况下都获得了更佳的聚类结果,在所有数据集上都获得了更优的平均聚类结果.  相似文献   

8.
基于集成聚类的流量分类架构   总被引:1,自引:0,他引:1  
鲁刚  余翔湛  张宏莉  郭荣华 《软件学报》2016,27(11):2870-2883
流量分类是优化网络服务质量的基础与关键.机器学习算法利用数据流统计特征分类流量,对于识别加密私有协议流量具有重要意义.然而,特征偏置和类别不平衡是基于机器学习的流量分类研究所面临的两大挑战.特征偏置是指一些数据流统计特征在提高部分应用识别准确率的同时也降低了另外一部分应用识别的准确率.类别不平衡是指机器学习流量分类器对样本数较少的应用识别的准确率较低.为解决上述问题,提出了基于集成聚类的流量分类架构(traffic classification framework based on ensemble clustering,简称TCFEC).TCFEC由多个基于不同特征子空间聚类的基分类器和一个最优决策部件构成,能够提高流量分类的准确率.具体而言,与传统的机器学习流量分类器相比,TCFEC的平均流准确率最高提升5%,字节准确率最高提升6%.  相似文献   

9.
一种基于聚类技术的选择性神经网络集成方法   总被引:11,自引:0,他引:11  
神经网络集成是一种很流行的学习方法,通过组合每个神经网络的输出生成最后的预测.为 了提高集成方法的有效性,不仅要求集成中的个体神经网络具有很高的正确率,而且要求这 些网络在输入空间产生不相关的错误.然而,在现有的众多集成方法中,大都采用将训练的 所有神经网络直接进行组合以形成集成,实际上生成的这些神经网络可能具有一定的相关性 .为了进一步提高神经网络间的差异性,一种基于聚类技术的选择性神经网络集成方法CLU_E NN被提出.在获得个体神经网络后,并不直接对这些神经网络集成,而是先应用聚类算法对 这些神经网络模型聚类以获得差异较大的部分神经网络;然后由部分神经网络构成集成;最 后,通过实验研究了CLU_ENN集成方法,与传统的集成方法Bagging相比,该方法取得了更好 的效果.  相似文献   

10.
近年来,由于机器学习能够很好地解决恶意软件检测问题,因而受到了广泛的关注。为了进一步提高恶意软件的检测性能,将机器学习中的动态集成选择应用到恶意软件检测中。为了满足检测性能和保证检测的实时性需求,在动态集成选择的基础上,提出一种基于聚类的动态集成选择算法CDES(Cluster based Dynamic Ensemble Selection strategy)。该方法首先通过聚类得到多个聚类中心,然后为每一个聚类中心选择一组分类器组成集成分类器。当检测未知样本时,首先找到与该样本最近的聚类中心,那么用于分类该聚类中心的集成分类器就是当前测试样本的集成分类器。最终的检测结果也由这一组分类器通过投票得到。实验中,将所提算法与其他相关算法作比较,实验结果表明所提算法明显优于其他算法。同时,所提算法运行时间远远低于其他算法,可以满足系统的实时性要求。  相似文献   

11.
针对选择性集成逆向传播神经网络(GASEN-BPNN)模型训练学习速度慢,选择性集成极限学习机(GASEN-ELM)模型建模精度稳定性差等问题,提出一种基于遗传算法的选择性集成核极限学习机(GASEN-KELM)建模方法。该方法首先通过对训练样本进行随机采样获取子模型训练样本;然后采用泛化性、稳定性较佳的核极限学习机(KELM)算法建立候选子模型,通过标准遗传算法工具箱,依据设定阈值按进化策略优化选择最佳子模型;最后通过简单平均加权集成的方式获得最终GASEN-KELM模型。采用标准混凝土抗压强度数据验证了所提出方法的有效性,并与GASEN-BPNN和GASEN-ELM选择性集成算法进行比较,表明所提出方法可以在模型学习速度和建模预测稳定性方面获得较好的均衡。  相似文献   

12.
为了提高面部表情的分类识别性能,基于集成学习理论,提出了一种二次优化选择性(Quadratic Optimization Choice, QOC)集成分类模型。首先,对于9个基分类器,依据性能进行排序,选择前30%的基分类器作为集成模型的候选基分类器。其次,依据组合规则产生集成模型簇。最后,对集成模型簇进行二次优化选择,选择具有最小泛化误差的集成分类器的子集,从而确定最优集成分类模型。为了验证QOC集成分类模型的性能,选择采用最大值、最小值和均值规则的集成模型作为对比模型,实验结果表明:相对基分类器,QOC集成分类模型取得了较好的分类效果,尤其是对于识别率较差的悲伤表情类,平均识别率提升了21.11%。相对于非选择性集成模型,QOC集成分类模型识别性能也有显著提高。  相似文献   

13.
为了解决稀疏化造成的核主角不稳定问题, 提出了集成主角方法. 集成主角求再生核希尔伯特空间的多组近似基, 将核主角问题极值向量的解空间限定在近似基张成的空间求核主角, 然后集成特征值. 利用集成主角(ensemble principal angle, EPA)可以对复杂环境下的多变量工业过程进行在线故障检测. 最后本文通过在Tennessee Eastman数据集上的实验, 对集成主角在故障检测中的应用进行了说明.  相似文献   

14.
杨菊  袁玉龙  于化龙 《计算机科学》2016,43(10):266-271
针对现有极限学习机集成学习算法分类精度低、泛化能力差等缺点,提出了一种基于蚁群优化思想的极限学习机选择性集成学习算法。该算法首先通过随机分配隐层输入权重和偏置的方法生成大量差异的极限学习机分类器,然后利用一个二叉蚁群优化搜索算法迭代地搜寻最优分类器组合,最终使用该组合分类测试样本。通过12个标准数据集对该算法进行了测试,该算法在9个数据集上获得了最优结果,在另3个数据集上获得了次优结果。采用该算法可显著提高分类精度与泛化性能。  相似文献   

15.
朱帮助 《计算机科学》2008,35(3):132-133
针对现有神经网络集成研究方法在输入属性、集成方式和集成形式上的不足,提出一种基于特征提取的选择性神经网络集成模型-NsNNEIPCABag.该模型通过Bagging算法产生若干训练子集;利用改进的主成分分析(IPCA)提取主成分作为输入来训练个体网络;采用IPCA从所有个体网络中选择出部分线性无关的个体网络;采用神经网络对选择出来的个体网络进行非线性集成.为检验该模型的有效性,将其用于时间序列预测,结果表明本文提出的方法的泛化能力优于流行的其它集成方法.  相似文献   

16.
Ensemble learning is the process of aggregating the decisions of different learners/models. Fundamentally, the performance of the ensemble relies on the degree of accuracy in individual learner predictions and the degree of diversity among the learners. The trade-off between accuracy and diversity within the ensemble needs to be optimized to provide the best grouping of learners as it relates to their performance. In this optimization theory article, we propose a novel ensemble selection algorithm which, focusing specifically on clustering problems, selects the optimal subset of the ensemble that has both accurate and diverse models. Those ensemble selection algorithms work for a given number of the best learners within the subset prior to their selection. The cardinality of a subset of the ensemble changes the prediction accuracy. The proposed algorithm in this study determines both the number of best learners and also the best ones. We compared our prediction results to recent ensemble clustering selection algorithms by the number of cardinalities and best predictions, finding better and approximated results to the optimum solutions.  相似文献   

17.
基于回归问题的选择性集成算法   总被引:1,自引:1,他引:0       下载免费PDF全文
陈凯 《计算机工程》2009,35(21):17-19
提出一种应用于回归问题,以分类回归树为基学习器,并综合Boosting和Bagging算法的特点,利用变相似度聚类技术和贪婪算法来进行选择性集成学习的算法——SER-BagBoosting Trees算法。将其与几种常用的机器学习算法进行比较研究,得出该算法往往比其他集成学习算法具有更好的泛化性能和更高的运行效率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号