共查询到18条相似文献,搜索用时 78 毫秒
1.
基于成对差异性度量的选择性集成方法 总被引:1,自引:0,他引:1
有效地产生泛化能力强、差异大的个体学习器,是集成学习算法的关键。为了提高学习器的差异性和精度,文中提出一种基于成对差异性度量的选择性集成方法。同时研究一种改进方法,进一步提高方法的运算速度,且支持并行计算。最后通过使用BP神经网络作为基学习器,在UCI数据集上进行实验,并与Bagging、基于遗传算法的选择性集成(GASEN)算法进行比较。实验结果表明,该改进算法在性能上与GASEN算法相近的前提下,训练速度得到大幅提高。 相似文献
2.
聚类集成中的差异性度量研究 总被引:14,自引:0,他引:14
集体的差异性被认为是影响集成学习的一个关键因素.在分类器集成中有许多的差异性度量被提出,但是在聚类集成中如何测量聚类集体的差异性,目前研究得很少.作者研究了7种聚类集体差异性度量方法,并通过实验研究了这7种度量在不同的平均成员聚类准确度、不同的集体大小和不同的数据分布情况下与各种聚类集成算法性能之间的关系.实验表明:这些差异性度量与聚类集成性能间并没有单调关系,但是在平均成员准确度较高、聚类集体大小适中和数据中有均匀簇分布的情况下,它们与集成性能间的相关度还是比较高的.最后给出了一些差异性度量用于指导聚类集体生成的可行性建议. 相似文献
3.
差异性是分类器集成具有高泛化能力的必要条件. 然而,目前对差异性度量、有效性及分类器优化集成都没有统一的分析和处理方法. 针对上述问题,本文一方面从差异性度量方法、差异性度量有效性分析和相应的分类器优化集成技术三个角度,全面总结与分析了基于差异性的分类器集成. 同时,本文还通过向量空间模型形象地论证了差异性度量的有效性. 另一方面,本文针对多种典型的基于差异性的分类器集成技术(Bagging,boosting GA-based,quadratic programming (QP)、semi-definite programming (SDP)、regularized selective ensemble (RSE))在UCI数据库和USPS数据库上进行了对比实验与性能分析,并对如何选择差异性度量方法和具体的优化集成技术给出了可行性建议. 相似文献
4.
通过选择性集成可以获得比单个学习器和全部集成学习更好的学习效果,可以显著地提高学习系统的泛化性能。文中提出一种多层次选择性集成学习算法,即在基分类器中通过多次按权重进行部分选择,形成多个集成分类器,对形成的集成分类器进行再集成,最后通过对个集成分类器多数投票的方式决定算法的输出。针对决策树与神经网络模型在20个标准数据集对集成学习算法Ada—ens进行了实验研究,试验证明基于数据的集成学习算法的性能优于基于特征集的集成学习算法的性能,有更好的分类准确率和泛化性能。 相似文献
5.
6.
介绍了传统的领域覆盖算法和交叉算法,并分析它们各自存在的缺点以及造成这些缺点的原因.针对传统的领域覆盖算法存在的泛化能力不足以及交叉覆盖算法存在的正确率不高的问题,提出了一种新的改进算法--基于集成学习的覆盖算法(CABE).CABE是利用集成学习来整合交叉覆盖算法和领域覆盖算法,是通过对领域覆盖算法中的拒识样本的处理来提升算法的精度.使用UCI数据集进行实验,实验结果表明,改进的算法提高了算法分类的精度. 相似文献
7.
8.
选择性集成学习是为解决同一个问题而训练多个基分类器,并依据某种规则选取部分基分类器的结果进行整合的学习算法。通过选择性集成可以获得比单个学习器和全部集成学习更好的学习效果,可以显著地提高学习系统的泛化性能。提出了一种多层次选择性集成学习算法Ada_ens。试验结果表明,Ada_ens具有更好的学习效果和泛化性能。 相似文献
9.
选择性集成学习算法综述 总被引:39,自引:0,他引:39
集成学习因其能显著提高一个学习系统的泛化能力而得到了机器学习界的广泛关注,但随着基学习机数目的增多,集成学习机的预测速度明显下降,其所需的存储空间也迅速增加.选择性集成学习的主要目的是进一步改善集成学习机的预测效果,提高集成学习机的预测速度,并降低其存储需求.该文对现有的选择性集成学习算法进行了详细综述,按照算法采用的... 相似文献
10.
相比于集成学习,集成剪枝方法是在多个分类器中搜索最优子集从而改善分类器的泛化性能,简化集成过程。帕累托集成剪枝方法同时考虑了分类器的精准度及集成规模两个方面,并将二者均作为优化的目标。然而帕累托集成剪枝算法只考虑了基分类器的精准度与集成规模,忽视了分类器之间的差异性,从而导致了分类器之间的相似度比较大。本文提出了融入差异性的帕累托集成剪枝算法,该算法将分类器的差异性与精准度综合为第1个优化目标,将集成规模作为第2个优化目标,从而实现多目标优化。实验表明,当该改进的集成剪枝算法与帕累托集成剪枝算法在集成规模相当的前提下,由于差异性的融入该改进算法能够获得较好的性能。 相似文献
11.
针对现有单一算法模型在成绩预测时存在泛化能力不强的问题, 提出一种基于多算法融合的Stacking集成学习模型, 用于混合式教学中学生成绩的预测. 模型以多项式朴素贝叶斯、AdaBoost和Gradient boosting为初级学习器, 逻辑斯蒂回归为次级学习器组成两层融合框架. 通过混合式教学过程中所产生的学习行为数据对模型进行验证. 实验表明, Stacking集成学习模型在测试集上分类预测准确率达到76%, 分别高于多项式朴素贝叶斯、AdaBoost、Gradient boosting和逻辑斯蒂回归4个单一算法模型5%、6%、9%和6%. 与单一算法模型相比, Stacking集成学习模型有着较强的泛化能力, 能更好地预测学生成绩, 为混合式教学的学习预警提供参考. 相似文献
12.
On Taxonomy and Evaluation of Feature Selection‐Based Learning Classifier System Ensemble Approaches for Data Mining Problems 下载免费PDF全文
Ensemble methods aim at combining multiple learning machines to improve the efficacy in a learning task in terms of prediction accuracy, scalability, and other measures. These methods have been applied to evolutionary machine learning techniques including learning classifier systems (LCSs). In this article, we first propose a conceptual framework that allows us to appropriately categorize ensemble‐based methods for fair comparison and highlights the gaps in the corresponding literature. The framework is generic and consists of three sequential stages: a pre‐gate stage concerned with data preparation; the member stage to account for the types of learning machines used to build the ensemble; and a post‐gate stage concerned with the methods to combine ensemble output. A taxonomy of LCSs‐based ensembles is then presented using this framework. The article then focuses on comparing LCS ensembles that use feature selection in the pre‐gate stage. An evaluation methodology is proposed to systematically analyze the performance of these methods. Specifically, random feature sampling and rough set feature selection‐based LCS ensemble methods are compared. Experimental results show that the rough set‐based approach performs significantly better than the random subspace method in terms of classification accuracy in problems with high numbers of irrelevant features. The performance of the two approaches are comparable in problems with high numbers of redundant features. 相似文献
13.
基于集成学习的钓鱼网页深度检测系统 总被引:1,自引:0,他引:1
网络钓鱼是一种在线欺诈行为,它利用钓鱼网页仿冒正常合法的网页,窃取用户敏感信息从而达到非法目的.提出了基于集成学习的钓鱼网页深度检测方法,采用网页渲染来应对常见的页面伪装手段,提取渲染后网页的URL信息特征、链接信息特征以及页面文本特征,利用集成学习的方法,针对不同的特征信息构造并训练不同的基础分类器模型,最后利用分类集成策略综合多个基础分类器生成最终的结果.针对PhishTank钓鱼网页的检测实验表明,本文提出的检测方法具有较好的准确率与召回率. 相似文献
14.
网络协议流不平衡环境下,流样本分布的变化对基于机器学习的流量分类器准确性及稳定性有较大的影响选择合适的机器学习算法以适应网络协议流不平衡环境下的在线流量分类,显得格外重要.为此,首先通过单因子实验设计,验证了C4.5决策树、贝叶斯核估计(NBK)和支持向量机(SVM)这3种分类算法统计TCP连接开始的前4个数据包足以分类流量.接着,比较了上述3种分类算法的性能,发现C4.5决策树的测试时间最短,SVM分类算法最稳定.然后,将Bagging算法应用到流量分类中.实验结果表明,Bagging分类算法的稳定性与SVM相似,且测试时间与建模时间接近于C4.5决策树,因此更适于在线分类流量. 相似文献
15.
选择性集成是当前机器学习领域的研究热点之一。由于选择性集成属于NP"难"问题,人们多利用启发式方法将选择性集成转化为其他问题来求得近似最优解,因为各种算法的出发点和描述角度各不相同,现有的大量选择性集成算法显得繁杂而没有规律。为便于研究人员迅速了解和应用本领域的最新进展,本文根据选择过程中核心策略的特征将选择性集成算法分为四类,即迭代优化法、排名法、分簇法、模式挖掘法;然后利用UCI数据库的20个常用数据集,从预测性能、选择时间、结果集成分类器大小三个方面对这些典型算法进行了实验比较;最后总结了各类方法的优缺点,并展望了选择性集成的未来研究重点。 相似文献
16.
半监督集成学习综述 总被引:3,自引:0,他引:3
半监督学习和集成学习是目前机器学习领域中两个非常重要的研究方向,半监督学习注重利用有标记样本与无标记样本来获得高性能分类器,而集成学习旨在利用多个学习器进行集成以提升弱学习器的精度。半监督集成学习是将半监督学习和集成学习进行组合来提升分类器泛化性能的机器学习新方法。首先,在分析半监督集成学习发展过程的基础上,发现半监督集成学习起源于基于分歧的半监督学习方法;然后,综合分析现有半监督集成学习方法,将其分为基于半监督的集成学习与基于集成的半监督学习两大类,并对主要的半监督集成方法进行了介绍;最后,对现有研究进了总结,并讨论了未来值得研究的问题。 相似文献
17.
结合特征选择与集成学习的密码体制识别方案 总被引:1,自引:0,他引:1
在密文识别过程中,加密算法是进一步分析密文的必要前提。然而现有密文识别方案存在形式单一的问题,并且在识别多种密码体制时难以应对不同密码体制间存在的差异。分析密文特征对识别效果的影响机制,结合Relief特征选择算法和异质集成学习算法,提出一种可适应多种密码体制识别情景的动态特征识别方案。在36种加密算法产生的密文数据集上进行实验,结果表明,与基于随机森林的密码体制分层识别方案相比,该方案在3类不同密码体制识别情景下的识别准确率分别提高了6.41%、10.03%和11.40%。 相似文献
18.
集成学习是一种联合多个学习器进行协同决策的机器学习方法,应用在机器翻译任务的推断过程中可以有效整合多个模型预测的概率分布,达到提升翻译系统准确性的目的。虽然该方法的有效性已在机器翻译评测中得到了广泛验证,但关于子模型的选择与融合的策略仍鲜有研究。该文主要针对机器翻译任务中的参数平均与模型融合两种集成学习方法进行大量的实验,分别从模型与数据层面、多样性与模型数量层面对集成学习的策略进行了深入探索。实验结果表明在WMT中英新闻任务上,所提模型相比Transformer单模型有3.19个BLEU值的提升。 相似文献