首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 187 毫秒
1.
朱亮  徐华  成金海  朱深 《计算机应用》2022,42(7):2022-2029
针对自适应增强(AdaBoost)算法的基分类器线性组合效率低以及过度关注难分样本的问题,提出了基于间隔理论的两种改进算法WPIAda与WPIAda.M。首先,WPIAda与WPIAda.M算法都将样本权值的更新分为四种情形,从而增加间隔从正到负变化的样本权值来抑制间隔的负向移动,并减少间隔处于零点的样本数量;其次,WPIAda.M算法根据基分类器的错误率与样本权重的分布状态,给出新的基分类器系数求解方法,从而提高基分类器的组合效率。在10个UCI数据集上,与dfAda、skAda、swaAda等算法相比,WPIAda和WPIAda.M算法的测试误差分别平均降低了7.46个百分点和7.64个百分点;AUC分别提高了11.65个百分点和11.92个百分点。实验结果表明,WPIAda和WPIAda.M算法可以有效降低对难分样本的关注,并且WPIAda.M算法能够更高效地集成基分类器,因此两种算法均可进一步提高分类性能。  相似文献   

2.
苟富  郑凯 《计算机应用》2015,35(9):2579-2583
AdaBoost是数据挖掘领域最常见的提升算法之一。对传统AdaBoost将各个基分类器线性相加所存在的不足进行分析,并针对AdaBoost各个弱分类器的加权方式提出新的改进,将传统的线性相加改为非线性组合,把从学习过程得到的固定不变的权重系数改为由预测阶段的具体实例决定的动态参数,该参数基于待测实例K近邻的分类结果统计,从而使各个基分类器的权重更贴近当前待测实例的实际可靠度。实验结果表明,与传统AdaBoost相比,提出的非线性改进算法对不同数据集均有不同程度提升,提升最高的达到了7个百分点。由此证明,提出的改进是一种更加准确的分类算法,对绝大多数数据集均能得到更高的分类准确率。  相似文献   

3.
一种改进的AdaBoost算法——AD AdaBoost   总被引:19,自引:0,他引:19  
目标检测问题是计算机视觉领域最普遍和关键的问题之一.基于级联结构的AdaBoost算法目前被认为是较有效的检测算法,但是其在低FRR端的性能仍需改进.文章提出了一种针对目标检测问题的改进AdaBoost算法--AD AdaBoost.AD AdaBoost采用了新的参数求解方法,弱分类器的加权参数不但与错误率有关,还与其对正样本的识别能力有关.该算法能够有效地降低分类器在低FRR端的FAR,使其更适用于目标检测问题.新旧算法在复杂背景中文字检测的实验结果对比证实了新算法在性能上的改进.  相似文献   

4.
针对传统AdaBoost算法存在的所需样本数量大、训练时间长、分类器检测费时的问题,提出一种快速样本选择和分类器优化算法.首先,提出一个基于SVM的训练样本选择算法,来提高样本的有效率;其次,提出一种将多个分类器组合成一个新的分类器的算法,减少了分类器的总数,且新生成的分类器比原有多个分类器分类能力更强,提高了检测性能.实验结果表明,算法能够用更少的样本与时间达到与传统方法相同的性能.  相似文献   

5.
AdaBoost算法研究进展与展望   总被引:21,自引:0,他引:21  
AdaBoost是最优秀的Boosting算法之一, 有着坚实的理论基础, 在实践中得到了很好的推广和应用. 算法能够将比随机猜测略好的弱分类器提升为分类精度高的强分类器, 为学习算法的设计提供了新的思想和新的方法. 本文首先介绍Boosting猜想提出以及被证实的过程, 在此基础上, 引出AdaBoost算法的起源与最初设计思想;接着, 介绍AdaBoost算法训练误差与泛化误差分析方法, 解释了算法能够提高学习精度的原因;然后, 分析了AdaBoost算法的不同理论分析模型, 以及从这些模型衍生出的变种算法;之后, 介绍AdaBoost算法从二分类到多分类的推广. 同时, 介绍了AdaBoost及其变种算法在实际问题中的应用情况. 本文围绕AdaBoost及其变种算法来介绍在集成学习中有着重要地位的Boosting理论, 探讨Boosting理论研究的发展过程以及未来的研究方向, 为相关研究人员提供一些有用的线索. 最后,对今后研究进行了展望, 对于推导更紧致的泛化误差界、多分类问题中的弱分类器条件、更适合多分类问题的损失函数、 更精确的迭代停止条件、提高算法抗噪声能力以及从子分类器的多样性角度优化AdaBoost算法等问题值得进一步深入与完善.  相似文献   

6.
多类指数损失函数逐步添加模型(SAMME)是一种多分类的AdaBoost算法,为进一步提升SAMME算法的性能,针对使用加权概率和伪损失对算法的影响进行研究,在此基础上提出了一种基于基分类器对样本有效邻域分类的动态加权AdaBoost算法SAMME.RD。首先,确定是否使用加权概率和伪损失;然后,求出待测样本在训练集中的有效邻域;最后,根据基分类器针对有效邻域的分类结果确定基分类器的加权系数。使用UCI数据集进行验证,实验结果表明:使用真实的错误率计算基分类器加权系数效果更好;在数据类别较少且分布平衡时,使用真实概率进行基分类器筛选效果较好;在数据类别较多且分布不平衡时,使用加权概率进行基分类器筛选效果较好。所提的SAMME.RD算法可以有效提高多分类AdaBoost算法的分类正确率。  相似文献   

7.
王玲娣  徐华 《计算机应用》2018,38(3):650-654
针对AdaBoost算法下弱分类器间的多样性如何度量问题以及AdaBoost的过适应问题,在分析并研究了4种多样性度量与AdaBoost算法的分类精度关系的基础上,提出一种基于双误度量改进的AdaBoost方法。首先,选择Q统计、相关系数、不一致度量、双误度量在UCI数据集上进行实验。然后,利用皮尔逊相关系数定量计算多样性与测试误差的相关性,发现在迭代后期阶段,它们都趋于一个稳定的值;其中双误度量在不同数据集上的变化模式固定,它在前期阶段不断增加,在迭代后期基本上不变,趋于稳定。最后,利用双误度量改进AdaBoost的弱分类器的选择策略。实验结果表明,与其他常用集成方法相比,改进后的AdaBoost算法的测试误差平均降低1.5个百分点,最高可降低4.8个百分点。因此,该算法可以进一步提高分类性能。  相似文献   

8.
提出一种新的标记迭代过程中错分样本的AdaBoost算法(MWBoost),该算法通过在提升过程中,把上一个分类器错分的样本全部参入到下一个分类器的训练中,并在分类正确的样本中进行重采样,从而使得后一轮提升中分类器能够更快速地关注那些难以分类的样本.该算法在UCI的多个数据集上进行了测试,并且与传统的AdaBoost算法进行了比较,实验结果表明,新的算法具有更好的分类精度.  相似文献   

9.
针对传统的AdaBoost算法只关注分类错误率最小的问题,在分析传统的AdaBoost算法实质基础上,提出一种基于代价敏感的改进AdaBoost算法。首先在训练基分类器阶段,对于数据集上的不同类别样本根据其错分后造成的损失大小不同来更新样本权值,使算法由关注分类错误率最小转而关注分类代价最小。然后,在组合分类器输出时采用预测概率加权方法来取代传统AdaBoost算法采用的预测类别加权的方法。最后通过实验验证了改进算法的有效性。  相似文献   

10.
提出一种改进的AdaBoost强化学习算法,并将其应用于鉴别健康者和肝癌患者的呼气信号。首先采集志愿者(包括健康对照组和肝癌患者)的呼气信号,利用Relief算法提取其主要特征;接着融合Stacking 模型,基于传统的机器学习算法训练得到若干基分类器组,构建一个个子分类器。为减少训练样本对分类器性能的影响,利用K折交叉,先后得到k个基分类器,形成一个基分类器组;进一步,由投票法得到该基分类器组,即子分类器对测试集的预测结果;然后根据各子分类器对训练集的预测错误率调整训练样本,并获得各子分类器的权重系数;最后将多个子分类器的预测结果进行加权组合,得到最终预测结果。实验结果表明,相比传统的AdaBoost算法,改进的AdaBoost算法在鉴别肝癌呼气和健康对照组呼气时,错误率明显下降,鲁棒性有所提升。该算法在鉴别肝癌呼气时,准确率可以达到90%左右,特异性和精确度也均超过95%。因此,改进的AdaBoost算法可有效提升肝癌呼气鉴别精度,对通过呼气鉴别肝癌、实现早期诊断的研究具有重要意义。  相似文献   

11.
基于全信息相关度的动态多分类器融合   总被引:1,自引:0,他引:1  
AdaB00st采用级联方法生成各基分类器,较好地体现了分类器之间的差异性和互补性.其存在的问题是,在迭代的后期,训练分类器越来越集中在某一小区域的样本上,生成的基分类器体现不同区域的分类特征.根据基分类器的全局分类性能得到固定的投票权重,不能体现基分类器在不同区域上的局部性能差别.因此,本文基于Ada-Boost融合方法,利用待测样本与各分类器的全信息相关度描述基分类器的局部分类性能,提出基于全信息相关度的动态多分类器融合方法,根据各分类器对待测样本的局部分类性能动态确定分类器组合和权重.仿真实验结果表明,该算法提高了融合分类性能.  相似文献   

12.
This paper presents a strategy to improve the AdaBoost algorithm with a quadratic combination of base classifiers. We observe that learning this combination is necessary to get better performance and is possible by constructing an intermediate learner operating on the combined linear and quadratic terms. This is not trivial, as the parameters of the base classifiers are not under direct control, obstructing the application of direct optimization. We propose a new method realizing iterative optimization indirectly. First we train a classifier by randomizing the labels of training examples. Subsequently, the input learner is called repeatedly with a systematic update of the labels of the training examples in each round. We show that the quadratic boosting algorithm converges under the condition that the given base learner minimizes the empirical error. We also give an upper bound on the VC-dimension of the new classifier. Our experimental results on 23 standard problems show that quadratic boosting compares favorably with AdaBoost on large data sets at the cost of training speed. The classification time of the two algorithms, however, is equivalent.  相似文献   

13.
为提高决策树的集成分类精度,介绍了一种基于特征变换的旋转森林分类器集成算法,通过对数据属性集的随机分割,并在属性子集上对抽取的子样本数据进行主成分分析,以构造新的样本数据,达到增大基分类器差异性及提高预测准确率的目的。在Weka平台下,分别采用Bagging、AdaBoost及旋转森林算法对剪枝与未剪枝的J48决策树分类算法进行集成的对比试验,以10次10折交叉验证的平均准确率为比较依据。结果表明旋转森林算法的预测精度优于其他两个算法,验证了旋转森林是一种有效的决策树分类器集成算法。  相似文献   

14.
为了平衡集成学习中差异性和准确性的关系并提高学习系统的泛化性能, 提出一种基于AdaBoost 和匹配追踪的选择性集成算法. 其基本思想是将匹配追踪理论融合于AdaBoost 的训练过程中, 利用匹配追踪贪婪迭代的思想来最小化目标函数与基分类器线性组合之间的冗余误差, 并根据冗余误差更新AdaBoost 已训练基分类器的权重, 进而根据权重大小选择集成分类器成员. 在公共数据集上的实验结果表明, 该算法能够获得较高的分类精度.  相似文献   

15.
《Information Fusion》2005,6(1):21-36
In the context of Multiple Classifier Systems, diversity among base classifiers is known to be a necessary condition for improvement in ensemble performance. In this paper the ability of several pair-wise diversity measures to predict generalisation error is compared. A new pair-wise measure, which is computed between pairs of patterns rather than pairs of classifiers, is also proposed for two-class problems. It is shown experimentally that the proposed measure is well correlated with base classifier test error as base classifier complexity is systematically varied. However, correlation with unity-weighted sum and vote is shown to be weaker, demonstrating the difficulty in choosing base classifier complexity for optimal fusion. An alternative strategy based on weighted combination is also investigated and shown to be less sensitive to number of training epochs.  相似文献   

16.
基分类器之间的差异性和单个基分类器自身的准确性是影响集成系统泛化性能的两个重要因素,针对差异性和准确性难以平衡的问题,提出了一种基于差异性和准确性的加权调和平均(D-A-WHA)度量基因表达数据的选择性集成算法。以核超限学习机(KELM)作为基分类器,通过D-A-WHA度量调节基分类器之间的差异性和准确性,最后选择一组准确性较高并且与其他基分类器差异性较大的基分类器组合进行集成。通过在UCI基因数据集上进行仿真实验,实验结果表明,与传统的Bagging、Adaboost等集成算法相比,基于D-A-WHA度量的选择性集成算法分类精度和稳定性都有显著的提高,且能有效应用于癌症基因数据的分类中。  相似文献   

17.
为避免硬间隔算法过分强调较难分类样本而导致泛化性能下降的问题,提出一种新的基于软间隔的AdaBoost-QP算法。在样本硬间隔中加入松弛项,得到软间隔的概念,以优化样本间隔分布、调整弱分类器的权重。实验结果表明,该算法能降低泛化误差,提高 AdaBoost算法的泛化性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号