共查询到15条相似文献,搜索用时 93 毫秒
1.
针对AdaBoost集成时难分样本权重扩张导致训练样本在更新时分布失衡的问题,提出一种基于正负类样本损失函数(LF)的权重更新策略。权重的调整不仅与训练误差有关,还考虑到基分类器对不同类别样本的正确分类能力,从而避免训练样本过度集中于某一类的异常现象。实验结果表明,基于LF的AdaBoost能在提高收敛性能的情况下,提高算法精度,克服样本分布失衡问题。偏差方差分析的结果显示,该算法在改善偏差的情况下,能有效地减小错误率中的方差成分,提高集成的泛化能力。 相似文献
2.
针对超声图像样本冗余、不同标准切面因疾病导致的高度相似性、感兴趣区域定位不准确问题,提出一种结合特征袋(BOF)特征、主动学习方法和多分类AdaBoost改进算法的经食管超声心动图(TEE)标准切面分类方法。首先采用BOF方法对超声图像进行描述;然后采用主动学习方法选择对分类器最有价值的样本作为训练集;最后,在AdaBoost算法对弱分类器的迭代训练中,根据临时强分类器的分类情况调整样本更新规则,实现对多分类AdaBoost算法的改进和TEE标准切面的分类。在TEE数据集和三个UCI数据集上的实验表明,相比AdaBoost.SAMME算法、多分类支持向量机(SVM)算法、BP神经网络和AdaBoost.M2算法,所提算法在各个数据集上的G-mean指标、整体分类准确率和大多数类别分类准确率都有不同程度的提升,且比较难分的类别分类准确率提升最为显著。实验结果表明,在包含类间相似样本的数据集上,分类器的性能有显著提升。 相似文献
3.
基于距离函数和损失函数正则化的权值更新模式,使用相关熵距离函数,Itakura-Saito距离函数,指数一次近似距离和相关熵损失函数结合,实现了三种AdaBoost弱分类器权值更新算法。使用UCI数据库数据对提出的三种算法AdaBoostRE,AdaBoostIE,AdaBoostEE与Real AdaBoost,Gentle AdaBoost和Modest AdaBoost算法作了比较,可以看到提出的AdaBoostRE算法预测效果最好,优于Real AdaBoost,Gentle AdaBoost和Modest AdaBoost算法。 相似文献
4.
针对不平衡分类中小类样本识别率低问题,提出一种基于主动学习不平衡多分类AdaBoost改进算法。首先,利用主动学习方法通过多次迭代抽样,选取少量的、对分类器最有价值的样本作为训练集;然后,基于不确定性动态间隔的样本选择策略,降低训练集的不平衡性;最后,利用代价敏感方法对多分类AdaBoost算法进行改进,对不同的类别给予不同的错分代价,调整样本权重更新速度,强迫弱分类器"关注"小类样本。在临床经胸超声心动图(TTE)测量数据集上的实验分析表明:与多分类支持向量机(SVM)相比,心脏病总体识别率提升了5.9%,G-mean指标提升了18.2%,瓣膜病(VHD)识别率提升了0.8%,感染性心内膜炎(IE)(小类)识别率提升了12.7%,冠心病(CAD)(小类)识别率提升了79.73%;与SMOTE-Boost相比,总体识别率提升了6.11%,G-mean指标提升了0.64%,VHD识别率提升了11.07%,先心病(CHD)识别率提升了3.69%。在TTE数据集和4个UCI数据集上的实验结果表明,该算法在不平稳多分类时能有效提高小类样本识别率,并且保证其他类别识别率不会大幅度降低,综合提升分类器性能。 相似文献
5.
多分类问题代价敏感AdaBoost算法 总被引:6,自引:2,他引:6
针对目前多分类代价敏感分类问题在转换成二分类代价敏感分类问题存在的代价合并问题, 研究并构造出了可直接应用于多分类问题的代价敏感AdaBoost算法.算法具有与连续AdaBoost算法 类似的流程和误差估计. 当代价完全相等时, 该算法就变成了一种新的多分类的连续AdaBoost算法, 算法能够确保训练错误率随着训练的分类器的个数增加而降低, 但不直接要求各个分类器相互独立条件, 或者说独立性条件可以通过算法规则来保证, 但现有多分类连续AdaBoost算法的推导必须要求各个分类器相互独立. 实验数据表明, 算法可以真正实现分类结果偏向错分代价较小的类, 特别当每一类被错分成其他类的代价不平衡但平均代价相等时, 目前已有的多分类代价敏感学习算法会失效, 但新方法仍然能 实现最小的错分代价. 研究方法为进一步研究集成学习算法提供了一种新的思路, 得到了一种易操作并近似满足分类错误率最小的多标签分类问题的AdaBoost算法. 相似文献
6.
针对AdaBoost。M2算法在解决多类不平衡协议流量的分类问题时存在不足,提出一种适用于因特网协议流量多类不平衡分类的集成学习算法RBWS-ADAM2,本算法在AdaBoost。M2每次迭代过程中,设计了基于权重的随机平衡重采样策略对训练数据进行预处理,该策略利用随机设置采样平衡点的重采样方式来更改多数类和少数类的样本数目占比,以构建多个具有差异性的训练集,并将样本权重作为样本筛选的依据,尽可能保留高权重样本,以加强对此类样本的学习。在国际公开的协议流量数据集上将RBWS-ADAM2算法与其他类似算法进行实验比较表明,相比于其他算法,该算法不仅对部分少数类的F-measure有较大提升,更有效提高了集成分类器的总体G-mean和总体平均F-measure,明显增强了集成分类器的整体性能。 相似文献
7.
李雨婷 《计算机技术与发展》2020,(4):46-51
在多标记学习的任务中,多标记学习的每个样本可被多个标签标记,比单标记学习的应用空间更广关注度更高,多标记学习可以利用关联性提高算法的性能。在多标记学习中,传统特征选择算法已不再适用,一方面,传统的特征选择算法可被用于单标记的评估标准。多标记学习使得多个标记被同时优化;而且在多标记学习中关联信息存在于不同标记间。因此,可设计一种能够处理多标记问题的特征选择算法,使标记之间的关联信息能够被提取和利用。通过设计最优的目标损失函数,提出了基于指数损失间隔的多标记特征选择算法。该算法可以通过样本相似性的方法,将特征空间和标记空间的信息融合在一起,独立于特定的分类算法或转换策略。优于其他特征选择算法的分类性能。在现实世界的数据集上验证了所提算法的正确性以及较好的性能。 相似文献
8.
不平衡多分类问题的连续AdaBoost算法研究 总被引:1,自引:0,他引:1
付忠良 《计算机研究与发展》2011,48(12):2326-2333
现有AdaBoost系列算法一般没有考虑类的先验分布.针对该问题,基于最小化训练错误率,通过把符号函数表示的训练错误率的极值问题转变成一种指数函数的极值问题,提出了不平衡分类问题连续 AdaBoost算法,给出了该算法的近似误差估计.基于同样的方法,对二分类问题连续AdaBoost算法的合理性给出了一种全新的解释和证明,并推广到多分类问题,得到了多分类问题连续AdaBoost算法,其具有与二分类连续AdaBoost算法完全类似的算法流程.经分析该算法与Bayes统计推断方法等价,并且其训练错误率随着训练的分类器个数增加而减小.理论分析和基于UCI数据集的实验结果表明了不平衡多分类算法的有效性.在连续AdaBoost算法中,不平衡分类问题常被转换成平衡分类问题来处理,但当先验分布极度不平衡时,使用提出的不平衡分类问题连续AdaBoost算法比一般连续AdaBoost算法有更好效果. 相似文献
9.
针对数据流集成分类如何使分类器适应不断变化的数据流,调整基分类器的权重选择合适的分类器集合的问题,提出了一种基于动态加权函数的集成分类算法。首先,提出了一种加权函数调节基分类器的权重,使用不断更新的数据块训练分类器;然后,使用一个新的权重函数对候选分类器进行一个合理的选择;最后,在基分类器中应用决策树的增量性质,实现对数据流的分类。通过大量实验发现,基于动态加权函数的集成分类算法的性能不受块的大小影响,与AUE2算法相比,叶子数平均减少了681.3、节点数平均减少了1 192.8,树的深度平均减少了4.42,同时相对地提高了准确率,降低了消耗时间。实验结果表明该算法在对数据流进行分类时不但可以保证准确率还可以节省大量的内存空间和时间。 相似文献
10.
鉴于特征属性选择在网络流量分类中占据重要地位,为了确定最优特征子集,利用CFS作为适应度函数的改进遗传算法(GA-CFS),从网络流量的249个属性空间中提取主要属性并最终选定18个特征组合作为最优特征子集。通过AdaBoost算法把一系列的弱分类器提升为强分类器,对网络流量进行了深入的分类研究。实验结果表明,基于GA-CFS和AdaBoost的流量组合分类方法较弱分类器具有较高的分类准确率。 相似文献
11.
针对软测量建模的特点以及建模过程中存在的主要问题,提出了基于 AdaBoost RT 集成学习方法的软测量建模方法,并根据 AdaBoost RT 算法固有的不足和软测量模型在线更新所面临的困难,提出了自适应修改阈值 和增添增量学习性能的改进方法.使用该建模方法对宝钢300 t LF 精炼炉建立钢水温度软测量模型,并使用实际生产数据对模型进行了检验.检验结果表明,该模型具有较好的预测精度,能够很好地实现在线更新. 相似文献
12.
当标识示例的两个标签分别来源于两个标签集时,这种多标签分类问题称之为标签匹配问题,目前还没有针对标签匹配问题的学习算法。 尽管可以用传统的多标签分类学习算法来解决标签匹配问题,但显然标签匹配问题有其自身特殊性。 通过对标签匹配问题进行深入的研究,在连续AdaBoost(real Adaptive Boosting)算法的基础上,基于整体优化的思想,采用算法适应的方法,提出了基于双标签集的标签匹配集成学习算法,该算法能够较好地学习到标签匹配规律从而完成标签匹配。 实验结果表明,与传统的多标签学习算法用于解决标签匹配问题相比,提出的新算法不仅缩小了搜索的标签空间的范围,而且最小化学习误差可以随着分类器个数的增加而降低,进而使得标签匹配分类更加快速、准确。 相似文献
13.
针对传统单个分类器在不平衡数据上分类效果有限的问题,基于对抗生成网络(GAN)和集成学习方法,提出一种新的针对二类不平衡数据集的分类方法——对抗生成网络-自适应增强-决策树(GAN-AdaBoost-DT)算法。首先,利用GAN训练得到生成模型,生成模型生成少数类样本,降低数据的不平衡性;其次,将生成的少数类样本代入自适应增强(AdaBoost)模型框架,更改权重,改进AdaBoost模型,提升以决策树(DT)为基分类器的AdaBoost模型的分类性能。使用受测者工作特征曲线下面积(AUC)作为分类评价指标,在信用卡诈骗数据集上的实验分析表明,该算法与合成少数类样本集成学习相比,准确率提高了4.5%,受测者工作特征曲线下面积提高了6.5%;对比改进的合成少数类样本集成学习,准确率提高了4.9%,AUC值提高了5.9%;对比随机欠采样集成学习,准确率提高了4.5%,受测者工作特征曲线下面积提高了5.4%。在UCI和KEEL的其他数据集上的实验结果表明,该算法在不平衡二分类问题上能提高总体的准确率,优化分类器性能。 相似文献
14.
目的 脑肿瘤是一种严重威胁人类健康的疾病。利用计算机辅助诊断进行脑肿瘤分割对于患者的预后和治疗具有重要的临床意义。3D卷积神经网络因具有空间特征提取充分、分割效果好等优点,广泛应用于脑肿瘤分割领域。但由于其存在显存占用量巨大、对硬件资源要求较高等问题,通常需要在网络结构中做出折衷,以牺牲精度或训练速度的方式来适应给定的内存预算。基于以上问题,提出一种轻量级分割算法。方法 使用组卷积来代替常规卷积以显著降低显存占用,并通过多纤单元与通道混合单元增强各组间信息交流。为充分利用多显卡协同计算的优势,使用跨卡同步批量归一化以缓解3D卷积神经网络因批量值过小所导致的训练效果差等问题。最后提出一种加权混合损失函数,提高分割准确性的同时加快模型收敛速度。结果 使用脑肿瘤公开数据集BraTS2018进行测试,本文算法在肿瘤整体区、肿瘤核心区和肿瘤增强区的平均Dice值分别可达90.67%、85.06%和80.41%,参数量和计算量分别为3.2 M和20.51 G,与当前脑肿瘤分割最优算法相比,其精度分别仅相差0.01%、0.96%和1.32%,但在参数量和计算量方面分别降低至对比算法的1/12和1/73。结论 本文算法通过加权混合损失函数来提高稀疏类分类错误对模型的惩罚,有效平衡不同分割难度类别的训练强度,本文算法可在保持较高精度的同时显著降低计算消耗,为临床医师进行脑肿瘤分割提供有力参考。 相似文献