共查询到17条相似文献,搜索用时 93 毫秒
1.
针对不平衡分类中小类样本识别率低问题,提出一种基于主动学习不平衡多分类AdaBoost改进算法。首先,利用主动学习方法通过多次迭代抽样,选取少量的、对分类器最有价值的样本作为训练集;然后,基于不确定性动态间隔的样本选择策略,降低训练集的不平衡性;最后,利用代价敏感方法对多分类AdaBoost算法进行改进,对不同的类别给予不同的错分代价,调整样本权重更新速度,强迫弱分类器"关注"小类样本。在临床经胸超声心动图(TTE)测量数据集上的实验分析表明:与多分类支持向量机(SVM)相比,心脏病总体识别率提升了5.9%,G-mean指标提升了18.2%,瓣膜病(VHD)识别率提升了0.8%,感染性心内膜炎(IE)(小类)识别率提升了12.7%,冠心病(CAD)(小类)识别率提升了79.73%;与SMOTE-Boost相比,总体识别率提升了6.11%,G-mean指标提升了0.64%,VHD识别率提升了11.07%,先心病(CHD)识别率提升了3.69%。在TTE数据集和4个UCI数据集上的实验结果表明,该算法在不平稳多分类时能有效提高小类样本识别率,并且保证其他类别识别率不会大幅度降低,综合提升分类器性能。 相似文献
2.
多分类问题代价敏感AdaBoost算法 总被引:6,自引:2,他引:6
针对目前多分类代价敏感分类问题在转换成二分类代价敏感分类问题存在的代价合并问题, 研究并构造出了可直接应用于多分类问题的代价敏感AdaBoost算法.算法具有与连续AdaBoost算法 类似的流程和误差估计. 当代价完全相等时, 该算法就变成了一种新的多分类的连续AdaBoost算法, 算法能够确保训练错误率随着训练的分类器的个数增加而降低, 但不直接要求各个分类器相互独立条件, 或者说独立性条件可以通过算法规则来保证, 但现有多分类连续AdaBoost算法的推导必须要求各个分类器相互独立. 实验数据表明, 算法可以真正实现分类结果偏向错分代价较小的类, 特别当每一类被错分成其他类的代价不平衡但平均代价相等时, 目前已有的多分类代价敏感学习算法会失效, 但新方法仍然能 实现最小的错分代价. 研究方法为进一步研究集成学习算法提供了一种新的思路, 得到了一种易操作并近似满足分类错误率最小的多标签分类问题的AdaBoost算法. 相似文献
3.
多类指数损失函数逐步添加模型(SAMME)是一种多分类的AdaBoost算法,为进一步提升SAMME算法的性能,针对使用加权概率和伪损失对算法的影响进行研究,在此基础上提出了一种基于基分类器对样本有效邻域分类的动态加权AdaBoost算法SAMME.RD。首先,确定是否使用加权概率和伪损失;然后,求出待测样本在训练集中的有效邻域;最后,根据基分类器针对有效邻域的分类结果确定基分类器的加权系数。使用UCI数据集进行验证,实验结果表明:使用真实的错误率计算基分类器加权系数效果更好;在数据类别较少且分布平衡时,使用真实概率进行基分类器筛选效果较好;在数据类别较多且分布不平衡时,使用加权概率进行基分类器筛选效果较好。所提的SAMME.RD算法可以有效提高多分类AdaBoost算法的分类正确率。 相似文献
4.
不平衡多分类问题的连续AdaBoost算法研究 总被引:1,自引:0,他引:1
付忠良 《计算机研究与发展》2011,48(12):2326-2333
现有AdaBoost系列算法一般没有考虑类的先验分布.针对该问题,基于最小化训练错误率,通过把符号函数表示的训练错误率的极值问题转变成一种指数函数的极值问题,提出了不平衡分类问题连续 AdaBoost算法,给出了该算法的近似误差估计.基于同样的方法,对二分类问题连续AdaBoost算法的合理性给出了一种全新的解释和证明,并推广到多分类问题,得到了多分类问题连续AdaBoost算法,其具有与二分类连续AdaBoost算法完全类似的算法流程.经分析该算法与Bayes统计推断方法等价,并且其训练错误率随着训练的分类器个数增加而减小.理论分析和基于UCI数据集的实验结果表明了不平衡多分类算法的有效性.在连续AdaBoost算法中,不平衡分类问题常被转换成平衡分类问题来处理,但当先验分布极度不平衡时,使用提出的不平衡分类问题连续AdaBoost算法比一般连续AdaBoost算法有更好效果. 相似文献
5.
AdaBoost 及其改进算法综述 总被引:3,自引:1,他引:3
AdaBoost算法是目前人脸检测领域最有效的方法之一,自该算法提出以来,很多研究者做了深入的研究分析和改进工作。基于AdaBoost算法受到众多研究者的重视,综述了AdaBoost及其改进算法。从AdaBoost算法出发,着重分析了AdaBoost算法的优缺点,并以此为基础对其改进算法作系统的分析和介绍,对改进算法进行了简单归类。最后,指出了算法未来的几个发展方向。 相似文献
6.
鉴于特征属性选择在网络流量分类中占据重要地位,为了确定最优特征子集,利用CFS作为适应度函数的改进遗传算法(GA-CFS),从网络流量的249个属性空间中提取主要属性并最终选定18个特征组合作为最优特征子集。通过AdaBoost算法把一系列的弱分类器提升为强分类器,对网络流量进行了深入的分类研究。实验结果表明,基于GA-CFS和AdaBoost的流量组合分类方法较弱分类器具有较高的分类准确率。 相似文献
7.
对尽量少的样本进行人工标注并获得较好的分类性能是图像分类应用的一个关键问题。针对标注样本选择,提出了一种综合样本不确定性度量和代表性度量的主动学习样本选择准则。基于最优标号和次优标号(Best vs.second-best,BvSB)的主动学习方法构建不确定性度量,利用分层聚类(Hierarchical Clustering,HC)方法得到数据集的分层聚类树,然后依据聚类树结构和已标注样本在其中的分布信息定义每个未标注样本的代表性度量。将新方法与随机样本选择以及BvSB主动学习方法进行了比较,对1个光学图像集和1个全极化SAR数据集分类问题的实验结果显示,新方法性能稳定,优于其他两种方法。 相似文献
8.
AdaBoost算法研究进展与展望 总被引:21,自引:0,他引:21
AdaBoost是最优秀的Boosting算法之一, 有着坚实的理论基础, 在实践中得到了很好的推广和应用. 算法能够将比随机猜测略好的弱分类器提升为分类精度高的强分类器, 为学习算法的设计提供了新的思想和新的方法. 本文首先介绍Boosting猜想提出以及被证实的过程, 在此基础上, 引出AdaBoost算法的起源与最初设计思想;接着, 介绍AdaBoost算法训练误差与泛化误差分析方法, 解释了算法能够提高学习精度的原因;然后, 分析了AdaBoost算法的不同理论分析模型, 以及从这些模型衍生出的变种算法;之后, 介绍AdaBoost算法从二分类到多分类的推广. 同时, 介绍了AdaBoost及其变种算法在实际问题中的应用情况. 本文围绕AdaBoost及其变种算法来介绍在集成学习中有着重要地位的Boosting理论, 探讨Boosting理论研究的发展过程以及未来的研究方向, 为相关研究人员提供一些有用的线索. 最后,对今后研究进行了展望, 对于推导更紧致的泛化误差界、多分类问题中的弱分类器条件、更适合多分类问题的损失函数、 更精确的迭代停止条件、提高算法抗噪声能力以及从子分类器的多样性角度优化AdaBoost算法等问题值得进一步深入与完善. 相似文献
9.
基于多维金字塔表达和AdaBoost的高分辨率SAR图像城区场景分类算法 总被引:1,自引:0,他引:1
提出了多维金字塔表达算法, 并使用基于多维金字塔表达的AdaBoost实现了高分辨率合成孔径雷达(Synthetic aperture radar, SAR)图像的城区场景分类. 多维金字塔表达算法首先在局部特征的各维计算金字塔表达矢量, 再将所有的金字塔表达矢量连接起来构成多维金字塔表达矢量. 多维金字塔表达算法克服了金字塔表达算法在处理高维局部特征时, 遇到的输出金字塔表达矢量的区分力受计算效率制约的问题. 本文分别在一个TerraSAR-X图像库和一张大幅TerraSAR-X图像上比较基于金字塔表达的AdaBoost和基于多维金字塔表达的AdaBoost的分类性能. 实验结果表明, 与前者相比, 后者显著提高了计算效率同时保证了分类精度. 相似文献
10.
提出了一种基于深度卷积神经网络自动识别超声心动图标准切面的方法,并可视化分析了深度模型的有效性。针对网络全连接层占有模型大部分参数的缺点,引入空间金字塔均值池层化替代全连接层,获得更多空间结构信息,并大大减少模型参数、降低过拟合风险,通过类别显著性区域将类似注意力机制引入模型可视化过程。通过超声心动图标准切面的识别问题案例,对深度卷积神经网络模型的鲁棒性和有效性进行解释。在超声心动图上的可视化分析实验表明,改进深度模型作出的识别决策依据,同医师辨别分类超声心动图标准切面的依据一致,表明所提方法的有效性和实用性。 相似文献
11.
提出了一种改进的AdaBoost算法与支持向量机组合的分类方法,用来处理多类别分类。采用规则抽样来解决支持向量机分类中正负样本的不平衡性,改进AdaBoost算法,使其在初始化时考虑样本分布稀疏的重要性,有利于稀有类样本的正确划分。实验结果表明,此方法与标准支持向量机分类器相比,泛化性能有一定程度的提高。 相似文献
12.
对支持向量机的多类分类问题进行研究,提出了一种基于核聚类的多类分类方法。利用核聚类方法将原始样本特征映射到高维特征进行聚类分组,对每一组使用一个支持向量机二值分类器进行分类,并用这些二值分类器组成决策树的节点,构成了一个决策分类树。给出决策树的生成算法,提出了利用交叠系数来控制交叠,从而克服错分积累,提高分类准确率。实验结果表明,采用该方法,手写体汉字识别速度和正确率都达到了实用的要求。 相似文献
13.
为解决图像分类过程中特征点选择的随机性对分类精度造成的影响,提出一种基于图像目标特征空间自学习分类算法。利用基于颜色和纹理特征的多通道局部主动轮廊模型找到图像的目标区域,在目标区域选取特征并对特征稀疏编码建立图像的目标特征空间。为进一步提高图像分类精度建立投票机制下基于图像目标特征空间的自学习算法。实验结果表明,该方法能避免特征选择的随机性对实验结果的影响,有效地提高图像分类的精度。 相似文献
14.
针对兼类文本,提出了一种分类算法。对属于同一类别的文本,利用超球支持向量机在特征空间中求得一个能包围该类尽可能多文本的最小超球,使各类文本之间通过超球分隔开,达到分类效果。对待分类文本,计算它到各超球球心的距离,根据距离判定该文本所属的类别。实验结果证明,该算法不仅具有较快的分类速度,而且具有较高的分类精度。 相似文献
15.
针对特征袋(BOF)模型中存在特征计算耗时、识别精度低的不足,提出一种新的改进BOF模型以提高其目标识别的精度和效率,并将其应用于奶牛个体识别。该算法首先引入优化方向梯度直方图(HOG)特征对图像进行特征提取和描述,然后利用空间金字塔匹配原理(SPM)生成图像基于视觉词典的直方图表示,最后自定义直方图交叉核作为分类器核函数。该算法在项目组自行拍摄的数据集(包含15类奶牛、共7500张奶牛头部图像)上的实验结果表明,使用基于SPM的BOF模型将算法的识别率平均提高2个百分点;使用直方图交叉核相比使用高斯核将算法的识别率平均提高2.5个百分点;使用优化HOG特征,相比使用传统HOG特征将算法识别率平均提高21.3个百分点,运算效率为其1.68倍;相比使用尺度不变特征变换(SIFT)特征,在保证平均识别精度达95.3%的基础上,运算效率为其7.10倍。分析结果可知,该算法在奶牛个体识别领域具有较好的鲁棒性和实用性。 相似文献
16.
提出了一种基于小波变换和多类支持向量机的图像分类新方法,该方法利用小波变换进行图像特征提取,利用多类支持向量机进行图像分类,并与基于图像底层特征的图像分类方法进行了实验比较。实验结果表明该方法具有较好的分类性能。 相似文献
17.
针对现有的主动学习算法在多分类器应用中存在准确率低、速度慢等问题,将基于仿射传播(AP)聚类的主动学习算法引入到多分类支持向量机中,每次迭代主动选择最有利于改善多类SVM分类器性能的N个新样本点添加到训练样本点中进行学习,使得在花费较小标注代价情况下,能够获得较高的分类性能。在多个不同数据集上的实验结果表明,新方法能够有效地减少分类器训练时所需的人工标注样本点的数量,并获得较高的准确率和较好的鲁棒性。 相似文献