首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
处理类不平衡数据时,少数类的边界实例非常容易被错分。为了降低类不平衡对分类器性能的影响,提出了自适应边界采样算法(AB-SMOTE)。AB-SMOTE算法对少数类的边界样本进行自适应采样,提高了数据集的平衡度和有效性。同时将AB-SMOTE算法与数据清理技术融合,形成基于AdaBoost的集成算法ABTAdaBoost。ABTAdaBoost算法主要包括三个阶段:第一个阶段对训练数据集采用AB-SMOTE算法,降低数据集的类不平衡度;第二个阶段使用Tomek links数据清理技术,清除数据集中的噪声和抽样方法产生的重叠样例,有效提高数据的可用性;第三个阶段使用AdaBoost集成算法生成一个基于N个弱分类器的集成分类器。实验分别以J48决策树和朴素贝叶斯作为基分类器,在12个UCI数据集上的实验结果表明:ABTAdaBoost算法的预测性能优于其它几种算法。  相似文献   

2.
不平衡数据分类是机器学习领域的重要研究内容,但现有的不平衡分类算法通常针对不平衡二分类问题,关于不平衡多分类的研究相对较少。然而实际应用中的数据集通常具有多类别且数据分布具有不平衡性,而类别的多样性进一步加剧了不平衡数据的分类难度,因此不平衡多分类问题已经成为亟待解决的研究课题。针对近年来提出的不平衡多分类算法展开综述,根据是否采用分解策略把不平衡多分类算法分为分解方法和即席方法,并进一步将分解方法按照分解策略的不同划分为“一对一(OVO)”架构和“一对多(OVA)”架构,将即席方法按照处理技术的不同分为数据级方法、算法级方法、代价敏感方法、集成方法和基于深度网络的方法。系统阐述各类方法的优缺点及其代表性算法,总结概括不平衡多分类方法的评价指标,并通过实验深入分析代表性方法的性能,讨论了不平衡多分类的未来发展方向。  相似文献   

3.
提出一种基于训练集分解的不平衡分类算法,该算法使用能输出后验概率的支持向量机作为分类器,使用基于测度层次信息源合并规则实现分类器的集成.在4个不同领域的不平衡数据集上的仿真实验表明:该算法有效提高分类器对正类样本的正确率,同时尽量减少对负类样本的误判.实验结果验证集成学习算法处理不平衡分类问题的有效性.  相似文献   

4.
针对AdaBoost。M2算法在解决多类不平衡协议流量的分类问题时存在不足,提出一种适用于因特网协议流量多类不平衡分类的集成学习算法RBWS-ADAM2,本算法在AdaBoost。M2每次迭代过程中,设计了基于权重的随机平衡重采样策略对训练数据进行预处理,该策略利用随机设置采样平衡点的重采样方式来更改多数类和少数类的样本数目占比,以构建多个具有差异性的训练集,并将样本权重作为样本筛选的依据,尽可能保留高权重样本,以加强对此类样本的学习。在国际公开的协议流量数据集上将RBWS-ADAM2算法与其他类似算法进行实验比较表明,相比于其他算法,该算法不仅对部分少数类的F-measure有较大提升,更有效提高了集成分类器的总体G-mean和总体平均F-measure,明显增强了集成分类器的整体性能。  相似文献   

5.
不平衡类数据挖掘研究综述   总被引:4,自引:4,他引:4  
翟云  杨炳儒  曲武 《计算机科学》2010,37(10):27-32
综述了近年来国内外对不平衡类数据挖掘的主要研究进展。首先分析了不平衡类数据挖掘的本质。其次,详细探讨了处理不平衡类数据挖掘的各种技术,并根据其本质区别,从数据层次和算法层次分别对目前存在的各种技术方法进行了深入剖析和全面比较。最后,指出当前不平衡类数据挖掘研究的热点以及将来需要重点关注的主要问题。  相似文献   

6.
程险峰  李军  李雄飞 《计算机工程》2011,37(13):147-149
针对不平衡数据学习问题,提出一种基于欠采样的分类算法。对多数类样例进行欠采样,保留位于分类边界附近的多数类样例。以AUC为优化目标,选择最恰当的邻域半径使数据达到平衡,利用欠采样后的样例训练贝叶斯分类器,并采用AUC评价分类器性能。仿真数据及UCI数据集上的实验结果表明,该算法有效。  相似文献   

7.
张枭山  罗强 《计算机科学》2015,42(Z11):63-66
在面对现实中广泛存在的不平衡数据分类问题时,大多数 传统分类算法假定数据集类分布是平衡的,分类结果偏向多数类,效果不理想。为此,提出了一种基于聚类融合欠抽样的改进AdaBoost分类算法。该算法首先进行聚类融合,根据样本权值从每个簇中抽取一定比例的多数类和全部的少数类组成平衡数据集。使用AdaBoost算法框架,对多数类和少数类的错分类给予不同的权重调整,选择性地集成分类效果较好的几个基分类器。实验结果表明,该算法在处理不平衡数据分类上具有一定的优势。  相似文献   

8.
互联网金融中的网络贷款用户数据具有类别不平衡的特性,严重影响传统分类器的性能。随机平衡采样算法在对原始数据集进行重采样的过程中,将所有样本同等考虑,本文在平衡采样的过程中充分考虑样本点的性能,将其分为3类样本:安全的、边界的、噪声的,针对不同类型的样本采用相应的采样方法,得到平衡的新数据集,然后对该数据集进行Bagging集成,提高算法的泛化性能,结果表明本文改进的随机平衡采样(Improved Random Balanced Sampling, IRBS)Bagging算法可以较好地对网络贷款用户进行分类。  相似文献   

9.
针对现实信用评分业务中样本类别不平衡和代价敏感问题,以及金融机构更期望以得分的方式直观地认识贷款申请人的信用风险的实际需求,提出一种基于Ext-GBDT集成的类别不平衡信用评分模型。使用欠采样的方法从"好"客户(大类)中随机采样多份与全部"坏"客户(小类)等量的样本,分别与全部小类构成训练子集;用不同的训练子集及特征采样和参数扰动的方法训练得到多个差异化的Ext-GBDT子模型;然后使用简单平均法整合子模型的预测概率;最后将信用概率转换为信用评分。在UCI德国信用数据集上,以AUC和代价敏感错误率作为评价指标,与决策树、逻辑回归、朴素贝叶斯、支持向量机、随机森林及其集成模型等当前最为常用的信用评分模型进行对比,验证了该模型的有效性。  相似文献   

10.
数据不平衡现象在现实生活中普遍存在。在处理不平衡数据时,传统的机器学习算法难以达到令人满意的效果。少数类样本合成上采样技术(Synthetic Minority Oversampling Technique,SMOTE)是一种有效的方法,但在多类不平衡数据中,边界点分布错乱和类别分布不连续变得更加复杂,导致合成的样本点会侵入其他类别区域,造成数据过泛化。鉴于基于海林格距离的决策树已被证明对不平衡数据具有不敏感性,文中结合海林格距离和SMOTE,提出了一种基于海林格距离和SMOTE的上采样算法(Based on Hellinger Distance and SMOTE Oversampling Algorithm,HDSMOTE)。首先,建立基于海林格距离的采样方向选择策略,通过比较少数类样本点的局部近邻域内的海林格距离的大小,来引导合成样本点的方向。其次,设计了基于海林格距离的采样质量评估策略,以免合成的样本点侵入其他类别的区域,降低过泛化的风险。最后,采用7种代表性的上采样算法和HDSMOTE算法对15个多类不平衡数据集进行预处理,使用决策树的分类器进行分类,以Precision,Recall,F-measure,G-mean和MAUC作为评价标准对各算法的性能进行评价。实验结果表明,相比于对比算法,HDSMOTE算法在以上评价标准上均有所提升:在Precision上最高提升了17.07%,在Recall上最高提升了21.74%,在F-measure上最高提升了19.63%,在G-mean上最高提升了16.37%,在MAUC上最高提升了8.51%。HDSMOTE相对于7种代表性的上采样方法,在处理多类不平衡数据时有更好的分类效果。  相似文献   

11.
向欣  陆歌皓 《计算机应用研究》2021,38(12):3604-3610
针对现实信用评估业务中样本类别不平衡和代价敏感的情况,为降低信用风险评估的误分类损失,提出一种基于DESMID-AD动态选择的信用评估集成模型,根据每一个测试样本的特点动态地选择合适的基分类器对其进行信用预测.为提高模型对信用差客户(小类)的识别能力,在基分类器训练前使用过采样的方法对训练数据作类别平衡,采用元学习的方式基于多个指标进行基分类器的性能评估并在此阶段设计权重机制增强小类的影响.在三个公开信用评估数据集上,以AUC、一型、二型错误率以及误分类代价作为评价指标,与九种信用评估常用模型做比较,证明了该方法在信用评估领域的有效性和可行性.  相似文献   

12.
王长宝  李青雯  于化龙 《计算机科学》2017,44(12):221-226, 254
针对在样本类别分布不平衡场景下,现有的主动学习算法普遍失效及训练时间过长等问题,提出采用建模速度更快的极限学习机,即ELM(Extreme Learning Machine)作为主动学习的基分类器,并以加权ELM算法用于主动学习过程的平衡控制,进而在理论上推导了其在线学习的过程,大幅降低了主动学习的时间开销,并将最终的混合算法命名为AOW-ELM算法。通过12个基准的二类不平衡数据集验证了该算法的有效性与可行性。  相似文献   

13.
针对信贷行业信用评分业务中存在的样本类别不平衡问题,首先在信用评分各影响因素Fisher比率值分析的基础上确定主要评判指标;而后以基于支持度的过采样算法(SDSMOTE)为样例合成算法,支持向量机(SVM)为基预测器,Boosting算法为框架构建基于Fisher-SDSMOTE-ESBoostSVM的类别不平衡信用评分预测模型;并在基分类器训练结束后引入“淘汰策略”,删除未被正确分类的合成样例,重新生成正类样例并修正样例权重;最后以UCI数据库中德国信用数据集为实验样本,F-measure值和G-mean值为评价指标,对比分析Fisher-SDSMOTE-ESBoostSVM与其他集成学习算法的预测结果。实验结果表明,Fisher-SDSMOTE-ESBoostSVM算法应用到信贷行业客户信用评分预测中具有可行性和适应性,且预测准确率较高,具有一定的实际应用价值。  相似文献   

14.
不平衡数据的集成分类算法综述   总被引:1,自引:0,他引:1  
集成学习是通过集成多个基分类器共同决策的机器学习技术,通过不同的样本集训练有差异的基分类器,得到的集成分类器可以有效地提高学习效果。在基分类器的训练过程中,可以通过代价敏感技术和数据采样实现不平衡数据的处理。由于集成学习在不平衡数据分类的优势,针对不平衡数据的集成分类算法得到广泛研究。详细分析了不平衡数据集成分类算法的研究现状,比较了现有算法的差异和各自存在的优点及问题,提出和分析了有待进一步研究的问题。  相似文献   

15.
基于上交所主板市场A股企业的财务指标数据来预测企业的财务风险,样本数据包括1 227家正常上市企业和42家被财务预警的企业,数据严重不平衡,通过重采样技术解决了分类器在不平衡样本中失效的问题,运用Bagging思想的集成机器学习对预测模型进行提升与优化.正确挑选出有财务危机企业的概率最高达到92.86%,在此基础上,样...  相似文献   

16.
在现实问题中,相似性学习的样本对存在不平衡现象,即相似性样本对的数量会远小于不相似性样本对的数量.针对此问题,文中提出两种样本对构造方法——不相似K近邻-相似K近邻(DKNN-SKNN)和不相似K近邻-相似K远邻(DKNN-SKFN).运用这两种方法可有针对性地选择相似性学习样本对,不仅可加快支持向量机的训练过程,而且在一定程度上解决样本对之间的不平衡问题.在多个数据集上进行文中方法和经典的重采样方法的对比实验,结果表明DKNN-SKNN和DKNN-SKFN具有良好性能.  相似文献   

17.
多数类欠采样是当前数据层面解决不平衡数据学习的主流技术之一,近年来,研究者们提出了一系列的欠采样方法,但大多都将重点放在如何选择代表性的样本,从而降低信息损失。然而,如何在欠采样过程中保持多数类内部的结构信息,仍然是欠采样面临的主要挑战。针对该挑战,提出了一种基于构造性神经网络和全局分布密度的不平衡数据集欠采样方法。该方法首先基于构造性神经网络,设计了一种多数类局部模式的学习方法;然后基于多数类局部模式,设计了两种具有结构保持特性的样本选择策略;最后针对局部模式学习的随机性可能导致的采样结果非优的问题,进一步引入了bagging集成策略,提升了方法的性能。在59个数据集上与13种对比方法进行了对比实验,验证了所提方法在G-mean, AUC和F1-score这3个常用指标上的有效性。  相似文献   

18.
19.
提出了一种新的适用于不平衡数据集的Adaboost算法(ILAdaboost),该算法利用每一轮学习到的基分类器对原始数据集进行测试评估,并根据评估结果将原始数据集分成四个子集,然后在四个子集中重新采样形成平衡的数据集供下一轮基分类器学习,由于抽样过程中更加倾向于少数类和分错的多数类,故合成分类器的分界面会偏离少数类。该算法在UCI的10个典型不平衡数据集上进行实验,在保证多数类分类精度的同时提高了少数类的分类精度以及GMA。  相似文献   

20.
为解决临床医学量表数据类别不均衡容易对模型产生影响,以及在处理量表数据任务时深度学习框架性能难以媲美传统机器学习方法问题,提出了一种基于级联欠采样的Transformer网络模型(layer by layer Transformer, LLT)。LLT通过级联欠采样方法对多数类数据逐层删减,实现数据类别平衡,降低数据类别不均衡对分类器的影响,并利用注意力机制对输入数据的特征进行相关性评估实现特征选择,细化特征提取能力,改善模型性能。采用类风湿关节炎(RA)数据作为测试样本,实验证明,在不改变样本分布的情况下,提出的级联欠采样方法对少数类别的识别率增加了6.1%,与常用的NEARMISS和ADASYN相比,分别高出1.4%和10.4%;LLT在RA量表数据的准确率和F1-score指标上达到了72.6%和71.5%,AUC值为0.89,mAP值为0.79,性能超过目前RF、XGBoost和GBDT等主流量表数据分类模型。最后对模型过程进行可视化,分析了影响RA的特征,对RA临床诊断具有较好的指导意义。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号