首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
2.
不平衡数据的集成分类算法综述   总被引:1,自引:0,他引:1  
集成学习是通过集成多个基分类器共同决策的机器学习技术,通过不同的样本集训练有差异的基分类器,得到的集成分类器可以有效地提高学习效果。在基分类器的训练过程中,可以通过代价敏感技术和数据采样实现不平衡数据的处理。由于集成学习在不平衡数据分类的优势,针对不平衡数据的集成分类算法得到广泛研究。详细分析了不平衡数据集成分类算法的研究现状,比较了现有算法的差异和各自存在的优点及问题,提出和分析了有待进一步研究的问题。  相似文献   

3.
向伟  王新维 《计算机科学》2020,47(5):103-109
不平衡数据分类是一种重要的数据分类问题。对于不平衡数据中规模较小的类,传统的分类算法的分类效果较差。对此,提出一种多类邻域三支决策模型的不平衡数据分类算法。首先,将传统的三支决策在混合数据和多个类的情形下进行推广,提出了混合数据的多类邻域三支决策模型;然后,在该模型中给出一种自适应代价函数的设定方法,并基于该方法提出了多类邻域三支决策模型的不平衡数据分类算法。仿真实验的结果表明,所提出的分类算法对于不平衡数据具有更好的分类性能。  相似文献   

4.
情感分类一直是自然语言处理任务中重要的研究热点,并在电子商务评论、热点论坛、公共舆论等众多场景中广泛应用。如何提高情感分类模型性能仍是情感分析领域的重点研究问题。集成学习是通过联合若干分类器达到提高模型总体效果的有效方法。基于粒计算和三支决策思想,并结合集成学习的优势,构建了结合集成学习的多粒度序贯三支决策模型。通过N-gram语言模型构建文本多粒度结构,形成序贯三支情感分类基础;在每一粒度下,集成三个分类算法以提高在该粒度下的分类效果;通过4个数据集对所提出方法进行了实验验证。结果证明,该方法不仅可以提高整体分类效果,还可以降低分类成本。  相似文献   

5.
张刚强  刘群  纪良浩 《计算机科学》2018,45(12):153-159
如何对评论数据进行正确的情感分类是情感分析中的重要研究内容。从粒计算和认知学角度,提出了一种基于序贯三支决策的多粒度中文评论情感分类方法。首先,基于评论数据集的特点,根据评论中情感信息量的多少,提出一种由粗到细的多粒度情感信息表示方法;然后,结合序贯三支决策的思想在不同粒度依据情感信息进行逐步计算,对边界域评论序贯地进行三支决策;最后,根据不同粒度的决策阈值和成本对评论做出最终的情感分类。对比实验结果表明,该方法在3个经典评论数据集上获得了更好的结果,具有更高的分类正确率和更强的鲁棒性。  相似文献   

6.
不平衡多分类问题的连续AdaBoost算法研究   总被引:1,自引:0,他引:1  
现有AdaBoost系列算法一般没有考虑类的先验分布.针对该问题,基于最小化训练错误率,通过把符号函数表示的训练错误率的极值问题转变成一种指数函数的极值问题,提出了不平衡分类问题连续 AdaBoost算法,给出了该算法的近似误差估计.基于同样的方法,对二分类问题连续AdaBoost算法的合理性给出了一种全新的解释和证明,并推广到多分类问题,得到了多分类问题连续AdaBoost算法,其具有与二分类连续AdaBoost算法完全类似的算法流程.经分析该算法与Bayes统计推断方法等价,并且其训练错误率随着训练的分类器个数增加而减小.理论分析和基于UCI数据集的实验结果表明了不平衡多分类算法的有效性.在连续AdaBoost算法中,不平衡分类问题常被转换成平衡分类问题来处理,但当先验分布极度不平衡时,使用提出的不平衡分类问题连续AdaBoost算法比一般连续AdaBoost算法有更好效果.  相似文献   

7.
在处理高度不平衡数据时,代价敏感随机森林算法存在自助法采样导致小类样本学习不充分、大类样本占比较大、容易削弱代价敏感机制等问题.文中通过对大类样本聚类后,多次采用弱平衡准则对每个集群进行降采样,使选择的大类样本与原训练集的小类样本融合生成多个新的不平衡数据集,用于代价敏感决策树的训练.由此提出基于聚类的弱平衡代价敏感随机森林算法,不仅使小类样本得到充分学习,同时通过降低大类样本数量,保证代价敏感机制受其影响较小.实验表明,文中算法在处理高度不平衡数据集时性能较优.  相似文献   

8.
郑燕  王杨  郝青峰  甘振韬 《计算机应用》2014,34(5):1336-1340
传统的超网络模型在处理不平衡数据分类问题时,具有很大的偏向性,正类的识别率远远高于负类。为此,提出了一种代价敏感超网络Boosting集成算法。首先,将代价敏感学习引入超网络模型,提出了代价敏感的超网络模型;同时,为了使算法能够自适应正类的错分代价,采用Boosting算法对代价敏感超网络进行集成。代价敏感超网络能很好地修正传统的超网络在处理不平衡数据分类问题时过分偏向正类的缺陷,提高对负类的分类准确性。实验结果表明,代价敏感超网络Boosting集成算法具有处理不平衡数据分类问题的优势。  相似文献   

9.
基于代价敏感学习的极限学习机(ELM)算法在处理不平衡数据分类问题时,未考虑不同类别样本的分布特点以及同一类别中各样本的重要性对分类结果的影响。为此,提出基于样本数量比例的错分惩罚因子设置方法,并基于Mini-batch k-means聚类与距离测度设计一种类内样本权值确定方案。在此基础上,构建区分正、负类别的隐含层输出矩阵,根据训练样本数与ELM隐含层节点数间的关系,分2种情况计算ELM隐含层与输出层间的连接权值,以降低算法的时间复杂度。实验结果表明,与ELM、WELM等算法相比,该算法的G-mean、F1分类性能指标值均较高。  相似文献   

10.
在现实决策中,代价敏感问题是影响人类决策的重要因素之一,许多研究者致力于降低决策的代价。现阶段,在粗糙集领域中,研究者多基于DTRS模型且仅考虑某一种代价,不够全面。针对以上问题,利用序贯三支决策模型对两种代价的敏感性,通过多层次粒结构可以有效降低决策总代价,且能够更好地模拟人类动态渐进的决策过程。在序贯三支决策模型的基础上,构造了多层次粒结构;将各个属性的测试代价与其分类能力相关联,从信息熵的角度为其设置测试代价;与此同时,将属性约简与序贯三支决策相结合,利用基于代价最小准则的属性约简去除冗余属性及不相关属性对代价的影响。在7个UCI数据集上的实验结果显示,在保证较高准确度的同时,决策的总代价平均下降了26%左右,充分验证了该方法的有效性。  相似文献   

11.
数据分布的不平衡性和数据特征的非线性增加了分类的困难,特别是难以识别不平衡数据中的少数类,从而影响整体的分类效果。针对该问题,结合KFDA(kernel fisher discriminant analysis)能有效提取样本非线性特征的特性和集成学习中Boosting算法的思想,提出了KFDA-Boosting算法。为了验证该算法对不平衡数据分类的有效性和优越性,以G-mean值、少数类的查准率与查全率作为分类效果的评价指标,选取了UCI中10个数据集测试KFDA-Boosting算法性能,并与支持向量机等六种分类算法进行对比实验。结果表明,对于不平衡数据分类,尤其是对不平衡度较大或呈非线性特征的数据,相比于其他分类算法,KFDA-Boosting算法能有效地识别少数类,并且在整体上具有显著的分类效果和较好的稳定性。  相似文献   

12.
In the class imbalanced learning scenario, traditional machine learning algorithms focusing on optimizing the overall accuracy tend to achieve poor classification performance especially for the minority class in which we are most interested. To solve this problem, many effective approaches have been proposed. Among them, the bagging ensemble methods with integration of the under-sampling techniques have demonstrated better performance than some other ones including the bagging ensemble methods integrated with the over-sampling techniques, the cost-sensitive methods, etc. Although these under-sampling techniques promote the diversity among the generated base classifiers with the help of random partition or sampling for the majority class, they do not take any measure to ensure the individual classification performance, consequently affecting the achievability of better ensemble performance. On the other hand, evolutionary under-sampling EUS as a novel undersampling technique has been successfully applied in searching for the best majority class subset for training a good-performance nearest neighbor classifier. Inspired by EUS, in this paper, we try to introduce it into the under-sampling bagging framework and propose an EUS based bagging ensemble method EUS-Bag by designing a new fitness function considering three factors to make EUS better suited to the framework. With our fitness function, EUS-Bag could generate a set of accurate and diverse base classifiers. To verify the effectiveness of EUS-Bag, we conduct a series of comparison experiments on 22 two-class imbalanced classification problems. Experimental results measured using recall, geometric mean and AUC all demonstrate its superior performance.  相似文献   

13.
目前数据流分类算法大多是基于类分布这一理想状态,然而在真实数据流环境中数据分布往往是不均衡的,并且数据流中往往伴随着概念漂移。针对数据流中的不均衡问题和概念漂移问题,提出了一种新的基于集成学习的不均衡数据流分类算法。首先为了解决数据流的不均衡问题,在训练模型前加入混合采样方法平衡数据集,然后采用基分类器加权和淘汰策略处理概念漂移问题,从而提高分类器的分类性能。最后与经典数据流分类算法在人工数据集和真实数据集上进行对比实验,实验结果表明,本文提出的算法在含有概念漂移和不均衡的数据流环境中,其整体分类性能优于其他算法的。  相似文献   

14.
One of the most widely used approaches to the class-imbalanced issue is ensemble learning. The base classifier is trained using an unbalanced training set in the conventional ensemble learning approach. We are unable to select the best suitable resampling method or base classifier for the training set, despite the fact that researchers have examined employing resampling strategies to balance the training set. A multi-armed bandit heterogeneous ensemble framework was developed as a solution to these issues. This framework employs the multi-armed bandit technique to pick the best base classifier and resampling techniques to build a heterogeneous ensemble model. To obtain training sets, we first employ the bagging technique. Then, we use the instances from the out-of-bag set as the validation set. In general, we consider the basic classifier combination with the highest validation set score to be the best model on the bagging subset and add it to the pool of model. The classification performance of the multi-armed bandit heterogeneous ensemble model is then assessed using 30 real-world imbalanced data sets that were gathered from UCI, KEEL, and HDDT. The experimental results demonstrate that, under the two assessment metrics of AUC and Kappa, the proposed heterogeneous ensemble model performs competitively with other nine state-of-the-art ensemble learning methods. At the same time, the findings of the experiment are confirmed by the statistical findings of the Friedman test and Holm's post-hoc test.  相似文献   

15.
不平衡数据集的分类方法研究   总被引:2,自引:0,他引:2  
传统的分类算法在处理不平衡数据分类问题时会倾向于多数类,而导致少数类的分类精度较低。针对不平衡数据的分类,首先介绍了现有不平衡数据分类的性能评价;然后介绍了现有常用的基于数据采样的方法及现有的分类方法;最后介绍了基于数据采样和分类方法结合的综合方法。  相似文献   

16.
针对非平衡数据分类问题,提出了一种改进的SVM-KNN分类算法,在此基础上设计了一种集成学习模型.该模型采用限数采样方法对多数类样本进行分割,将分割后的多数类子簇与少数类样本重新组合,利用改进的SVM-KNN分别训练,得到多个基本分类器,对各个基本分类器进行组合.采用该模型对UCI数据集进行实验,结果显示该模型对于非平衡数据分类有较好的效果.  相似文献   

17.
详细介绍了国内外集成分类算法,对集成分类算法的两个部分(基分类器组合和动态更新集成模型)进行了详细综述,明确区分不同集成算法的优缺点,对比算法和实验数据集。并且提出进一步的研究方向和考虑的解决办法。  相似文献   

18.
一种用于不平衡数据分类的改进AdaBoost算法   总被引:3,自引:1,他引:3  
真实世界中存在大量的类别不平衡分类问题,传统的机器学习算法如AdaBoost算法,关注的是分类器的整体性能,而没有给予小类更多的关注。因此针对类别不平衡学习算法的研究是机器学习的一个重要方向。AsymBoost作为AdaBoost的一种改进算法,用于类别不平衡学习时,牺牲大类样本的识别精度来提高小类样本的分类性能。AsymBoost算法依然可能遭遇样本权重过大造成的过适应问题。据此提出了一种新型的AdaBoost改进算法。该方法通过对大类中分类困难样本的权重和标签进行处理,使分类器能够同时获得较好的查准率和查全率。实验结果表明,该方法可以有效提高在不平衡数据集上的分类性能。  相似文献   

19.
现实生活中存在大量的非平衡数据,大多数传统的分类算法假定类分布平衡或者样本的错分代价相同,因此在对这些非平衡数据进行分类时会出现少数类样本错分的问题。针对上述问题,在代价敏感的理论基础上,提出了一种新的基于代价敏感集成学习的非平衡数据分类算法--NIBoost(New Imbalanced Boost)。首先,在每次迭代过程中利用过采样算法新增一定数目的少数类样本来对数据集进行平衡,在该新数据集上训练分类器;其次,使用该分类器对数据集进行分类,并得到各样本的预测类标及该分类器的分类错误率;最后,根据分类错误率和预测的类标计算该分类器的权重系数及各样本新的权重。实验采用决策树、朴素贝叶斯作为弱分类器算法,在UCI数据集上的实验结果表明,当以决策树作为基分类器时,与RareBoost算法相比,F-value最高提高了5.91个百分点、G-mean最高提高了7.44个百分点、AUC最高提高了4.38个百分点;故该新算法在处理非平衡数据分类问题上具有一定的优势。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号