首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
多分类问题代价敏感AdaBoost算法   总被引:8,自引:2,他引:6  
付忠良 《自动化学报》2011,37(8):973-983
针对目前多分类代价敏感分类问题在转换成二分类代价敏感分类问题存在的代价合并问题, 研究并构造出了可直接应用于多分类问题的代价敏感AdaBoost算法.算法具有与连续AdaBoost算法 类似的流程和误差估计. 当代价完全相等时, 该算法就变成了一种新的多分类的连续AdaBoost算法, 算法能够确保训练错误率随着训练的分类器的个数增加而降低, 但不直接要求各个分类器相互独立条件, 或者说独立性条件可以通过算法规则来保证, 但现有多分类连续AdaBoost算法的推导必须要求各个分类器相互独立. 实验数据表明, 算法可以真正实现分类结果偏向错分代价较小的类, 特别当每一类被错分成其他类的代价不平衡但平均代价相等时, 目前已有的多分类代价敏感学习算法会失效, 但新方法仍然能 实现最小的错分代价. 研究方法为进一步研究集成学习算法提供了一种新的思路, 得到了一种易操作并近似满足分类错误率最小的多标签分类问题的AdaBoost算法.  相似文献   

2.
阮晓宏  黄小猛  袁鼎荣  段巧灵 《计算机科学》2013,40(Z11):140-142,146
代价敏感学习方法常常假设不同类型的代价能够被转换成统一单位的同种代价,显然构建适当的代价敏感属性选择因子是个挑战。设计了一种新的异构代价敏感决策树分类器算法,该算法充分考虑了不同代价在分裂属性选择中的作用,构建了一种基于异构代价的分裂属性选择模型,设计了基于代价敏感的剪枝标准。实验结果表明,该方法处理代价机制和属性信息的异质性比现有方法更有效。  相似文献   

3.
基于传统模型的实际分类问题,不均衡分类是一个常见的挑战问题。由于传统分类器较难学习少数类数据集内部的本质结构,导致更多地偏向于多数类,从而使少数类样本被误分为多数类样本。与此同时,样本集中的冗余数据和噪音数据也会对分类器造成困扰。为有效处理上述问题,提出一种新的不均衡分类框架SSIC,该框架充分考虑数据统计特性,自适应从大小类中选取有价值样本,并结合代价敏感学习构建不均衡数据分类器。首先,SSIC通过组合部分多数类实例和所有少数类实例来构造几个平衡的数据子集。在每个子集上,SSIC充分利用数据的特征来提取可区分的高级特征并自适应地选择重要样本,从而可以去除冗余噪声数据。其次,SSIC通过在每个样本上自动分配适当的权重来引入一种代价敏感的支持向量机(SVM),以便将少数类视为与多数类相等。  相似文献   

4.
多标签代价敏感分类集成学习算法   总被引:12,自引:2,他引:10  
付忠良 《自动化学报》2014,40(6):1075-1085
尽管多标签分类问题可以转换成一般多分类问题解决,但多标签代价敏感分类问题却很难转换成多类代价敏感分类问题.通过对多分类代价敏感学习算法扩展为多标签代价敏感学习算法时遇到的一些问题进行分析,提出了一种多标签代价敏感分类集成学习算法.算法的平均错分代价为误检标签代价和漏检标签代价之和,算法的流程类似于自适应提升(Adaptive boosting,AdaBoost)算法,其可以自动学习多个弱分类器来组合成强分类器,强分类器的平均错分代价将随着弱分类器增加而逐渐降低.详细分析了多标签代价敏感分类集成学习算法和多类代价敏感AdaBoost算法的区别,包括输出标签的依据和错分代价的含义.不同于通常的多类代价敏感分类问题,多标签代价敏感分类问题的错分代价要受到一定的限制,详细分析并给出了具体的限制条件.简化该算法得到了一种多标签AdaBoost算法和一种多类代价敏感AdaBoost算法.理论分析和实验结果均表明提出的多标签代价敏感分类集成学习算法是有效的,该算法能实现平均错分代价的最小化.特别地,对于不同类错分代价相差较大的多分类问题,该算法的效果明显好于已有的多类代价敏感AdaBoost算法.  相似文献   

5.
一种新的代价敏感分类方法   总被引:1,自引:0,他引:1  
代价敏感学习(cost-sensitive learning)是指在机器学习的过程中考虑不同的误判(misclassification)带来的不同的代价(cost).论文将一项最新的贝叶斯分类研究成果应用到代价敏感学习中,提出了一种新的称之为代价敏感隐藏朴素贝叶斯分类算法.实验表明该方法比另一种典型的代价敏感算法更有效.  相似文献   

6.
不平衡多分类问题的连续AdaBoost算法研究   总被引:1,自引:0,他引:1  
现有AdaBoost系列算法一般没有考虑类的先验分布.针对该问题,基于最小化训练错误率,通过把符号函数表示的训练错误率的极值问题转变成一种指数函数的极值问题,提出了不平衡分类问题连续 AdaBoost算法,给出了该算法的近似误差估计.基于同样的方法,对二分类问题连续AdaBoost算法的合理性给出了一种全新的解释和证明,并推广到多分类问题,得到了多分类问题连续AdaBoost算法,其具有与二分类连续AdaBoost算法完全类似的算法流程.经分析该算法与Bayes统计推断方法等价,并且其训练错误率随着训练的分类器个数增加而减小.理论分析和基于UCI数据集的实验结果表明了不平衡多分类算法的有效性.在连续AdaBoost算法中,不平衡分类问题常被转换成平衡分类问题来处理,但当先验分布极度不平衡时,使用提出的不平衡分类问题连续AdaBoost算法比一般连续AdaBoost算法有更好效果.  相似文献   

7.
Tan  Ming 《Machine Learning》1993,13(1):7-33
Traditional learning-from-examples methods assume that examples are given beforehand and all features are measured for each example. However, in many robotic domains the number of features that could be measured is very large, the cost of measuring those features is significant, and thus the robot must judiciously select which features it will measure. Finding a proper tradeoff between theaccuracy (e.g., number of prediction errors) andefficiency (e.g., cost of measuring features) during learning (prior to convergence) is an important part of the problem. Inspired by such robotic domains, this article considers realistic measurement costs of features in the process of incremental learning of classification knowledge. It proposes a unified framework for learning-from-examples methods that trade off accuracy for efficiency during learning, and analyzes two methods (CS-ID3 and CS-IBL) in detail. Moreover, this article illustrates the application of such a cost-sensitive-learning method to a real robot designed for anapproach-recognize task. The resulting robot learns to approach, recognize, and grasp objects on a floor effectively and efficiently. Experimental results show that highly accurate classification procedures can be learned without sacrificing efficiency in the case of both synthetic and real domains.  相似文献   

8.
在面向大数据问题的应用领域中,由于现实世界的多样性和复杂性,经常会遇到大规模的多类别数据挖掘问题,传统的多分类方法一方面存在着超平面不平衡更新的问题,另一方面学习效率较低,对于复杂的多类别数据无法进行高效分类。针对这个问题,本文提出了一种改进的动态主动多分类(Dynamical active multiple classification, DYA)方法,该方法通过将死锁、激活等概念引入到主动多分类过程,在主动多分类过程中随着分类器的不断更新,动态地控制样本是否参与主动学习的过程;同时,采用分位计数、轮换学习方式的主动多分类方法,使得多类别的分类器能够得到平衡的学习和更新。实验结果表明,本文提出的动态主动多分类方法有效提高了模型的学习效率和泛化性能。  相似文献   

9.
一种用于图像分类的多视觉短语学习方法   总被引:2,自引:0,他引:2  
针对词袋图像表示模型的语义区分性和描述能力有限的问题,以及由于传统的基于词袋模型的分类方法性能容易受到图像中背景、遮挡等因素影响的问题,本文提出了一种用于图像分类的多视觉短语学习方法.通过构建具有语义区分性和空间相关性的视觉短语取代视觉单词,以改善图像的词袋模型表示的准确性.在此基础上,结合多示例学习思想,提出一种多视觉短语学习方法,使最终的分类模型能反映图像类别的区域特性.在一些标准测试集合如Calrech-101[1]和Scene-15[2]上的实验结果验证了本文所提方法的有效性,分类性能分别相对提高了约9%和7%.  相似文献   

10.
非平衡类数据分类概述   总被引:2,自引:0,他引:2  
本文对非平衡类数据分类问题进行了概述。首先在简单介绍非平衡类数据基本概念的基础上,分析了非平衡类数据引起的问题及其导致分类性能下降的原因;然后介绍了目前主要的解决方法,分析了现有处理方法的优缺点;最后讨论了未来的研究方向。  相似文献   

11.
软件缺陷预测是提高软件测试效率,保证软件可靠性的重要途径。考虑到软件缺陷预测模型对软件模块错误分类代价的不同,提出了代价敏感分类的软件缺陷预测模型构建方法。针对代码属性度量数据,采用Bagging方式有放回地多次随机抽取训练样本来构建代价敏感分类的决策树基分类器,然后通过投票的方式集成后进行软件模块的缺陷预测,并给出模型构建过程中代价因子最优值的判定选择方法。使用公开的NASA软件缺陷预测数据集进行仿真实验,结果表明该方法在保证缺陷预测率的前提下,误报率明显降低,综合评价指标AUC和F值均优于现有方法。  相似文献   

12.
The last decade has seen an increase in the attention paid to the development of cost-sensitive learning algorithms that aim to minimize misclassification costs while still maintaining accuracy. Most of this attention has been on cost-sensitive decision tree learning, whereas relatively little attention has been paid to assess if it is possible to develop better cost-sensitive classifiers based on Bayesian networks. Hence, this paper presents EBNO, an algorithm that utilizes Genetic algorithms to learn cost-sensitive Bayesian networks, where genes are utilized to represent the links between the nodes in Bayesian networks and the expected cost is used as a fitness function. An empirical comparison of the new algorithm has been carried out with respect to (a) an algorithm that induces cost-insensitive Bayesian networks to provide a base line, (b) ICET, a well-known algorithm that uses Genetic algorithms to induce cost-sensitive decision trees, (c) use of MetaCost to induce cost-sensitive Bayesian networks via bagging (d) use of AdaBoost to induce cost-sensitive Bayesian networks, and (e) use of XGBoost, a gradient boosting algorithm, to induce cost-sensitive decision trees. An empirical evaluation on 28 data sets reveals that EBNO performs well in comparison with the algorithms that produce single interpretable models and performs just as well as algorithms that use bagging and boosting methods.  相似文献   

13.
韩乐  黎铭 《软件学报》2014,25(9):1982-1991
随着开源软件数量的增多,从开源软件社区中有效检索到所需的开源软件是具有挑战性的工作.现有方法通常是:首先,人工给每个软件赋予多个描述其功能、用途的标注;然后,通过关键词匹配寻找用户所需的软件.由于其简单、方便,基于标注进行软件检索得到了广泛的应用.然而,用户通常不愿意主动为其上载的开源软件提供标注,这使得根据用户上载软件的文字描述信息,从众多备选软件标注中为其自动选择能够表征其功能、用途的标注,成为了有效检索该软件的关键.把开源软件自动标注形式化为一个代价敏感多标记学习问题,并提出了一种新型代价敏感多标记学习方法ML-CKNN.该方法通过在多标记学习中引入代价信息,有效缓解了对每一个标注而言具有该标注的示例与不具有该标注的示例分布非均衡性给多标记学习造成的影响.在3个开源软件社区上的实验结果表明:所提出的ML-CKNN方法能够为新上载的开源软件提供高质量的标注,其标注性能显著优于现有方法.  相似文献   

14.
Multi-Domain Sentiment Classification with Classifier Combination   总被引:1,自引:0,他引:1       下载免费PDF全文
State-of-the-arts studies on sentiment classification are typically domain-dependent and domain-restricted.In this paper,we aim to reduce domain dependency and improve overall performance simultaneously by proposing an efficient multi-domain sentiment classification algorithm.Our method employs the approach of multiple classifier combination.In this approach,we first train single domain classifiers separately with domain specific data,and then combine the classifiers for the final decision.Our experiments show that this approach performs much better than both single domain classification approach(using the training data individually) and mixed domain classification approach(simply combining all the training data).In particular,classifier combination with weighted sum rule obtains an average error reduction of 27.6%over single domain classification.  相似文献   

15.
传统的基于端口的流量分类方法和基于DPI技术的流量分类方法由于P2P技术和加密技术的流行而开始失效。基于网络流特征及机器学习的流量分类方法因为克服了上述弊端而成为了流量分类领域的研究热点。实际网络环境中,“大象流”和“老鼠流”在数量和传输字节量等方面存在着严重的不平衡,降低了基于机器学习流量分类方法的实际分类效果。针对...  相似文献   

16.
不平衡数据的集成分类算法综述   总被引:1,自引:0,他引:1  
集成学习是通过集成多个基分类器共同决策的机器学习技术,通过不同的样本集训练有差异的基分类器,得到的集成分类器可以有效地提高学习效果。在基分类器的训练过程中,可以通过代价敏感技术和数据采样实现不平衡数据的处理。由于集成学习在不平衡数据分类的优势,针对不平衡数据的集成分类算法得到广泛研究。详细分析了不平衡数据集成分类算法的研究现状,比较了现有算法的差异和各自存在的优点及问题,提出和分析了有待进一步研究的问题。  相似文献   

17.
冀中  孙涛  于云龙 《软件学报》2017,28(11):2961-2970
零样本分类的目标是对训练阶段未出现过的类别的样本进行识别和分类,其主要思路是,借助类别语义信息,将可见类别的知识转移到未见类别中.提出了一种直推式的字典学习方法,包含以下两个步骤:首先,提出一个判别字典学习模型,对带标签的可见类别样本的视觉特征和类别语义特征建立映射关系模型;然后,针对可见类别和未见类别不同引起的域偏移问题,提出了一个基于直推学习的修正模型.通过在3个基准数据集(AwA,CUB和SUN)上的实验结果,证明了该方法的有效性和先进性.  相似文献   

18.
为了解决文本分类任务中未标注数据无法即时标注及成本过高的问题,提出一种面向文本分类的不确定性主动学习方法.提出MSDL(Measure sample density by LDA)算法对未标注样本密集度进行计算,引入新的度量样本聚集情况的密集度计算方式,在密集度高的样本区域选取初始训练集样本,从而使初始训练集更具代表性...  相似文献   

19.
This article provides a characterization of bias for evaluation metrics in classification (e.g., Information Gain, Gini, χ2, etc.). Our characterization provides a uniform representation for all traditional evaluation metrics. Such representation leads naturally to a measure for the distance between the bias of two evaluation metrics. We give a practical value to our measure by observing the distance between the bias of two evaluation metrics and its correlation with differences in predictive accuracy when we compare two versions of the same learning algorithm that differ in the evaluation metric only. Experiments on real-world domains show how the expectations on accuracy differences generated by the distance-bias measure correlate with actual differences when the learning algorithm is simple (e.g., search for the best single feature or the best single rule). The correlation, however, weakens with more complex algorithms (e.g., learning decision trees). Our results show how interaction among learning components is a key factor to understand learning performance.  相似文献   

20.
多示例学习以示例组成的包作为训练样本,学习的目的是预测新包的类型。从分类角度上,处理问题的策略类似于以均质对象为基本处理单元的面向对象影像分类。针对两者之间理论和方法相似性,将多样性密度多示例学习算法与面向对象方法相结合用于高分辨率遥感图像分类。以图像分割方法获取均值对象作为示例,利用多样性密度算法对样本包进行学习获取最大多样性密度示例,最后根据相似性最大准则对单示例包或是经聚类算法得到的新包进行类别标记,以获取最终分类结果。通过与SVM分类器的比较,发现多样性密度算法的平均分类精度都在70%以上,最高可达96%左右,且对小样本问题学习能力更强,结果表明多示例学习在遥感图像分类中有着广泛应用前景。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号