首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 93 毫秒
1.
在文本分类研究中,集成学习是一种提高分类器性能的有效方法.Bagging算法是目前流行的一种集成学习算法.针对Bagging算法弱分类器具有相同权重问题,提出一种改进的Bagging算法.该方法通过对弱分类器分类结果进行可信度计算得到投票权重,应用于Attribute Bagging算法设计了一个中文文本自动分类器.采用kNN作为弱分类器基本模型对Sogou实验室提供的新闻集进行分类.实验表明该算法比Attribute Bagging有更好的分类精度.  相似文献   

2.
提出一个文本分类器性能评价模型,对文本分类结果的可信度进行了估计,给出计算可信度的公式。将每一个子分类器的可信度指标用于Bagging集成学习算法,得到了改进的基于子分类器性能评价的Bagging算法(PBagging)。应用支持向量机作为子分类器基本模型,对日本共同社大样本新闻集进行分类。实验表明,与Bagging算法相比,PBagging算法分类准确率有了明显提高。  相似文献   

3.
为解决多分类器融合过程中时间开销大和准确率不高的问题,采用改进的Bagging方法并结合MapReduce技术,提出了一种基于选择性集成的并行多分类器融合方法PMCF-SE。该方法基于MapReduce并行计算架构。在Map阶段,选择分类效果较好的基分类器;在Reduce阶段,从所选的基分类器中选择差异性较大的基分类器,然后采用D-S证据理论融合被选的基分类器。实验结果表明,在执行效率方面,与单机环境相比,集群环境下该方法的执行效率有所提高;在分类准确率方面,与Bagging算法相比,PMCF-SE在不同的基分类器数目下的分类准确率都高于Bagging算法。  相似文献   

4.
提出一种基于Bagging算法和SVM的步态识别方法。首先应用背景差分法分割出运动人体轮廓,然后将人体分为多个可变区域,并通过计算获取特征向量。采用SVM分类器进行分类识别,为了提高SVM的识别率,采用Bagging算法对分类结果进行分类集成,实验结果表明,该算法取得了很好地识别性能。  相似文献   

5.
受级联结构的启示,提出了一种针对不平衡数据集分类的新方法,基于级联结构的Bagging分类方法。该方法通过在每一级剔除一部分多数类样本的方式使数据集逐步趋于平衡,并应用欠取样技术得到训练集,用Bagging算法训练分类器,最后把每一级训练到的分类器集成为一个新的分类器。在10个UCI数据集上的实验结果表明,该方法在查全率和F-value值上优于Bagging和AdaBoost。  相似文献   

6.
丁要军 《计算机应用》2015,35(12):3348-3351
针对不平衡网络流量分类精度不高的问题,在旋转森林算法的基础上结合Bagging算法的Bootstrap抽样和基于分类精度排序的基分类器选择算法,提出一种改进的旋转森林算法。首先,对原始训练集按特征进行子集划分并分别使用Bagging进行样本抽样,通过主成分分析(PCA)生成主成分系数矩阵;然后,在原始训练集和主成分系数矩阵的基础上进行特征转换,生成新的训练子集,再次使用Bagging对子集进行抽样,提升训练集的差异性,并使用训练子集训练C4.5基分类器;最后,使用测试集评价基分类器,依据总体分类精度进行排序筛选,保留分类精度较高的分类器并生成一致分类结果。在不平衡网络流量数据集上进行测试实验,依据准确率和召回率两个标准对C4.5、Bagging、旋转森林和改进的旋转森林四种算法评价,依据模型训练时间和测试时间评价四种算法的时间效率。实验结果表明改进的旋转森林算法对万维网(WWW)协议、Mail协议、Attack协议、对等网(P2P)协议的分类准确度达到99.5%以上,召回率也高于旋转森林、Bagging、C4.5三种算法,可用于网络入侵取证、维护网络安全、提升网络服务质量。  相似文献   

7.
尹光  朱玉全  陈耿 《计算机工程》2012,38(8):167-169
为提高集成分类器系统的分类性能,提出一种分类器选择集成算法MCC-SCEN。该算法选取基分类器集中具有最大互信息差异性的子集和最大个体分类能力的子集,以确定待扩展分类器集,选择具有较大混合分类能力的基分类器加入到待扩展集中,构成集成系统,进行加权投票并产生结果。实验结果表明,该方法优于经典的AdaBoost和Bagging方法,具有较高的分类准确率。  相似文献   

8.
类别不平衡问题广泛存在于现实生活中,多数传统分类器假定类分布平衡或误分类代价相等,因此类别不平衡数据严重影响了传统分类器的分类性能。针对不平衡数据集的分类问题,提出了一种处理不平衡数据的概率阈值Bagging分类方法-PT Bagging。将阈值移动技术与Bagging集成算法结合起来,在训练阶段使用原始分布的训练集进行训练,在预测阶段引入决策阈值移动方法,利用校准的后验概率估计得到对不平衡数据分类的最大化性能测量。实验结果表明,PT Bagging算法具有更好的处理不平衡数据的分类优势。  相似文献   

9.
为了提高遥感影像分类精度,从抽象级和测量级的两个层次出发,提出混合多分类器结合算法。该算法利用不同子分类器的分类结果及对各类别的分类精度,设定单个类别精度的阈值,选择最优子分类器,得到部分类别的最终分类结果;然后使用基于抽象级Bagging算法和测量级上的最大置信度进行多分类器结合。该算法应用于北京1号遥感影像的分类研究,结果表明该算法的总体精度和单个类别的分类精度比选用的子分类器都有明显的提高,是一种新的有效算法。  相似文献   

10.
针对字符识别对象的多样性,提出了一种基于Bagging集成的字符识别模型,解决了识别模型对部分字符识别的偏好现象。采用Bagging采样策略形成不同的数据子集,在此基础上用决策树算法训练形成多个基分类器,用多数投票机制对基分类器预测结果集成输出。理论分析与仿真实验结果表明,所提模型相比其他分类方法具有更好的分类能力。  相似文献   

11.
关于AdaBoost有效性的分析   总被引:13,自引:1,他引:12  
在机器学习领域,弱学习定理指明只要能够寻找到比随机猜测略好的弱学习算法,则可以通过一定方式,构造出任意误差精度的强学习算法.基于该理论下最常用的方法有AdaBoost和Bagging.AdaBoost和Bagging的误差分析还不统一;AdaBoost使用的训练误差并不是真正的训练误差,而是基于样本权值的一种误差,是否合理需要解释;确保AdaBoost有效的条件也需要有直观的解释以便使用.在调整Bagging错误率并采取加权投票法后,对AdaBoost和Bagging的算法流程和误差分析进行了统一,在基于大数定理对弱学习定理进行解释与证明基础之上,对AdaBoost的有效性进行了分析.指出AdaBoost采取的样本权值调整策略其目的是确保正确分类样本分布的均匀性,其使用的训练误差与真正的训练误差概率是相等的,并指出了为确保AdaBoost的有效性在训练弱学习算法时需要遵循的原则,不仅对AdaBoost的有效性进行了解释,还为构造新集成学习算法提供了方法.还仿照AdaBoost对Bagging的训练集选取策略提出了一些建议.  相似文献   

12.
在集成算法中,Bagging算法能够在回归预测中有效地减少方差,但在减少偏置方面却没有明显的效果.针对这一问题,提出一种迭代Bagging回归算法,在每个独立阶段的学习中通过Bagging算法和个体学习机初始权值的随机化设置来减小方差;同时,又通过减小方差后的回归残差进行多个阶段的迭代计算,并将各阶段结果叠加,在减小方差的同时达到偏置的减小,从而使得泛化误差更大程度的减小,得到更精确的预测结果.通过对标准数据集和实际数据的仿真实验证明,此方法可以达到比单纯Bagging算法更好的回归预测效果.  相似文献   

13.
张震  胡捍英 《计算机工程》2005,31(15):160-161,171
提出了用于增强kNN的属性Bagging(ABagging),ABagging通过对属性重抽样而不是对训练实例重抽样来获得多个训练集。kNN对于属性重抽样不稳定,因而ABagging能有效降低kNN的错误率。ABaggingkNN对于不相关属性也有比kNN强得多的抵抗力。另外Abagging kNN的速度也比Bagging kNN更快。用UCI数据集证明了ABagging kNN的有效性。  相似文献   

14.
提出基于神经网络集成算法的思维脑电信号分类方法,采用BP神经网络为分类器,对用AR参数提取的思维脑电特征进行分类。为进一步提高BP神经网络的分类性能,采用Bagging算法对BP神经网络分类器进行加权投票,实验表明,提出的方法具有很好的分类效果。  相似文献   

15.
张永  朱林杰 《计算机工程》2011,37(8):183-185
为提高入侵检测的精度,提出一种使用遗传禁忌搜索的分类器选择集成方法。该方法采用Bagging算法构建初始分类器集合,根据遗传禁忌搜索算法选择分类器子集,以该子集建立多分类器系统进行入侵检测。实验结果表明,与Bagging算法相比,该方法能有效提高检测精度、降低误报率。  相似文献   

16.
基于Bagging的多模型钢水温度预报   总被引:1,自引:0,他引:1  
针对LF(Ladle Furnace)冶炼特点及现有钢水温度预报方法存在的不足,提出一种基于Bagging的多模型预报方法.该方法利用Bagging思想,有效地将智能方法与机理方法相结合,在提高智能方法预报精度的同时使得机理模型与智能模型的优势得到互补,克服了单纯机理模型参数获得不够准确以及单纯智能模型缺乏工艺指导的不足.另外,该方法还对Bootstrap采样后的子训练数据集进行了主成分分析(PCA),有效地克服了集成算法固有的子学习机精度与数据集多样性不能兼顾的问题.  相似文献   

17.
冀素琴  石洪波  卫洁 《计算机工程》2012,38(16):203-206
集中式系统框架难以进行海量文本数据分类。为此,提出一种基于Map Reduce的Bagging贝叶斯文本分类算法。介绍朴素贝叶斯文本分类算法,将其与Bagging算法结合,运用Map Reduce并行编程模型,在Hadoop平台上实现算法。实验结果表明,该算法分类准确率较高,运行时间较短,适用于大规模文本数据集的分类学习。  相似文献   

18.
互联网金融中的网络贷款用户数据具有类别不平衡的特性,严重影响传统分类器的性能。随机平衡采样算法在对原始数据集进行重采样的过程中,将所有样本同等考虑,本文在平衡采样的过程中充分考虑样本点的性能,将其分为3类样本:安全的、边界的、噪声的,针对不同类型的样本采用相应的采样方法,得到平衡的新数据集,然后对该数据集进行Bagging集成,提高算法的泛化性能,结果表明本文改进的随机平衡采样(Improved Random Balanced Sampling, IRBS)Bagging算法可以较好地对网络贷款用户进行分类。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号