首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 234 毫秒
1.
面向目标的带先验概率的AdaBoost算法   总被引:2,自引:1,他引:1  
针对集成学习算法研究中多个分类器的最佳组合问题,改进了传统的AdaBoost集成学习算法.用于组合的各个分类器通常是基于样本集通过一定的训练得到,样本集中不同类目标的比率可以反映分类目标的先验概率.使用该参数给出了新的组合参数和投票表决阈值计算公式,巧妙的利用样本权值并将其加入到样本属性上进行训练学习,采用新的策略来选择基分类器,给出了面向目标的带先验概率的AdaBoost算法(GWPP AdaBoost算法)和分类器的最佳组合.依据UCI实验数据对传统的AdaBoost算法、Bagging算法、GWPP AdaBoost算法的错误率和性能进行了比较分析,验证了GWPP AdaBoost的有效性.  相似文献   

2.
基于随机子空间的多分类器集成   总被引:2,自引:0,他引:2  
提出了一种基于随机子空间的多分类器集成算法RFSEn.首先选择一个合适的子空间大小,然后随机选择特征子集并投影,并得到子空间上的基分类器,从而通过基分类器构成集成分类器,并由集成分类器来进行文本的分类.将该算法与单一分类器和基于重抽样技术的bagging算法进行了比较,在标准数据集上进行了实验.结果表明,该方法不仅优于单一分类器的分类性能,而且一定程度上优于bagging算法.  相似文献   

3.
为了获得较大差异性的基学习器来构建集成学习器,从属性空间划分的角度来考虑集成学习问题,通过粗糙集理论定义了近似约简的概念,进一步提出了基于近似约简的集成学习算法;本方法将数据集的属性空间划分为多个子空间,基于不同子空间对应的数据集训练得到的基学习器具有较大的差异性,从而保证了集成学习器具有较强的泛化性能。为了验证本算法的有效性,本算法被应用于网络入侵检测中。在KDD CUP 99数据集上的实验表明,与传统的集成学习算法相比,本文所提出的算法具有更高的检测率和更低的计算开销,更适合于从海量高维的网络数据中检测入侵。  相似文献   

4.
基于AdaBoost的欠抽样集成学习算法   总被引:1,自引:0,他引:1  
不平衡数据集分类中,采用欠抽样方法容易忽略多数类中部分有用信息,为此提出一种基于AdaBoost的欠抽样集成学习算法U-Ensemble。该方法首先使用AdaBoost算法对数据集预处理,得到各样例权重。训练基分类器时,针对多数类数据不再采用bootstrap抽样方法,而是分别随机选择部分权重较大的样例与部分权重较小的样例,使两部分样例个数与少数类样例个数相同,并组成Bagging成员分类器的训练数据。实验结果证明了算法的有效性。  相似文献   

5.
在多标签新闻分类问题中,针对传统分类器链算法难以确定标签依赖顺序、集成模型运行效率低和无法应用复杂模型作为基分类器的问题,提出基于深度神经网络的双向分类器链算法. 该方法利用正向分类器链获取每个标签和前面所有标签的依赖关系,引入逆向分类器链,从正向链最后一个基分类器的输出开始反向学习每个标签和所有其他标签的相关性. 为了提取非线性标签相关性和提高预测性能,使用深度神经网络作为基分类器. 结合2条分类器链的均方误差,使用随机梯度下降算法对目标函数进行有效优化. 在多标签新闻分类数据集RCV1-v2上,将所提算法与当前主流的分类器链算法和其他多标签分类算法进行对比和分析. 实验结果表明,利用深度双向分类器链算法能够有效提升预测性能.  相似文献   

6.
如何准确检测出用户侧窃电行为是长期存在于各供电公司一个难点,传统的窃电检测方案均存在一定的局限性。针对窃电检测领域正负类样本高度不平衡,且单一分类模型表现不佳的问题,提出一种基于改进旋转森林算法的窃电检测方法。旋转森林算法采用主成分分析(principal component analysis,PCA)进行特征提取,利用原始训练集的所有主成分训练每个基分类器。在经典的旋转森林算法基础上,使用改进合成少数类过采样(synthetic minority oversampling technique,SMOTE)算法平衡样本子集中的正负类样本;使用Bagging算法中的Bootstrap抽样对训练子集进一步抽样;按准确率对基分类器进行选择性集成等3个方面的改进。算例使用华东某地区实际用户数据,结果表明所提窃电检测方法对比单一分类模型和现有集成学习策略,在多项评价指标下均取得更好的效果。  相似文献   

7.
基于选择性集成分类器的通用隐写分析   总被引:2,自引:0,他引:2  
面对高维度的特征集和大规模的样本集,隐写分析技术对分类器的要求越来越高.在集成分类器的基础上提出了一种面向通用隐写分析的选择性集成分类器.首先基于随机森林生成若干个基分类器,然后利用基于遗传算法的选择性集成算法剔除掉个别影响整体性能的基分类器,最后根据遗传优化得到的最优权值向量赋予剩余的基分类器不同权值以用来加权投票集成.实验表明,提出的选择性集成分类器测试性能优于现有分类器,特别在基分类器数量较大、特征维数较高时与现有集成分类器相比,有效降低了检测错误率.  相似文献   

8.
AdaBoost算法的推广——一组集成学习算法   总被引:2,自引:0,他引:2  
针对AdaBoost算法只适合于不稳定学习算法这一不足,基于增加新分类器总是希望降低集成分类器训练错误率这一思想,提出了利用样本权值来调整样本类中心的方法,使AdaBoost算法可以与一些稳定的学习算法结合成新的集成学习算法,如动态调整样本属性中心的集成学习算法、基于加权距离度量分类的集成学习算法和动态组合样本属性的集成学习算法,大大拓展了AdaBoost算法适用范围。针对AdaBoost算法的组合系数和样本权值调整策略是间接实现降低训练错误率目标,提出了直接面向目标的集成学习算法。在UCI数据上的实验与分析表明,提出的AdaBoost推广算法不仅有效,而且部分算法比AdaBoost算法效果更好。  相似文献   

9.
针对水声目标识别中常被忽略的数据不平衡问题,提出一种随机子空间AdaBoost算法(RSBoost)。通过随机子空间法在不同水声特征空间上提取子训练样本集,在各个子训练样本集上训练基分类器,将其中少类间隔均值最大的基分类器作为本轮选定的分类器,迭代形成最终集成分类器。在实测数据上进行试验,利用F-measure和G-mean两个准则对RSBoost算法和AdaBoost算法在不同特征集上的性能进行评价。试验结果表明:相对于AdaBoost算法, RSBoost算法在F-measure准则下的平均值由0.07提升到0.22,在G-mean准则下的平均值由0.18提升到0.25,说明在处理水声数据不平衡分类问题上, RSBoost算法优于AdaBoost算法。  相似文献   

10.
针对水声目标识别中常被忽略的数据不平衡问题,提出一种随机子空间AdaBoost算法(RSBoost)。通过随机子空间法在不同水声特征空间上提取子训练样本集,在各个子训练样本集上训练基分类器,将其中少类间隔均值最大的基分类器作为本轮选定的分类器,迭代形成最终集成分类器。在实测数据上进行试验,利用F-measure和G-mean两个准则对RSBoost算法和AdaBoost算法在不同特征集上的性能进行评价。试验结果表明:相对于AdaBoost算法, RSBoost算法在F-measure准则下的平均值由0.07提升到0.22,在G-mean准则下的平均值由0.18提升到0.25,说明在处理水声数据不平衡分类问题上, RSBoost算法优于AdaBoost算法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号