首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
垃圾网页检测存在数据不平衡、特征空间维度较高的问题,为此,提出一种基于随机混合采样和遗传算法的集成分类算法.首先,使用随机混合采样技术,通过随机抽样,减少多数类样本数量,用少数类样本合成过采样技术方法生成少数类样本,获得多个平衡的训练数据子集;然后使用改进的遗传算法对训练数据集进行降维,得到多个具有最优特征的训练数据子集;使用极端梯度算法(XGBoost)作为分类器,训练多个平衡数据子集,用简单投票法对多个分类器进行集成,得到新的分类器;最后对测试集进行预测,得到最终预测结果.实验结果表明,提出算法的分类结果与XGBoost的结果相比,准确率提高了约19.25%,且减少了建立学习模型的时间,提高了分类性能,是一种较好的分类算法.  相似文献   

2.
为了增强集成系统中各分类器之间的差异性,提出了一种使用旋转森林策略集成两种不同模型分类器的方法,即异构多分类器集成学习算法.首先采用旋转森林对原始样本集进行变换划分,获得新的样本集;然后通过特定比例选择分类精度高的支撑矢量机或分类速度较快的核匹配追踪作为基本的集成个体分类器,并对新样本集进行分类,获得其预测标记;最后结合两种模型下的预测标记.该算法通过结合两种不同分类器模型,实现了精度和速度互补,将二者混合集成后改善了集成系统泛化误差,相比单个模型集成提高了系统分类性能.对UCI数据集和遥感图像数据集的仿真实验结果表明,文中算法相比单一分类器集成缩短了运行时间,同时提高了系统的分类准确率.  相似文献   

3.
基于随机子空间的多分类器集成   总被引:2,自引:0,他引:2  
提出了一种基于随机子空间的多分类器集成算法RFSEn.首先选择一个合适的子空间大小,然后随机选择特征子集并投影,并得到子空间上的基分类器,从而通过基分类器构成集成分类器,并由集成分类器来进行文本的分类.将该算法与单一分类器和基于重抽样技术的bagging算法进行了比较,在标准数据集上进行了实验.结果表明,该方法不仅优于单一分类器的分类性能,而且一定程度上优于bagging算法.  相似文献   

4.
集成学习的一个重要目标是获得一组差异性大的基分类器来构建集成分类器。为实现这一目标,提出一种基于抽样与约简的集成学习算法ELSR。该算法采用多模态扰动策略来训练基分类器。首先,采用多次抽样策略从训练集中抽样产生k个抽样集;其次,使用粗糙集的属性约简技术对每个抽样集进行约简;第三,在每一个约简之后的抽样集上分别训练一个基分类器;最后,利用一个验证集对每个基分类器进行性能测试,并根据测试结果选择一组合适的基分类器来构建集成分类器。在UCI数据集上的实验表明:当采用KNN算法或者C4.5算法来训练基分类器时,ELSR的分类性能总是要优于现有的集成学习算法。  相似文献   

5.
基于AdaBoost的欠抽样集成学习算法   总被引:1,自引:0,他引:1  
不平衡数据集分类中,采用欠抽样方法容易忽略多数类中部分有用信息,为此提出一种基于AdaBoost的欠抽样集成学习算法U-Ensemble。该方法首先使用AdaBoost算法对数据集预处理,得到各样例权重。训练基分类器时,针对多数类数据不再采用bootstrap抽样方法,而是分别随机选择部分权重较大的样例与部分权重较小的样例,使两部分样例个数与少数类样例个数相同,并组成Bagging成员分类器的训练数据。实验结果证明了算法的有效性。  相似文献   

6.
为提高不平衡数据集中少数类的分类性能,本研究提出一种改进的AdaBoost算法(UnAdaBoost算法)来解决数据不平衡问题。该方法首先改进基分类器,使其在损失一定程度的多数类分类性能的情况下提高少数类的分类性能,而多数类分类性能的损失可通过后面的多个分类器集成弥补回来,这样既提高了少数类的分类性能又不会损失多数类的分类精度。本研究把改进的朴素贝叶斯方法作为基分类器,用改进投票权值的AdaBoost算法对基分类器进行融合。实验结果表明,与传统的Adaboost算法相比,该方法可以有效地提高不平衡数据的分类性能。  相似文献   

7.
入侵检测对于网络安全至关重要,不平衡或易混淆的训练样本往往导致传统入侵检测算法效率不佳。为此,提出一种小样本纠错的多层检测分类模型。首先,通过正交投影降维分类算法,使用入侵检测数据集的训练集构建第一层的初筛分类器,将待测样本粗分为三类;然后基于支持向量机及随机森林算法构造第二层和第三层的级联分类器组,每层逐步纠错前面层,并细分至五类;最后,用开源入侵检测评测数据集NSL-KDD进行实验。实验结果表明,本文的方法显著提高了对于拒绝服务攻击(Denial of Service,DoS)、探测攻击(Probe)、未经授权的远程访问(Remote to Local,R2L)类攻击样本的准确率,整体召回率及准确率优于同类研究。  相似文献   

8.
面向目标的带先验概率的AdaBoost算法   总被引:2,自引:1,他引:1  
针对集成学习算法研究中多个分类器的最佳组合问题,改进了传统的AdaBoost集成学习算法.用于组合的各个分类器通常是基于样本集通过一定的训练得到,样本集中不同类目标的比率可以反映分类目标的先验概率.使用该参数给出了新的组合参数和投票表决阈值计算公式,巧妙的利用样本权值并将其加入到样本属性上进行训练学习,采用新的策略来选择基分类器,给出了面向目标的带先验概率的AdaBoost算法(GWPP AdaBoost算法)和分类器的最佳组合.依据UCI实验数据对传统的AdaBoost算法、Bagging算法、GWPP AdaBoost算法的错误率和性能进行了比较分析,验证了GWPP AdaBoost的有效性.  相似文献   

9.
为了解决变压器故障诊断过程中单分类器诊断精确度不足的问题,引入一种基于改进AdaBoost算法和二次映射支持向量描述的变压器故障诊断方法。该方法训练若干个多分类二次映射支持向量描述分类器,得到弱分类器,采用改进AdaBoost算法将这些弱分类器进行集成构成一个强分类器,并在迭代训练过程中通过改变训练样本的权重,使集成多分类模型聚焦于一些难以分类的样本,从而提高分类精度。实际案例分析表明所提方法能够提高变压器故障诊断精度  相似文献   

10.
针对单模型分类算法在训练样本数量较少时成功率偏低的问题,提出一种集成学习算法,并在DPA_Contest_V4数据集上进行实验。首先使用传统方法破解循环掩码,再使用SVM(support vector machine)、随机森林和k近邻(k-nearest neighbor,kNN)等分类算法进行训练和预测,最后将这些模型的结果集成。实验结果表明,集成模型优于单一模型,尤其当训练集中的能量迹数目较少时集成模型的成功率比单一模型高10%左右。  相似文献   

11.
为保证交通检测数据的准确性并服务于实时的交通状态判别和预测,交通大数据采用多种检测源数据协同处理并利用机器学习的方法进行异常识别.异常检测数据的识别主要基于机器学习中AdaBoost方法实现.在算法的训练过程中,为消除单一检测源数据的离群现象,训练数据选取同一路段上多种检测源提供的数据集.在算法的决策过程中,通过代价敏感方法的优势来改进AdaBoost的决策.实验结果表明:基于非均衡特性改进的AdaBoost模型迫使分类器更加关注了待识别的异常样本,增强了AdaBoost决策过程中训练决策树规则的代表性,提高了异常类样本的分类准确率.高速公路实例检测数据集验证了改进算法与相关经典算法的检测准确度、误检率、误警率等指标,其中改进模型与原模型相比,准确率提高了5.547%,误检率减低了6.792%.多种算法的ROC曲线对比表明改进的AdaBoost方法筛选交通检测样本的可靠度更高,可有效调整由非平衡数据导致的分类误差.  相似文献   

12.

对于平衡数据集支持向量机(support vector machine,SVM)通常具有很好的分类性能和泛化能力,然而对于不平衡数据集,SVM只能得到次优结果,针对该问题提出了一种基于SVM的AS-AdaBoostSVM分类算法. 首先,通过使用ADASYN采样,提高少类样本在边界区域的密度;然后,使用基于径向基核支持向量机(radial basis function kernel mapping support vector machine,RBFSVM)模型弱分类器的AdaBoostSVM算法训练得到决策分类器. 通过将该算法在各种不平衡数据集上的测试结果与单纯运用ADASYN技术、AdaBoostSVM、SMOTEBoost等其他分类器进行比较,验证了该算法的有效性和鲁棒性.

  相似文献   

13.
提出网页恶意脚本代码的监测系统,将恶意脚本用V8引擎编译成机器码,用变长N-Gram模型对其进行数据处理,提取特征形成样本训练集.分别与随机森林、逻辑回归及朴素贝叶斯等分类器组合创建分类模型.研究将多个经过训练集训练的分类模型集成,提出加权分类器集成的方式,每个分类器设定不同权值.通过实验分析,试验多种分类器组合,并通过训练集找出最优权值分配.通过比较单个分类器和其他集成方式,结果证明训练过的加权集成分类器的方式能更准确地检测网页存在恶意行为的代码,有较高的准确率.  相似文献   

14.
对于平衡数据集支持向量机(support vector machine,SVM)通常具有很好的分类性能和泛化能力,然而对于不平衡数据集,SVM只能得到次优结果,针对该问题提出了一种基于SVM的AS-Ada Boost SVM分类算法.首先,通过使用ADASYN采样,提高少类样本在边界区域的密度;然后,使用基于径向基核支持向量机(radial basis function kernel mapping support vector machine,RBFSVM)模型弱分类器的Ada Boost SVM算法训练得到决策分类器.通过将该算法在各种不平衡数据集上的测试结果与单纯运用ADASYN技术、Ada Boost SVM、SMOTEBoost等其他分类器进行比较,验证了该算法的有效性和鲁棒性.  相似文献   

15.
鉴于在数据流中无法一次性收集完整的训练集,同时数据可能会处于不平衡状态并夹杂概念漂移而影响分类性能,提出一种在线动态集成选择的不平衡漂移数据流Boosting分类算法。该算法采用多种平衡措施,使用泊松分布对数据流进行重采样,如果数据处于高度不平衡状态则采用存储少数类的窗口进行二次采样以达到当前数据平衡。为了提高算法的处理效率,提出分类器选择集成策略动态调整分类器数目,算法运行过程使用自适应窗口检测器检测概念漂移。试验结果表明,该算法在一定程度上提高了少数类的真阳性率和运行效率,可以对带有概念漂移的不平衡数据流有较好的分类性能。  相似文献   

16.
为了实现Scratch可视化编程领域的作品分类,提出了一种基于标签关联性的多标签分类算法(MLLR),构建了一个有效的多标签Scratch分类模型.首先提取作品的Block使用特征、计算思维技能特征和复杂度特征3类特征作为分类特征;然后针对RAKEL算法随机选择标签子集,忽略了标签间的关联性,提出了改进的MLLR算法,该方法根据多标签之间的关联性来划分标签子集,再训练相应的标签幂集子分类器.实验结果表明,MLLR算法在分类性能和时间性能上优于RAKEL等多标签分类算法,构建的分类模型对于Scratch作品具有较强的适用性,分类的准确率达到81.3%.  相似文献   

17.
数据高维且不平衡时,产生的分类器易过度拟合且倾向于牺牲少数类准确率.为降低分类器复杂度且提高少数类识别率,提出了一种代价敏感随机森林算法.以随机森林算法框架为基础,利用Bagging平衡数据,并在基分类器属性分裂度量以及评价函数中引入误分类和测试双重代价,其中测试代价由分裂属性与少数类的相关度决定,使得基决策树在建模过程中向少数类倾斜.与随机森林和仅引入误分类代价的随机森林相比,引入双重代价的随机森林的分类准确率较高,尤其在少数类识别上具有较大优势.  相似文献   

18.
针对复杂交通场景车辆检测算法自适应能力差的问题,提出了基于Co-training半监督学习方法的车辆鲁棒检测算法.首先,针对手工标记的少量样本,分别训练基于Haar-like特征的AdaBoost分类器和基于HOG(histograms of oriented gradients)特征的SVM(support vector machines)分类器,使其具有一定的识别能力;然后,基于Co-training半监督学习框架,将利用2种算法进行分类得到的新样本分别加入到对方的样本库中,增加训练样本数量,再次进行分类器的训练.由于这2类特征具有冗余性,各自检测出的正负样本包含对方漏检和误检的图像.由于样本数的增加,再次训练所得到的新分类器的鲁棒性得到了很大提高,能更加准确地检测出车辆,而且由算法对未标记样本进行分类标记,不再需要人为标记,提高了车辆检测算法的自适应能力.  相似文献   

19.
为解决在计算机辅助诊断(computer aided diagnosis, CAD)中采用人工提取医学影像特征的弊端,在ImageNet数据集上预训练深度神经网络模型Alexnet,通过迁移学习再训练后的Alexnet模型对医学影像进行特征提取,利用集成学习方法训练分类器进行分类。试验结果表明,基于Alexnet和随机森林方法的分类器正确率达到了0.87±0.03,集成分类器的分类性能优于单一分类器。  相似文献   

20.
基于LS-SVM的多标签分类算法   总被引:2,自引:0,他引:2  
多标签分类是指部分样本同时归属多个类别.基于数据分解的算法因训练速度快、性能良好而得到广泛的应用.本文采用一对一分解策略,将k标签数据集分解为k(k-1)/2个两类单标签和两类双标签的数据子集.对每一训练子集统一用LS-SVM模型建立子分类器,当出现双标签样本时将其函数值设为0,并确定适当的分类阈值.对情感、景象和酵母数据集的实验结果表明,本文算法的某些性能指标优于现有一些常用的多标签分类方法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号