首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
一种不平衡数据流集成分类模型   总被引:4,自引:2,他引:4  
 针对不平衡数据流的分类问题,结合基于权重的集成分类器与抽样技术,本文提出了一种处理不平衡数据流集成分类器模型.理论分析与实验验证表明,该集成分类器具有更低的计算复杂度,更能适应存在概念漂移的不平衡数据流挖掘分类,其整体分类性能优于基于权重的集成分类器模型,能明显提升少数类的分类精度.  相似文献   

2.
周进登  王晓丹  权文  许燕  姚旭 《电子学报》2011,39(7):1514-1522
 纠错输出编码作为解决多类分类问题的通用集成框架,能有效的把多类问题分解为二类问题从而使问题得以简化.然而在生成基分类器的过程中,经常面临提高基分类器之间的差异性和增加各基分类器与集成分类器学习的一致性的矛盾,称之为consistent-diverse平衡问题.在保证差异性的前提下减小由学习不一致性引起的分类错误率是解决该平衡问题的一个出发点,在此利用加权解码,通过对加权系数矩阵的再学习进而减弱和消除由基分类器学习不一致性产生的误差.实验利用人工数据集和UCI数据集分别加以验证,结果表明以集成分类器的分类错误率为适应度函数的遗传算法搜索出的最优加权系数矩阵相比其它方法产生的系数矩阵在解决consistent-diverse平衡问题更具有优越性.  相似文献   

3.
吕品  于文兵  汪鑫  计春雷  周曦民 《电子学报》2019,47(10):2228-2234
恶意评论检测是预防社会媒体平台给用户带来负面影响的一项重要工作,是自然语言处理的重要领域之一.为解决单分类器实现恶意评论检测时模型精度不稳定、boosting集成模型精度较低的问题,提出一种异构分类器堆叠泛化的方法.该方法用深度循环神经网络将多标签的恶意评论分类问题转变为二类分类,防止了模型精度不稳定;用堆叠泛化集成时单个分类器GRU(Gated Recurrent Unit)和NB-SVM(Naïve Bayes-Support Vector Machine)在模型结构和分类偏差上的差异性,改善了模型精度.在维基百科恶意评论数据集上的对比实验证明:提出的方法优于boosting集成,说明堆叠泛化异构分类器实现恶意评论检测是可行且有效的.  相似文献   

4.
朴素贝叶斯分类算法由于其计算高效在生活中应用广泛。本文根据集成算法的差异性特征,聚类算法聚类点的选择方式的可变性,提出了基于K-medoids聚类技术的贝叶斯集成算法,朴素贝叶斯的泛化性能得到了提升。首先,通过样本集训练出多个朴素贝叶斯基分类器模型;然后,为了增大基分类器之间的差异性,利用K-medoids算法对基分类器在验证集上的预测结果进行聚类;最后,从每个聚类簇中选择泛化性能最佳的基分类器进行集成学习,最终结果由简单投票法得出。将该算法应用于UCI数据集,并与其他类似算法进行比较可得,本文提出的基于K-medoids聚类的贝叶斯集成算法(NBKME)提高了数据集的分类准确率。  相似文献   

5.
一种基于Bagging和混淆矩阵的自适应选择性集成   总被引:1,自引:0,他引:1       下载免费PDF全文
为了平衡集成学习中差异性和准确性的关系并提高学习系统的泛化性能,提出一种基于Bagging和混淆矩阵的选择性集成方法.基本思想是通过扰动训练集和特征空间生成基分类器,根据每一个基分类器的混淆矩阵构造一个基分类器间相关性的度量矩阵;然后基于相关性度量矩阵对基分类器集合进行子集划分,在每个划分中选择一个基分类器参与集成;最后用多数投票法融合所选基分类器的决策结果,并通过仿真实验验证该方法的有效性.  相似文献   

6.
基于贝叶斯分类器的图像隐写分析   总被引:1,自引:1,他引:0       下载免费PDF全文
集成分类器是目前用于图像隐写分析的主流分类器。为提高集成分类器的检测精度,针对集成分类器基分类器组合方法过于简单,无法体现基分类器之间的内在联系,不能从整体上对结果进行判定的缺点,依据图像特征在集成分类器分类超平面上的投影值服从多维正态分布这一特性,提出了一种基于贝叶斯分类器的图像隐写分析算法。首先基于随机森林算法生成若干基分类器,然后计算类条件概率密度函数与先验概率并训练贝叶斯分类器,最后使用经过训练的贝叶斯分类器代替简单投票方法进行分类判决。算法的检测错误率比以往算法平均降低了1.6%,ROC曲线比简单投票方法更接近于左上角,即具有更高的检测率,AUC值平均增长约2.12%,并且训练时间仅有少量提高,最大提高约2.610s。可以有效提高集成分类器的检测精度。  相似文献   

7.
罗会兰  杜连平 《电视技术》2012,36(23):39-42
针对单分类器没有充分考虑数据集的特征而不能很好地完成分类识别,提出了一种基于集成学习技术的SVM集成的图像分类方法。该方法是在基于较为流行的词袋(Bag-of-Words,BOW)模型的图像分类方法的基础上,利用训练生成的不同SVM分类器分类测试图像,并将分类结果采用集成学习算法进行集成。分别采用传统的BOW模型的图像分类方法和本文提出的方法进行分类实验,实验结果表明采用SVM集成的图像分类方法明显提高了分类精度,具有一定的稳健性。  相似文献   

8.
针对JPEG图像通用隐写检测中检测效率低、训练时间长的问题,提出一种基于集成分类器的新检测方法。算法以CC-PEV为特征对图像进行描述并作为隐写分析特征;然后,随机构造若干个特征子空间,用bootstrap方法构造图像训练子集,分别进行训练得到数个基分类器;根据基分类器的分类结果赋予基分类器不同的权重,将基分类器的结果按照其权重进行融合得到最终的结果。本文对该算法进行了测试,对它的集成性、检测准确率和训练时间进行分析。实验结果表明,相对于传统的集成方法,本文方法用自举方法构造训练集、随机方法构造子特征空间、赋予基分类器不同权重进行融合能够显著地提高算法准确率。本文方法相对于SVM和传统的集成分类方法,具有更高的检测率,对于特征维数更大的图像检测,具有更好的拓展性和一般适用性。  相似文献   

9.
面对获得的数据量越来越多,需要处理的数据类型也不尽相同,因此就需要寻找一种具有较好泛化性能和较高分类精度的算法。该文提出一种通过借用反向扩充训练数据样本对输入数据类型的不敏感性和径向基函数网络模型快速学习的能力来进行集成的混合算法。采用渐进P值作为受试者特征曲线下面积与0.5判断冗余特征的标准,将反向标定合成的新数据对分类器进行训练,通过比较训练误差的变化来决定新分类器的添加,最终以绝大多数投票方法对所有的分类器进行决策融合。最后以UCI数据为实验,结果表明该算法可以较好地适应于不同数据类型,得到比其它集成算法更高的分类精度。  相似文献   

10.
空气质量是生态环境保护的一个重要指标。在空气评估时需对PM2.5、PM10、SO2、O3等因素综合考虑,因此本文提出一种随机森林优化模型SPRF(Secondary Proximity Random Forest)对空气质量进行评估。针对数据不平衡问题,对空气质量样本进行欠采样,并使用Gini指数构建决策树。在构建基分类器时,增加KNN(K Nearest Neighbors)和QDA(Quadratic Discriminant Analysis)作为基分类器参与随机森林集成,采用Bagging的思想将新的分类结果加入投票中提高空气质量评估模型的准确度和稳定性;由于不同决策树在投票中的权重都是相同的,结合卡方检验对决策树的权重进行优化,并选用中国2022年各城市质量数据进行实验。实验结果表明,与决策树、多层感知器等模型相比,SPRF评估模型有较高的评估准确率、精确率、查全率、F1分数。  相似文献   

11.
为提高Adaboost算法迭代过程中生成基分类器的分类精度以及简化整个集成学习系统的复杂度,文章提出了一种优化Adaboost迭代过程的SVM集成算法。该算法提出了一种在其迭代过程中加入样本选择和特征选择的集成方法。通过均值近邻算法对样本进行选择,并利用相对熵法进行特征选择,最后利用优化得到的特征样本子集对基分类器SVM进行训练,并用加权投票法融合各个SVM基分类器的决策结果进行最终判决。通过对UCI数据集的仿真结果表明,本算法与支持向量机集成算法相比,能够在更少的样本以及特征的基础上,实现较高的识别正确率。  相似文献   

12.
差异性和平均精度是提高分类器集成性能的两个重要指标。增加差异性势必会降低平均精度,增大平均精度一定会减小差异性。故在差异性和平均精度之间存在一个平衡状态,使得集成性能最优。为了寻找该平衡状态,该文提出融合改进二元萤火虫算法和互补性测度的集成剪枝方法。首先,采用bootstrap抽样方法独立训练出多个基分类器,构建原始基分类器池。其次,采用互补性测度对原始基分类器池进行预剪枝。接着,通过改进萤火虫的移动方式和搜索过程,引入重新初始化机制和跳跃行为,提出改进二元萤火虫算法。最后,采用改进二元萤火虫算法对预剪枝后的基分类器,进行进一步剪枝,选择出集成性能最优的基分类器子集合。在5个UCI数据集上的实验结果表明,较其他方法,使用较少的基分类器,获得了更优的集成性能,具有良好的有效性和显著性。  相似文献   

13.
合成孔径雷达(Synthetic Aperture Radar, SAR)成像技术已经成为一种高分辨对地观测的重要手段之一,而极化SAR图像地物分类一直是其中的研究热点。基于复Wishart分布的最大似然(Maximum Likelihood,ML)分类器是最经典的极化SAR图像分类算法之一,但由于地物类型的复杂性、区域的不均匀性等原因使得基于像素的ML-Wishart分类器的分类精度不高。针对这个问题,本文提出了一种基于复Wishart分布的局部最大后验概率(Maximum a Posteriori,MAP)竞争方法,该算法通过计算伪先验概率,并在每个像素的局部窗口中实施MAP分类器,可以提高复杂区域图像的分类精度。该文主要研究了4种基于Wishart分布的分类算法,包括经典复Wishart分类算法、混合复Wishart模型、基于马尔科夫随机场(Markov Random Field, MRF)的混合复Wishart模型和基于局部竞争策略的MAP分类算法。在混合模型建模中,不同于以往的对整幅图像进行建模的模型策略,本文采用对单个类别进行混合建模的策略。实验对比分析了上述4个分类器和SVM分类器在C波段RADARSAT-2多时相的全极化SAR农田数据上的分类效果。实验结果表明,所提出的基于局部竞争策略的分类器对数据的分类结果稳定,具有最高的分类精度,基于混合Wishart的MRF模型分类结果次之。  相似文献   

14.
针对传统集成学习方法直接应用于单类分类器效果不理想的问题,该文首先证明了集成学习方法能够提升单类分类器的性能,同时证明了若基分类器集不经选择会导致集成后性能下降;接着指出了经典集成方法直接应用于单类分类器集成时存在基分类器多样性严重不足的问题,并提出了一种能够提高多样性的基单类分类器混合生成策略;最后从集成损失构成的角度拆分集成单类分类器的损失函数,针对性地构造了集成单类分类器修剪策略并提出一种基于混合多样性生成和修剪的单类分类器集成算法,简称为PHD-EOC。在UCI标准数据集和恶意程序行为检测数据集上的实验结果表明,PHD-EOC算法兼顾多样性与单类分类性能,在各种单类分类器评价指标上均较经典集成学习方法有更好的表现,并降低了决策阶段的时间复杂度。  相似文献   

15.
由于计算机内存资源限制,分类器组合的有效性及最优性选择是机器学习领域的主要研究内容。经典的集成分类算法在处理小数据集时,拥有较高的分类准确性,但面对大量数据时,由于多基分类器学习、分类共用1台计算机资源,导致运算效率较低,这显然不适合处理当今的海量数据。针对已有集成分类算法只适合作用于小规模数据集的缺点,剖析了集成分类器的特性,采用基于聚合方式的集成分类器和云计算的MapReduce技术设计了并行集成分类算法(EMapReduce),达到并行处理大规模数据的目的。并在Amazon计算集群上模拟实验,实验结果表明该算法具有一定的高效性和可行性。  相似文献   

16.
基于随机子空间和AdaBoost的自适应集成方法   总被引:4,自引:0,他引:4  
如何构造差异性大且精确度高的基分类器是集成学习的重点,为此提出一种新的集成学习方法——利用PSO寻找使得AdaBoost依样本权重抽取的数据集分类错误率最小化的最优特征权重分布,依据此最优权重分布对特征随机抽样生成随机子空间,并应用于AdaBoost的训练过程中.这就在增加分类器间差异性的同时保证了基分类器的准确度.最后用多数投票法融合各基分类器的决策结果,并通过仿真实验验证该方法的有效性.  相似文献   

17.
要丽娟  郭银芳 《激光杂志》2023,(11):147-151
针对光纤光栅传感网络结构复杂,入侵行为检测难度较高的问题,研究基于集成学习的光纤光栅传感网络入侵行为检测方法。选取支持向量机作为集成学习算法的基分类器,计算各基分类器分类光纤光栅传感网络入侵行为样本的误差率,依据基分类器的误差率确定基分类器的重要程度。利用AdaBoost集成学习算法,依据各基分类器的重要程度集成各基分类器,构建最终的集成分类器,利用所构建集成分类器,输出光纤光栅传感网络入侵行为检测结果。实验结果表明,该方法可以精准检测光纤光栅传感网络的远程入侵、拒绝服务入侵等入侵行为,数据丢弃量较低,提升了光纤光栅传感网络的通信性能。  相似文献   

18.
集成方法是不平衡学习方法的重要分支,然而,现有不平衡集成方法均作用于原样本而没考虑样本的结构信息,因此其效能仍然有限.样本的结构信息包括局部和全局结构信息.为了解决上述问题,本文提出了一种基于深度样本包络网络(Deep Instance Envelope Network, DIEN)和分级结构一致性机制(Hierarchical Structure Consistency Mechanism, HSCM)的不平衡集成学习算法.该算法在考虑局部流形和全局结构信息的情况下,通过多层样本聚类,生成高质量的多层包络样本,从而实现类平衡化.首先,算法基于样本近邻拼接和模糊C均值聚类算法,设计DIEN来挖掘样本的结构信息,得到深度包络样本.然后,设计局部流形结构度量和全局结构分布度量来构建HSCM用于增强层间样本的分布一致性.接着,将DIEN和HSCM结合起来,构建出优化后的深度样本包络网络——DH (DIEN with HSCM).之后,将基分类器应用于包络样本.最后,设计bagging集成学习机制来融合基分类器的预测结果 .文末组织了多组实验,采用了十多个公共数据集和有代表性的相关算法进行验证...  相似文献   

19.
基于信息熵差异性度量的数据流增量集成分类算法   总被引:2,自引:0,他引:2  
琚春华  邹江波 《电信科学》2015,31(2):92-102
对分类器之间的差异性进行了研究,提出了一种基于信息熵差异性度量的增量集成分类算法,将信息熵差异性度量方法融入到基分类器选择过程中,通过对训练数据集的基分类结果的信息熵差异度计算,采用循环迭代优化的选择方法,以熵差异性最优化为约束目标,动态调整基分类器个数,实现了分类准确稳定,减少了系统开销。通过实验比对,证明了算法在数据流处理时比其他算法具有更小的开销和较强的适应性。  相似文献   

20.
《现代电子技术》2019,(24):140-145
为了进一步提高基于深度神经网络短文本分类性能,提出将集成学习方法应用于5种不同的神经网络文本分类器,即卷积神经网络、双向长短时记忆网络、卷积循环神经网络、循环卷积神经网络、分层注意力机制神经网络,分别对两种集成学习方法(Bagging,Stacking)进行了测试。实验结果表明:将多个神经网络短文本分类器进行集成的分类性能要优于单一文本分类模型;进一步两两集成的实验验证了单个模型对短文本分类性能的贡献率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号