首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 234 毫秒
1.
针对传统单个分类器在不平衡数据上分类效果有限的问题,基于对抗生成网络(GAN)和集成学习方法,提出一种新的针对二类不平衡数据集的分类方法——对抗生成网络-自适应增强-决策树(GAN-AdaBoost-DT)算法。首先,利用GAN训练得到生成模型,生成模型生成少数类样本,降低数据的不平衡性;其次,将生成的少数类样本代入自适应增强(AdaBoost)模型框架,更改权重,改进AdaBoost模型,提升以决策树(DT)为基分类器的AdaBoost模型的分类性能。使用受测者工作特征曲线下面积(AUC)作为分类评价指标,在信用卡诈骗数据集上的实验分析表明,该算法与合成少数类样本集成学习相比,准确率提高了4.5%,受测者工作特征曲线下面积提高了6.5%;对比改进的合成少数类样本集成学习,准确率提高了4.9%,AUC值提高了5.9%;对比随机欠采样集成学习,准确率提高了4.5%,受测者工作特征曲线下面积提高了5.4%。在UCI和KEEL的其他数据集上的实验结果表明,该算法在不平衡二分类问题上能提高总体的准确率,优化分类器性能。  相似文献   

2.
针对真实环境中复杂变工况情况下轴承故障检测问题,提出一种基于小波包分解(Wavelet Packet Decomposition,WPD)和优化宽度学习系统(Broad Learning System,BLS)的轴承故障检测方法(简称WBLS)。首先,小波包分解非平稳时变轴承信号,提取尺度系数和小波系数作为二维的时频特征;其次,将二维时频特征输入BLS网络和具有增量学习的BLS网络映射成特征节点和增量节点,借助伪逆计算BLS网络的权重;最后,将特征节点、增量节点拼接与权重同时输出,完成BLS网络训练,进行测试分类。通过在CWRU公开数据集上的实验结果表明,基于WBLS的方法分类准确率为97.67%,网络训练耗时9.62 s,说明该方法能在保持较优分类准确率的同时,快速完成训练,节省大量时间。  相似文献   

3.
不平衡数据分类是机器学习研究领域中的一个热点问题。针对传统分类算法处理不平衡数据的少数类识别率过低问题,文章提出了一种基于聚类的改进AdaBoost分类算法。算法首先进行基于聚类的欠采样,在多数类样本上进行K均值聚类,之后提取聚类质心,与少数类样本数目一致的聚类质心和所有少数类样本组成新的平衡训练集。为了避免少数类样本数量过少而使训练集过小导致分类精度下降,采用少数过采样技术过采样结合聚类欠采样。然后,借鉴代价敏感学习思想,对AdaBoost算法的基分类器分类误差函数进行改进,赋予不同类别样本非对称错分损失。实验结果表明,算法使模型训练样本具有较高的代表性,在保证总体分类性能的同时提高了少数类的分类精度。  相似文献   

4.
针对AdaBoost。M2算法在解决多类不平衡协议流量的分类问题时存在不足,提出一种适用于因特网协议流量多类不平衡分类的集成学习算法RBWS-ADAM2,本算法在AdaBoost。M2每次迭代过程中,设计了基于权重的随机平衡重采样策略对训练数据进行预处理,该策略利用随机设置采样平衡点的重采样方式来更改多数类和少数类的样本数目占比,以构建多个具有差异性的训练集,并将样本权重作为样本筛选的依据,尽可能保留高权重样本,以加强对此类样本的学习。在国际公开的协议流量数据集上将RBWS-ADAM2算法与其他类似算法进行实验比较表明,相比于其他算法,该算法不仅对部分少数类的F-measure有较大提升,更有效提高了集成分类器的总体G-mean和总体平均F-measure,明显增强了集成分类器的整体性能。  相似文献   

5.
郭威  徐涛 《控制与决策》2023,38(4):1039-1046
宽度学习系统(BLS)是最近提出的一种准确且高效的新兴机器学习算法,已在分类、回归等问题中展现出优越的学习性能.然而,传统BLS以最小二乘作为学习准则,易受到离群值的干扰从而生成不准确的学习模型.鉴于此,提出一种基于M-estimator的鲁棒宽度学习系统(RBLS).与BLS不同, RBLS在学习模型中使用具有鲁棒特性的M-estimator代价函数替代传统的最小二乘代价函数,并采用拉格朗日乘子法和迭代加权最小二乘方法进行优化求解.在迭代学习过程中,正常样本和离群值样本将根据其训练误差的大小而被逆向赋予不同的权重,从而有效地抑制或消除离群值误差对学习模型的不利影响.实验结果表明,作为一种统一的鲁棒学习框架, RBLS可以融合使用不同的M-estimator加权策略,且能够取得更好的泛化性能和鲁棒性.  相似文献   

6.
一种面向不平衡数据的结构化SVM集成分类器   总被引:1,自引:0,他引:1  
为改进面向不平衡数据的SVM分类器性能,以结构化SVM为基础,提出一种基于代价敏感的结构化支持向量机集成分类器模型.该模型首先通过训练样本的聚类,得到隐含在数据中的结构信息,并对样本进行初始加权.运用AdaBoost策略对各样本的权重进行动态调整,适当增大少数类样本的权重,使小类中误分的样本代价增大,以此来改进不平衡数据的分类性能.实验结果表明,该算法可有效提高不平衡数据的分类性能.  相似文献   

7.
为解决软件缺陷预测中的不平衡问题,提出一种基于聚类少数类的改进SMOTE算法。对训练集中的少数类样本进行K-means聚类后,通过关键特征权重及与簇心距离权重,计算每个样本的合成样本数量,采用改进的SMOTE算法实现过抽样。采用CART决策树作为基分类器,使用AdaBoost算法对平衡数据集训练,得到分类模型CSMOTE-AdaBoost。在7组NASA数据集上进行实验,验证分类模型中关键特征权重及与簇心距离权重的有效性,其结果优于传统分类算法,具有更好的分类效果。  相似文献   

8.
宽度学习系统(broad learning system,BLS)作为深度神经网络的替代框架,具有快速自适应模型结构选择和在线增量学习能力,被认为是知识发现和数据工程领域中一种极具前途的技术.传统的BLS主要应用于数据分 布均衡且误分类代价相同的模式分类任务,但大多数实际应用的数据是非均衡分布的,如网络入侵监测、医疗诊断、信用卡欺诈检测等.基于此,提出一种基于数据分布特性的代价敏感BLS(data distribution-based cost-sensitive-BLS,DDbCs-BLS),解决数据分布不均、误分代价不同的模式分类任务.DDbCs-BLS在充分考虑数据统计分布特性的基础上寻找代价敏感型BLS分类器的最佳分类边界,保证少数类样本信息不被丢失,从而提高BLS在各类数据集上的模式分类性能.在多种公共数据集(包括均衡和不均衡数据集)上进行大量的验证性和对比性实验,结果表明DDbCs-BLS能有效确定分类边界线的最佳位置,无论是在均衡数据集还是在不均衡数据集上均能获得更好的分类性能.  相似文献   

9.
针对海量多源异构且数据分布不平衡的网络入侵检测问题以及传统深度学习算法无法根据实时入侵情况在线更新其输出权重的问题,提出了一种基于深度序列加权核极限学习的入侵检测算法(DBN-WOS-KELM算法)。该算法先使用深度信念网络DBN对历史数据进行学习,完成对原始数据的特征提取和数据降维,再利用加权序列核极限学习机进行监督学习完成入侵识别,结合了深度信念网络提取抽象特征的能力以及核极限学习机的快速学习能力。最后在部分KDD99数据集上进行了仿真实验,实验结果表明DBN-WOS-KELM算法提高了对小样本攻击的识别率,并且能够根据实际情况在线更新输出权重,训练效率更高。  相似文献   

10.
针对网络流量分类过程中,传统模型在小类别上的分类性能较差和难以实现频繁、及时更新的问题,提出一种基于集成学习的网络流量分类模型(ELTCM)。首先,根据类别分布信息定义了偏向于小类别的特征度量,利用加权对称不确定性和近似马尔可夫毯(AMB)对网络流量特征进行降维,减小类不平衡问题带来的影响;然后,引入早期概念漂移检测增强模型应对流量特征随网络变化而变化的能力,并通过增量学习的方式提高模型更新训练的灵活性。利用真实流量数据集进行实验,仿真结果表明,与基于C4.5决策树的分类模型(DTITC)和基于错误率的概念漂移检测分类模型(ERCDD)相比,ELTCM的平均整体精确率分别提高了1.13%和0.26%,且各小类别的分类性能皆优于对比模型。ELTCM有较好的泛化能力,能在不牺牲整体分类精度的情况下有效提高小类别的分类性能。  相似文献   

11.
为了更快且更准确地对图像进行识别,提出了基于局部感受野的宽度学习算法(Local Receptive Field based Broad Learning System,BLS-LRF),该方法以宽度学习网(Broad Learning System,BLS)为基础模型,与局部感受野(LRF)的思想相结合,从局部特征和全局特征两方面对图像进行特征提取。采用两种图像数据集对网络进行研究,将研究结果和许多传统神经网络进行对比,结果表明BLS-LRF网络的测试精度不仅超过了传统网络的测试精度,而且训练过程所需要的时间有了很大程度的缩短。  相似文献   

12.
Real-life datasets are often imbalanced, that is, there are significantly more training samples available for some classes than for others, and consequently the conventional aim of reducing overall classification accuracy is not appropriate when dealing with such problems. Various approaches have been introduced in the literature to deal with imbalanced datasets, and are typically based on oversampling, undersampling or cost-sensitive classification. In this paper, we introduce an effective ensemble of cost-sensitive decision trees for imbalanced classification. Base classifiers are constructed according to a given cost matrix, but are trained on random feature subspaces to ensure sufficient diversity of the ensemble members. We employ an evolutionary algorithm for simultaneous classifier selection and assignment of committee member weights for the fusion process. Our proposed algorithm is evaluated on a variety of benchmark datasets, and is confirmed to lead to improved recognition of the minority class, to be capable of outperforming other state-of-the-art algorithms, and hence to represent a useful and effective approach for dealing with imbalanced datasets.  相似文献   

13.
Broad learning system (BLS) has been proposed as an alternative method of deep learning. The architecture of BLS is that the input is randomly mapped into series of feature spaces which form the feature nodes, and the output of the feature nodes are expanded broadly to form the enhancement nodes, and then the output weights of the network can be determined analytically. The most advantage of BLS is that it can be learned incrementally without a retraining process when there comes new input data or neural nodes. It has been proven that BLS can overcome the inadequacies caused by training a large number of parameters in gradient-based deep learning algorithms. In this paper, a novel variant graph regularized broad learning system (GBLS) is proposed. Taking account of the locally invariant property of data, which means the similar images may share similar properties, the manifold learning is incorporated into the objective function of the standard BLS. In GBLS, the output weights are constrained to learn more discriminative information, and the classification ability can be further enhanced. Several experiments are carried out to verify that our proposed GBLS model can outperform the standard BLS. What is more, the GBLS also performs better compared with other state-of-the-art image recognition methods in several image databases.  相似文献   

14.
李燕萍  唐振民  丁辉  张燕 《计算机工程》2009,35(14):221-223
针对说话人辨认中训练语音有限时系统泛化能力差的问题,提出一种基于半监督学习的复合高斯混合模型算法。通过复合高斯混合模型对所有说话人的特征分布统一建模,基于半监督学习机制下的EM算法对学习样本进行学习。实验证明,该算法能够充分利用未标记样本对系统进行有效的自适应更新,改善系统的性能,获得比传统高斯混合模型更高的识别率,提高系统的泛化能力。  相似文献   

15.
针对现有学习算法难以有效提高不均衡在线贯序数据中少类样本分类精度的问题,提出一种基于不均衡样本重构的加权在线贯序极限学习机。该算法从提取在线贯序数据的分布特性入手,主要包括离线和在线两个阶段:离线阶段主要采用主曲线构建少类样本的可信区域,并通过对该区域内样本进行过采样,来构建符合样本分布趋势的均衡样本集,进而建立初始模型;而在线阶段则对贯序到达的数据根据训练误差赋予各样本相应权重,同时动态更新网络权值。采用UCI标准数据集和澳门实测气象数据进行实验对比,结果表明,与现有在线贯序极限学习机(OS-ELM)、极限学习机(ELM)和元认知在线贯序极限学习机(MCOS-ELM)相比,所提算法对少类样本的识别能力更高,且所提算法的模型训练时间与其他三种算法相差不大。结果表明在不影响算法复杂度的情况下,所提算法能有效提高少类样本的分类精度。  相似文献   

16.
雷蕾  王晓丹 《计算机应用》2012,32(10):2916-2919
针对AdaBoost集成时难分样本权重扩张导致训练样本在更新时分布失衡的问题,提出一种基于正负类样本损失函数(LF)的权重更新策略。权重的调整不仅与训练误差有关,还考虑到基分类器对不同类别样本的正确分类能力,从而避免训练样本过度集中于某一类的异常现象。实验结果表明,基于LF的AdaBoost能在提高收敛性能的情况下,提高算法精度,克服样本分布失衡问题。偏差方差分析的结果显示,该算法在改善偏差的情况下,能有效地减小错误率中的方差成分,提高集成的泛化能力。  相似文献   

17.
为改进SVM对不均衡数据的分类性能,提出一种基于拆分集成的不均衡数据分类算法,该算法对多数类样本依据类别之间的比例通过聚类划分为多个子集,各子集分别与少数类合并成多个训练子集,通过对各训练子集进行学习获得多个分类器,利用WE集成分类器方法对多个分类器进行集成,获得最终分类器,以此改进在不均衡数据下的分类性能.在UCI数据集上的实验结果表明,该算法的有效性,特别是对少数类样本的分类性能.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号