首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 125 毫秒
1.
针对单一的不平衡数据分类算法合成样本质量不佳、未考虑类内样本分布等局限性,提出一种不平衡数据中基于权重的边界混合采样(boundary mixed sampling based on weight selection in imbalanced data,BWBMS)。剔除噪声样本并引入边界因子概念,把原样本空间分成边界集和非边界集;考虑类内样本分布,对于边界集中每个少数类样本赋予支持度权重和密度权重并增加采样比重将其划分为两类,对两类样本子集采用不同的过采样算法和过采样倍率;考虑不同区域样本重要性的不同,根据多数类样本距离其最近的k个异类近邻的平均距离来删减部分非边界集多数类样本点。实验结果表明,结合SVM分类器的BWBMS算法在不同数据集上的性能指标得到了提升,验证了其有效性。  相似文献   

2.
在分析了传统支持向量机(SVM)对不平衡数据的学习缺陷后,提出了一种改进SVM算法,采用自适应合成(ADASYN)采样技术对数据集进行部分重采样,增加少类样本的数量;对不同的样本点分配不同的权重,减弱噪声对训练结果的影响;使用基于代价敏感的SVM算法训练,缓解不平衡数据对超平面造成的偏移.选择UCI数据库中的6组不平衡数据集进行测试,实验结果表明:在各个数据集上改进SVM算法的性能优于其他算法,并在少类准确率和多类准确率上取得了很好的平衡.  相似文献   

3.
在机器学习及其分类问题时经常会遇到非平衡数据集,为了提高非平衡数据集分类的有效性,提出了基于商空间理论的过采样分类算法,即QMSVM算法。对训练集中多数类样本进行聚类结构划分,所得划分结果和少数类样本合并进行线性支持向量机(SVM)学习,从而获取多数类样本的支持向量和错分的样本粒;另一方面,获取少数类样本的支持向量和错分的样本,进行SMOTE采样,最后把上述得到的两类样本合并进行SVM学习,这样来实现学习数据集的再平衡处理,从而得到更加合理的分类超平面。实验结果表明,和其他几种算法相比,所提算法虽在正确分类率上有所降低,但较大改善了g_means值和acc+值,且对非平衡率较大的数据集效果会更好。  相似文献   

4.
针对不平衡数据集分类结果偏向多数类的问题,重采样技术是解决此问题的有效方法之一。而传统过采样算法易合成无效样本,欠采样方法易剔除重要样本信息。基于此提出一种基于SVM的不平衡数据过采样方法SVMOM(Oversampling Method Based on SVM)。SVMOM通过迭代合成样本。在迭代过程中,通过SVM得到分类超平面;根据每个少数类样本到分类超平面的距离赋予样本距离权重;同时考虑少数类样本的类内平衡,根据样本的分布计算样本的密度,赋予样本密度权重;依据样本的距离权重和密度权重计算每个少数类样本的选择权重,根据样本的选择权重选择样本运用SMOTE合成新样本,达到平衡数据集的目的。实验结果表明,提出的算法在一定程度上解决了分类结果偏向多数类的问题,验证了算法的有效性。  相似文献   

5.
过采样和欠采样方法是处理非平衡数据集分类的常用方法,但使用单一的采样算法可能造成少数类样本过拟合或者丢失含有重要信息的样本。提出了基于分类超平面的混合采样算法SVM_HS(hybrid sampling algorithm based on support vector machine),旨在克服SVM算法在处理非平衡数据时分类超平面容易偏向少数类样本的问题。该算法首先利用SVM算法得到分类超平面。然后迭代进行混合采样,主要包括:(1)删除离分类超平面较远的一些多数类样本;(2)对靠近真实类边界的少数类样本用SMOTE(synthetic minority oversampling technique)过采样,使分类超平面向着真实类边界方向偏移。实验结果表明相比其他相关算法,该算法的F-value值和G-mean值均有较大提高。  相似文献   

6.
将线性尺度空间的特征点扩展问题转化为多尺度数据集的同尺度内分类问题,该问题属于尺度不变的非平衡数据集分类问题。提出了一种基于尺度空间的核学习的采样算法来处理支持向量机(support vector machine,SVM)在非平衡数据集上的分类问题。其核心思想是首先在核空间中对少数类样本进行上采样,然后通过输入空间和核空间的距离关系寻找所合成样本在输入空间的原像,最后再采用SVM对其进行训练,从而有效克服了目前采样方法在不同空间处理训练样本所带来的数据不一致问题。该算法所采用的采样策略不仅能够降低数据失衡率,而且能够拓展少数类样本所形成的凸壳,从而更为有效地纠正最优分类超平面偏移问题。实验结果证明,所获得的结果分类器具有更好的泛化性能,能够在同尺度内有效扩展稳定特征点数量。  相似文献   

7.
不平衡数据集中,样本的分布位置对于决策边界具有差异性,传统的采样方法没有根据样本位置做区别化采样处理。为此提出一种不平衡数据中基于异类k距离的边界混合采样算法(BHSK)。通过异类k距离识别出边界集;再根据支持度将边界少数类样本细分为三类,分别采用不同的过采样方法和过采样倍率,根据少数类样本的不同重要性进行过采样,生成更具有信息的样本点;根据异类k距离删除部分非边界多数类样本点。实验结果表明,该算法在最小距离分类法下的少数类识别性能较几种常见的采样算法提高了1%~11%,验证了其有效性。  相似文献   

8.
针对不平衡数据集的低分类效率,基于L-SMOTE算法和混合核SVM提出了一种改进的SMOTE算法(FTL-SMOTE)。利用混合核SVM对数据集进行分类。提出了噪声样本识别三原则对噪声样本进行精确识别并予以剔除,进而利用F-SMOTE和T-SMOTE算法分别对错分和正确分类的少类样本进行采样。如此循环,直到满足终止条件,算法结束。通过在UCI数据集上与经典的SMOTE等重要采样算法以及标准SVM的大量实验表明,该方法具有更好的分类效果,改进算法与L-SMOTE算法相比,运算时间大幅减少。  相似文献   

9.
针对传统采样方式准确率与鲁棒性不够明显,欠采样容易丢失重要的样本信息,而过采样容易引入冗杂信息等问题,以UCI公共数据集中的不平衡数据集Pima-Indians为例,综合考虑数据集正负类样本的类间距离、类内距离与不平衡度之间的关系,提出一种基于样本特性的新型过采样方式.首先对原始数据集进行距离带的划分,然后提出一种改进的基于样本特性的自适应变邻域Smote算法,在每个距离带的少数类样本中进行新样本的合成,并将此方式推广到UCI数据集中其他5种不平衡数据集.最后利用SVM分类器进行实验验证的结果表明:在6类不平衡数据集中,应用新型过采样SVM算法,相比已有的采样方式,少(多)数类样本的分类准确率均有明显提高,且算法具有更强的鲁棒性.  相似文献   

10.
在非平衡数据分类问题中,为了合成有价值的新样本和删除无影响的原样本,提出一种基于边界混合重采样的非平衡数据分类算法。该算法首先引入支持k-离群度概念,找出数据集中的边界点集和非边界点集;利用改进的SMOTE算法将少数类中的边界点作为目标样本合成新的点集,同时对多数类中的非边界点采用基于距离的欠采样算法,以此达到类之间的平衡。通过实验结果对比表明了该算法在保证G-mean值较优的前提下,一定程度上提高了少数类的分类精度。  相似文献   

11.
权重润饰和改进的分类对不平衡数据的处理   总被引:1,自引:0,他引:1  
不平衡数据集是指某类样本数量明显少于其它类样本数量的数据集,传统的分类算法在处理不平衡数据分类问题时会倾向于多数类,而导致少数类的分类精度较低.针对文本数据的不平衡情况,首先采用权重润饰(Weight-retouching)的方法进行特征提取,然后采用欠取样(Under sampling)的支持向量机SVM(Support Vector Machine)方法进行文本分类.通过实验发现,使用权重润饰和欠取样的SVM方法可以提高处理不平衡数据的分类精度.  相似文献   

12.
少数类样本合成过采样技术(SMOTE)是一种典型的过采样数据预处理方法,它能够有效平衡非均衡数据,但会带来噪音等问题,影响分类精度。为解决此问题,借助主动学习支持向量机的分类性能,提出一种基于主动学习SMOTE的非均衡数据分类方法 ALSMOTE。由于主动学习支持向量机采用基于距离的主动选择最佳样本的学习策略,因此能够主动选择非均衡数据中的有价值的多数类样本,舍弃价值较小的样本,从而提高运算效率,改进SMOTE带来的问题。首先运用SMOTE方法均衡小部分样本,得到初始分类器;然后利用主动学习策略调整分类器精度。实验结果表明,该方法有效提高了非均衡数据的分类准确率。  相似文献   

13.
Traditional Multiple Empirical Kernel Learning (MEKL) expands the expressions of the sample and brings better classification ability by using different empirical kernels to map the original data space into multiple kernel spaces. To make MEKL suit for the imbalanced problems, this paper introduces a weight matrix and a regularization term into MEKL. The weight matrix assigns high misclassification cost to the minority samples to balanced misclassification cost between minority and majority class. The regularization term named Majority Projection (MP) is used to make the classification hyperplane fit the distribution shape of majority samples and enlarge the between-class distance of minority and majority class. The contributions of this work are: (i) assigning high cost to minority samples to deal with imbalanced problems, (ii) introducing a new regularization term to concern the property of data distribution, (iii) and modifying the original PAC-Bayes bound to test the error upper bound of MEKL-MP. Through analyzing the experimental results, the proposed MEKL-MP is well suited to the imbalanced problems and has lower generalization risk in accordance with the value of PAC-Bayes bound.  相似文献   

14.
分析了数量不对称的样本在允许训练误差的支持向量机训练时产生的最优分界面偏移的问题,认为支持向量机的最优分界面位置取决于间隔(margin)区域中正反例样本数量的比例,而不是传统加权支持向量机所采用的全部正反例样本的数量比。对间隔区域中正反例数量不对称的两类样本采用同样的折衷因子将导致最优分界面向间隔区域中样本较少的类别方向偏移。提出了将折中因子与问隔区域中样本的数量比例联系起来的加权支持向量机,并提出了一种在核函数特征空间估计间隔区域样本数量的方法。试验证明该方法町以提高加权支持向量机的分类性能。  相似文献   

15.
顾晓清  张聪  倪彤光 《控制与决策》2020,35(5):1151-1158
传统的基于核函数的分类方法中核矩阵运算复杂度较高,无法满足大规模数据分类的要求.针对这一问题,提出基于随机投影的快速凸包分类器(FCHC-RP).首先,使用随机投影的方法将样本投影到多个二维子空间,并将子空间数据映射到特征空间;其次,根据数据分布的几何特征得到凸包候选集;再次,基于凸包的定义计算出特征空间中的凸包向量;最后,使用与凸包向量对应的原始样本及其权值训练支持向量机.此外,FCHC-RP还适用于不平衡数据的分类问题,根据两类样本的不平衡程度选择不同的参数,可以得到规模相当的两类样本的凸包集,实现训练数据的类别平衡.理论分析和实验结果验证了FCHC-RP在分类性能和训练时间上的优势.  相似文献   

16.
一种面向不平衡数据的结构化SVM集成分类器   总被引:1,自引:0,他引:1  
为改进面向不平衡数据的SVM分类器性能,以结构化SVM为基础,提出一种基于代价敏感的结构化支持向量机集成分类器模型.该模型首先通过训练样本的聚类,得到隐含在数据中的结构信息,并对样本进行初始加权.运用AdaBoost策略对各样本的权重进行动态调整,适当增大少数类样本的权重,使小类中误分的样本代价增大,以此来改进不平衡数据的分类性能.实验结果表明,该算法可有效提高不平衡数据的分类性能.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号