首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 218 毫秒
1.
非平衡数据集的分类问题是机器学习领域的一个研究热点。针对非平衡数据集分类困难的问题,特别是由于非平衡分布引起的少数类识别能力低下的问题,提出了一种改进算法,AdaBoost-SVM-OBMS。该算法结合Boosting算法和基于错分样本产生新样本的过抽样技术。在新算法中,以支持向量机为元分类器,每次Boosting迭代中标记出错分的样本点,然后在错分样本点与其近邻间随机产生一定数量与错分样本同一类别的新样本点。新产生样本点加入原训练集中重新训练学习,以提高分类困难样本的识别能力。在AUC,F-value和G-mean 3个不同价格的评价指标下8个benchmark数据集上对AdaBoost-SVM-OBMS算法与AdaBoost-SVM算法和APLSC算法进行了对比实验,实验结果表明了AdaBoost-SVM-OBMS算法在非平衡数据集分类中的有效性。  相似文献   

2.
《微型机与应用》2015,(17):81-84
针对极端学习机算法对不平衡数据分类问题的处理效果不够理想,提出了一种基于聚类欠采样的极端学习机算法。新算法首先对训练集的负类样本进行聚类生成不同的簇,然后在各簇中按规定的采样率对其进行欠采样,取出的样本组成新的负类数据集,从而使训练集正负类数据个数达到相对平衡,最后训练分类器对测试集进行测试。实验结果表明,新算法有效地降低了数据的不平衡对分类准确率的影响,具有更好的分类性能。  相似文献   

3.
现实生活中存在大量的非平衡数据,大多数传统的分类算法假定类分布平衡或者样本的错分代价相同,因此在对这些非平衡数据进行分类时会出现少数类样本错分的问题。针对上述问题,在代价敏感的理论基础上,提出了一种新的基于代价敏感集成学习的非平衡数据分类算法--NIBoost(New Imbalanced Boost)。首先,在每次迭代过程中利用过采样算法新增一定数目的少数类样本来对数据集进行平衡,在该新数据集上训练分类器;其次,使用该分类器对数据集进行分类,并得到各样本的预测类标及该分类器的分类错误率;最后,根据分类错误率和预测的类标计算该分类器的权重系数及各样本新的权重。实验采用决策树、朴素贝叶斯作为弱分类器算法,在UCI数据集上的实验结果表明,当以决策树作为基分类器时,与RareBoost算法相比,F-value最高提高了5.91个百分点、G-mean最高提高了7.44个百分点、AUC最高提高了4.38个百分点;故该新算法在处理非平衡数据分类问题上具有一定的优势。  相似文献   

4.
《软件》2016,(7):75-79
不平衡数据集的分类问题是现今机器学习的一个热点问题。传统分类学习器以提高分类精度为准则导致对少数类识别准确率下降。本文首先综合描述了不平衡数据集分类问题的研究难点和研究进展,论述了对分类算法的评价指标,进而提出一种新的基于二次随机森林的不平衡数据分类算法。首先,用随机森林算法对训练样本学习找到模糊边界,将误判的多数类样本去除,改变原训练样本数据集结构,形成新的训练样本。然后再次使用随机森林对新训练样本数据进行训练。通过对UCI数据集进行实验分析表明新算法在处理不平衡数据集上在少数类的召回率和F值上有提高。  相似文献   

5.
对不平衡数据集SVM分类存在着分类结果偏向多数类的情况,使得分类结果中少数类的F1-Measure值偏低.本文提出一种不改变样本集合的样本数,并结合样本点总数,分类过程中的支持向量个数,少数类和多数类的准确率,生成权重值对分类超平面参数b进行优化,以此提高少数类样本点分类准确率的方法,并通过实验证明该方法的有效性.  相似文献   

6.
针对现有的主动学习算法在多分类器应用中存在准确率低、速度慢等问题,将基于仿射传播(AP)聚类的主动学习算法引入到多分类支持向量机中,每次迭代主动选择最有利于改善多类SVM分类器性能的N个新样本点添加到训练样本点中进行学习,使得在花费较小标注代价情况下,能够获得较高的分类性能。在多个不同数据集上的实验结果表明,新方法能够有效地减少分类器训练时所需的人工标注样本点的数量,并获得较高的准确率和较好的鲁棒性。  相似文献   

7.
胡小生  张润晶  钟勇 《计算机科学》2013,40(11):271-275
类别不平衡数据分类是机器学习和数据挖掘研究的热点问题。传统分类算法有很大的偏向性,少数类分类效果不够理想。提出一种两层聚类的类别不平衡数据级联挖掘算法。算法首先进行基于聚类的欠采样,在多数类样本上进行聚类,之后提取聚类质心,获得与少数类样本数目相一致的聚类质心,再与所有少数类样例一起组成新的平衡训练集,为了避免少数类样本数量过少而使训练集过小导致分类精度下降的问题,使用SMOTE过采样结合聚类欠采样;然后在平衡的训练集上使用K均值聚类与C4.5决策树算法相级联的分类方法,通过K均值聚类将训练样例划分为K个簇,在每个聚类簇内使用C4.5算法构建决策树,通过K个聚簇上的决策树来改进优化分类决策边界。实验结果表明,该算法具有处理类别不平衡数据分类问题的优势。  相似文献   

8.
杨婷  孟相如  温祥西  伍文 《计算机应用》2013,33(9):2553-2556
针对支持向量机(SVM)训练不平衡样本数据产生最优分类面的偏移会降低分类模型泛化性的问题,提出一种基于Fisher类内散度平均分布比的分类面修正方法。对样本数据进行SVM训练后获得分类面的法向量;通过计算两类样本在该法向量方向上的Fisher类内散度来评价这两类样本的分布情况;依据类内散度综合考虑样本个数所得到的平均分布比重新修正最优分类面的位置。在benchmarks数据集上的实验结果说明该方法能够提高SVM分类模型在处理不均衡数据集时对于少数类的识别率,从而有助于提高模型的泛化性。  相似文献   

9.
提出了一种基于Canopy与人工合成少数类别过采样技术(CSMOTE)和自适应增强学习(AdaBoostM1)的入侵检测分类方法,以有效减少入侵检测模型因训练数据集攻击类型不均衡而导致的分类误差,提高分类准确率。通过Canopy聚类消除训练集中的孤立点或噪音点,减少训练集噪声;并在预处理时通过SMOTE增加少数类别的样本数量,构造类间平衡的平衡数据集,然后在平衡数据集上用AdaBoosM1训练得到分类器。与在原始训练集上训练的分类器相比,该方法在保持整体准确率高的情况下,少数类别U2R攻击的准确率提升20%,R2L攻击的准确率提升5%,同时平均漏报率降低9%,实验结果表明该方法可以有效提升少数类别准确率,降低平均漏报率,能有效地解决网络入侵检测少数类误分类问题。  相似文献   

10.
改进的PSVM及其在非平衡数据分类中的应用   总被引:2,自引:0,他引:2       下载免费PDF全文
标准近似支持向量机(PSVM)没有考虑非平衡分布数据的分类问题,为此,在PSVM的基础上,将优化问题中的惩罚因子由数值变更为一个对角阵,提出了一种改进的PSVM算法。该方法利用引入的对角阵对正负样本分别分配不同的惩罚因子,由于其任意性,使得该算法可以解决由多种因素引起的分布不平衡的分类问题,稳健性较好。利用实值免疫克隆算法实现了模型参数的自动选择,进一步提高了算法的泛化性能。实验结果表明新算法对于处理分布不平衡数据的分类问题相当有效。  相似文献   

11.
一种基于拟牛顿法的大类别分类算法   总被引:2,自引:0,他引:2  
支持向量机利用接近边界的少数向量来构造一个最优分类面。然而当两类中的样本数量差别悬殊时,PSVM算法则会过度拟合样本量大的那一类,而对样本量很小的那一类的错分率相当高。为解决此问题,本文提出了一种改进的支持向量机算于拟牛顿法的大类别分类算法。同时,这个问题也是大类别分类问题所采用的留一法面临的问题,在DFP-PSVM的基础上,提出了基于拟牛顿法的大类别分类算法。通过仿真实验证实了此算法在精度上优于PSVM算法。  相似文献   

12.
针对经典支持向量机在增量学习中的不足,提出一种基于云模型的最接近支持向量机增量学习算法。该方法利用最接近支持向量机的快速学习能力生成初始分类超平面,并与k近邻法对全部训练集进行约简,在得到的较小规模的精简集上构建云模型分类器直接进行分类判断。该算法模型简单,不需迭代求解,时间复杂度较小,有较好的抗噪性,能较好地体现新增样本的分布规律。仿真实验表明,本算法能够保持较好的分类精度和推广能力,运算速度较快。  相似文献   

13.
沈洋 《计算机应用研究》2020,37(11):3281-3286
针对二叉树支持向量机多分类算法准确率与分类效率较低的问题,提出了一种基于加权模糊隶属度的二叉树支持向量机多分类算法(binary tree support vector machines multi-classification algorithm based on weighted fuzzy membership,PF-BTSVM)。该算法依据最大最小样本距离与质心距离构造出一个近似完全二叉树,提高了整体结构的分类效率;利用模糊隶属度函数以及正负辅助惩罚因子对训练集进行筛选,剔除掉对分类无用的样本与噪声值,实现了训练集的提纯并且削弱了不平衡分类时超平面的偏移。在数据集上的实验结果表明,与其他二叉树多分类算法相比,该算法在提高了分类准确率以及稳定性的的同时还加快了训练与分类的速度,而且这种优势当分类的不平衡度越大时越明显。  相似文献   

14.
基于近似支持向量机的Web文本分类研究   总被引:1,自引:0,他引:1  
文本分类技术是知识管理系统实现知识有效组织、存储和检索的重要手段.本文提出了一种新的基于近似支持向量机的分类算法,并将该分类算法应用于文本分类分析.实验过程中与现有的分类方法比较,新的分类方法具有训练速度快、分类精度比较高的优点.  相似文献   

15.
基于样本分布不平衡的近似支持向量机   总被引:3,自引:0,他引:3  
针对标准的近似支持向量机(PSVM)没有考虑样本分布不平衡的问题,提出了一种新的PSVM算法-BPSVM,根据训练样本数量的不平衡对正负样本集分别分配了不同的惩罚因子,并将原始优化问题的惩罚因子由数值变更为一个对角阵,最后推导出了线性和非线性BPSVM的决策函数,实验结果表明:BPSVM的性能优于PSVM与SVM方法相比效率更高.  相似文献   

16.
基于流形主动学习的遥感图像分类算法   总被引:1,自引:0,他引:1  
刘康  钱旭  王自强 《计算机应用》2013,33(2):326-328
为了高效地解决遥感图像分类问题,提出一种基于流形学习和支持向量机(SVM)的图像分类算法。在初始阶段,该算法首先利用初始训练集训练SVM,并且使用SVM找出离分类界面最近的样本;然后在所选样本中利用拉普拉斯图构建样本空间的流形结构,选出最具有代表性的样本加入训练集;最后利用高光谱图像进行实验进行验证。通过与现有的主动学习算法进行比较,结果表明该算法获得了更高的分类准确率。  相似文献   

17.
为克服传统支持向量机不能处理交叉数据分类问题,Mangasarian等人提出一种新的分类方法PSVM,该方法可有效解决交叉数据两分类问题,但用PSVM解决多分类问题还报道不多。为此,提出一种基于PSVM的多分类方法(M-PSVM),并探讨训练样本比例与分类精度之间关系。在UCI数据集上的测试结果表明,M-PSVM与传统SVM分类性能相当,且当训练样本比例小时,效果更优;此外,在入侵检测数据集上的初步实验表明,M-PSVM可有效改进少数类的分类精度,因而为求解数据不平衡下的分类问题提供了新的思路,进一步的实验验证正在进行。  相似文献   

18.
支持向量机利用接近边界的少数向量来构造一个最优分类面。但是若两分类问题中的样本呈现非平衡分布时,即两类样本数目相差很大时,分类能力就会有所下降。提出分别使用重复数量少的一类样本、选择数量多的类样本以及引入类惩罚因子的三个方法来改善分类能力。实验表明,三种方法对不同类型数据集合,一定程度上都改善了支持向量的分类能力。  相似文献   

19.
针对现有异常轨迹检测中分类不平衡造成难以确定最优分类面的问题,提出一种基于加权极限学习机(ELM,Extreme Learning Machine)的异常轨迹检测算法。该算法采用加权ELM克服轨迹数据不平衡造成的分类面偏移,通过对正、负两类样本合理分配权重,并构造最优分类面获得较好的异常检测效果。仿真实验表明,加权ELM算法在训练速度,准确率,整体性能等方面均优干传统SVM和BP网络分类方法。  相似文献   

20.
针对不平衡数据集中的少数类在传统分类器上预测精度低的问题,提出了一种基于欠采样和代价敏感的不平衡数据分类算法——USCBoost。首先在AdaBoost算法每次迭代训练基分类器之前对多数类样本按权重由大到小进行排序,根据样本权重选取与少数类样本数量相当的多数类样本;之后将采样后的多数类样本权重归一化并与少数类样本组成临时训练集训练基分类器;其次在权重更新阶段,赋予少数类更高的误分代价,使得少数类样本权重增加更快,并且多数类样本权重增加更慢。在10组UCI数据集上,将USCBoost与AdaBoost、AdaCost、RUSBoost进行对比实验。实验结果表明USCBoost在F1-measure和G-mean准则下分别在6组和9组数据集获得了最高的评价指标。可见所提算法在不平衡数据上具有更好的分类性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号