首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到15条相似文献,搜索用时 171 毫秒
1.
一种基于核SMOTE的非平衡数据集分类方法   总被引:7,自引:0,他引:7       下载免费PDF全文
曾志强  吴群  廖备水  高济 《电子学报》2009,37(11):2489-2495
 本文提出一种基于核SMOTE(Synthetic Minority Over-sampling Technique)的分类方法来处理支持向量机(SVM)在非平衡数据集上的分类问题.其核心思想是首先在特征空间中采用核SMOTE方法对少数类样本进行上采样,然后通过输入空间和特征空间的距离关系寻找所合成样本在输入空间的原像,最后再采用SVM对其进行训练.实验表明,核SMOTE方法所合成的样本质量高于SMOTE算法,从而有效提高SVM在非平衡数据集上的分类效果.  相似文献   

2.
为了提高不平衡数据集分类中少数类的分类精度,提出了基于特征选择的过抽样算法.该算法考虑了不同的特征列对分类性能的不同作用,首先对训练集进行特征选择,选出一组特征列,然后根据选出的特征列合成少数类样本,合成的每个少数类样本的特征由两部分组成,一部分是特征选择的特征列对应的特征,另一部分是按照SMOTE原理合成的特征.将基于特征选择的过抽样算法和SMOTE算法进行实验比较,结果表明基于特征选择的过抽样算法的性能优于SMOTE算法,能有效降低数据的不平衡性,提高少数类的分类精度.  相似文献   

3.
基于改进SMOTE的不平衡数据挖掘方法研究   总被引:1,自引:0,他引:1       下载免费PDF全文
少类样本合成过采样技术(SMOTE)是一种新型的过采样方法,能够有效地处理不平衡数据分类问题.但SMOTE在产生合成样本的过程中,存在一定的盲目性.因此本文提出一种改进的过采样方法一自适应SMOTE,根据样本集内部分布特性,自适应调整SMOTE方法中近邻选择策略,控制合成样本的质量.算法分析和仿真结果表明,文中提出的方法在不影响计算复杂度的前提下,有效地提高了分类算法的整体分类准确率.  相似文献   

4.
电信用户欠费预测是一个不平衡数据集分类问题.针对传统支持向量机(SVM)对不均衡数据集中少数类检测精度低的问题,基于分类平面由边界样本的位置决定,提出了一种通过删除部分多数类边界样本的方法来改善传统SVM算法的不足,将该算法和其他几种算法在电信数据和多个不平衡UCI数据集上的实验结果进行对比,验证所提算法对少数类的检测精度和总体评价指标都有所提高.  相似文献   

5.
<正>本文从过采样的角度对不平衡数据集进行了优化,从而改善了分类器在少数类样本中的预测准确率。为了量化边界样本学习的难易程度,引入分类硬度来求取边界样本所需要合成的样本数目,以实现更准确的过采样策略。从过采样角度,提出Ada SMOET算法实现边界样本的自适应取样,克服了原始的SMOTE算法不能按照样本的重要程度取样的缺点。实验结果表明,提出的Ada SMOET算法优于原SMOTE算法。  相似文献   

6.
针对处理不平衡数据集的分类问题,SMOTE通过在相邻样例间线性插值实现少数类样例过采样。但SMOTE插值的结果是样例密集的地方依然相对密集,样例稀疏的地方依然相对稀疏,影响分类性能。针对该问题本文提出一种基于聚类的过采样方法-C-SMOTE。该方法首先将少数类样例聚成多个簇,再以簇为单位结合SMOTE方法产生新样例。实验结果表明,C-SMOTE既保证了数据集整体分类准确率,又能提高少数类分类精度。  相似文献   

7.
针对入侵检测数据高维且不均衡的问题,提出基于欠采样和对抗自编码器的入侵检测算法。首先,采用改进的EasyEnsemble欠采样方法将多数类样本多次采样分成多个子样本,训练多个子分类器,最终得到强分类器来处理数据不均衡问题,然后利用对抗自编码器对处理后的数据进行降维,最后用随机森林算法对处理后的新数据进行分类,来检测出高维且不平衡数据中的恶意攻击。实验结果表明,该算法相对于传统算法表现出较优的性能,能够有效地提高入侵检测的准确性,降低误报率。  相似文献   

8.
《信息技术》2017,(1):5-8
文中针对不平衡数据导致分类结果倾斜现象,提出了一种结合SMOTE和GEPSVM的分类方法。该方法利用SMOTE过采样重构训练集,使训练集达到相对平衡,避免了重复样本数据带来的过学习问题,最后用GEPSVM进行分类学习。在UCI数据集上的实验证明了该算法在不平衡数据集上与传统的SVM算法相比有更好的分类效果,在计算时间上也有一定的优势。  相似文献   

9.
内陆水体探测是遥感领域中的重要研究方向之一,涵盖河流形态变化监测、实时洪水监测和地表水变化分析等领域。支持向量机(Support Vector Machine, SVM)在非线性分类问题上表现优秀并且能够得到较低的错误率。提出了一种基于SVM的全球导航卫星系统反射(GNSS-R)信号内陆水体识别方法,使用星载GNSS-R信噪比(Signal to Noise Ratio, SNR)作为像素构建遥感图像,并应用合成少数类过采样技术(Synthetic Minority Oversampling Technique, SMOTE)进行数据处理。在此基础上,通过SVM模型的方式实现水体信息提取,并在刚果盆地区域的旋风全球导航卫星系统(Cyclone Global Navigation Satellite System, CYGNSS)数据进行了验证。结果表明,未进行SMOTE算法处理的分类准确率是65.1%,其中水体分类准确率5.39%,而经过SVM模型和SMOTE算法处理后,数据分类准确率提高至96.49%,水体分类准确率提高至96.32%,准确率和水体查准率都得到了提高,显示了利用基于S...  相似文献   

10.
基于密度敏感最大软间隔SVDD不均衡数据分类算法   总被引:1,自引:0,他引:1       下载免费PDF全文
陶新民  李晨曦  沈微  常瑞  王若彤  刘艳超 《电子学报》2018,46(11):2725-2732
为了提高传统支持向量域描述(C-SVDD)算法处理不均衡数据集的分类能力,提出一种基于密度敏感最大软间隔支持向量域描述(DSMSM-SVDD)算法.该算法通过对多数类样本引入相对密度来体现训练样本原始空间分布对求解最优分类界面的影响,通过在目标函数中增加最大软间隔正则项,使C-SVDD的分类边界向少数类偏移,进而提高算法分类性能.算法首先对每个多数类样本计算相对密度来反映样本的重要性,然后将训练样本输入到DSMSM-SVDD中实现数据分类.实验部分,讨论了算法参数间的关系及其对算法分类性能的影响,给出算法参数取值建议.最后通过与C-SVDD的对比实验,表明本文建议的算法在不均衡数据情况下的分类性能优于C-SVDD算法.  相似文献   

11.
翟云  王树鹏  马楠  杨炳儒  张德政 《电子学报》2014,42(7):1311-1319
非平衡数据集分类问题是机器学习领域的重大挑战性难题.针对该难题,传统的少数类样本合成技术(Synthetic Minority Over-Sampling Technique,SMOTE)已成为一种有力手段并得到广泛采用.但在新样本生成过程中,SMOTE利用所有少数类样本合成新样本,由此产生过拟合瓶颈.为更好地解决该问题,提出了一种基于单边选择链和样本分布密度的非平衡数据挖掘新方法(One-Sided Link & Distribution Density-SMOTE,OSLDD-SMOTE).OSLDD-SMOTE通过单边选择链遴选出处于分类边界的少数类样本,根据这些样本的动态分布密度生成新样本.进而分析了样本合成度对节点数目和对少数类精度的影响;基于G-mean、F-measure和AUC三个指标综合比较了OSLDD-SMOTE与其他同类方法的分类性能.实验结果表明,OSLDD-SMOTE有效提高了少数类样本的分类准确率.  相似文献   

12.
高雷阜  赵世杰  于冬梅  徒君 《电子学报》2017,45(12):2978-2986
针对标准支持向量机(SVM)识别非均衡数据往往会出现最优超平面倾向性和正类样本大量错分的现象,探讨SVM识别非均衡数据失效的原因及对策;考虑到SVM最优超平面仅由少量支持向量完全决定的特性,提出一种基于负类边界样本裁剪策略的SVM数学模型.鉴于该模型需经多次负类数据的"训练-裁剪"过程才能较好地识别正类样本且较为费时,以等效的一次性裁掉更多样本的裁截面技术作为替代,提出一种耦合负类样本裁剪与非对称错分惩罚的非均衡SVM算法,并利用改进正余弦优化算法优化裁剪偏移量以提高算法的非均衡数据处理能力.数值实验结果验证了裁剪偏移量的优化必要性、改进正余弦优化算法的较强优化性能和改进SVM算法对非均衡数据的较好识别性能.  相似文献   

13.
支持向量机(SVM)的文本分类算法被广泛应用,其中序列最小优化算法(SMO)是它的一个特例。SMO算法使用了块与分解技术,简单并且容易实现,但是它的收敛较慢,迭代次数较多。解决的办法是改进SMO算法中工作集的选择算法,并更新步长因子,目的是为了使目标函数尽可能地下降。文中基于这个目标提出了改进的SMO算法来进一步提高SVM的训练速度和分类的准确程度。  相似文献   

14.
利用非合作博弈理论为概率过抽样合成的少数类数据决定其最可能的类标签,将数据中的非本类合成数据进行过滤,减少概率过抽样合成数据过程中产生的重叠数据,得到更高质量的少数类数据进而改善数据倾斜状况。实验分别以CART和SVM分类器建立模型,将本文提出的面向非平衡数据分类的概率过抽样过滤方法RACOG+F与原始概率过抽样方法分别在8个KEEL非平衡数据集上进行对比。实验表明,本文提出的方法在评价指标F-measure、G-mean和AUC上获得了较好的分类性能。  相似文献   

15.
提出了一个基于支持向量机的医学图像分类器.能提取形状和纹理特征作为分类算法的特征输入,进行计算机辅助诊断.提出了一种支持向量机新算法,解决了当两类中的样本数量差别较大时,支持向量机的分类能力将会下降的问题.实验表明,在小样本、两类样本数量严重不均衡的情况下,该算法有着较强的分类能力,可以极大地提高医学图像分类的效率和准确性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号