首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 182 毫秒
1.
电信用户欠费预测是一个不平衡数据集分类问题.针对传统支持向量机(SVM)对不均衡数据集中少数类检测精度低的问题,基于分类平面由边界样本的位置决定,提出了一种通过删除部分多数类边界样本的方法来改善传统SVM算法的不足,将该算法和其他几种算法在电信数据和多个不平衡UCI数据集上的实验结果进行对比,验证所提算法对少数类的检测精度和总体评价指标都有所提高.  相似文献   

2.
基于随机下采样和SMOTE的不均衡SVM分类算法   总被引:2,自引:0,他引:2  
传统的支持向量机(SVM)算法在数据不均衡的情况下,分类效果很不理想。为了提高SVM算法在不均衡数据集下的分类性能,提出随机下采样与SMOTE算法结合的不均衡分类方法。该方法首先利用随机下采样对多数类样本进行采样,去除样本中大量重叠的冗余样本,使得在减少数据的同时保留更多有用信息;而对少数类样本则是利用SMOTE算法进行过采样。实验部分将其应用在UCI数据集中并同其他采样算法比较,结果表明文中算法不但能有效提高SVM算法在不均衡数据中少数类的分类性能,而且总体分类性能也有所提高。  相似文献   

3.
针对传统支持向量机(SVM)在解决多类分类问题时需要训练多个分类器、存在不可分区域等问题,研究了基于支持向量回归机的多类分类算法。利用回归思想求解多类分类问题,将分类样本作为回归输入,样本的类别标识作为回归输出,通过支持向量回归机训练拟合出各样本与其类别标识之间的函数关系。将待分类样本代入回归函数,对其输出取整后即可得到样本类别。该算法仅使用1个分类器,明显简化了分类过程。另外,引入复合核函数来提高支持向量回归机的性能。采用加州大学欧文分校(UCI)例题库中的多类分类问题进行仿真验证,并将改进算法与传统算法作对比,结果表明改进算法在分类速度和准确率上都有显著提高。  相似文献   

4.
适用于不平衡样本数据处理的支持向量机方法   总被引:6,自引:0,他引:6  
吴洪兴彭宇  彭喜元 《电子学报》2006,34(B12):2395-2398
支持向量机算法在处理不平衡样本数据时,其分类器预测具有倾向性.样本数量多的类别,其分类误差小,而样本数量少的类别,其分类误差大.本文针对这种倾向性问题,在分析其产生原因的基础上,提出了基于遗传交叉运算的改进方法.对于小类别训练样本,利用交叉运算产生新的样本,从而补偿了因训练数据类别大小差异而造成的影响.基于UCI标准数据集的仿真实验结果表明,改进方法比标准支持向量机方法具有更好的分类准确率.  相似文献   

5.
白宁 《现代电子技术》2013,(24):22-24,28
针对支持向量机(svM)模型不能有效处理海量数据挖掘的问题,提出一种改进的基于主动学习的支持向量机(AL_SVM)方法。该方法首先将训练集随机划分为多个独立同分布的子集,并选择其中一个子集作为初始训练集来训练SVM得到初始分类器和支持向量集,然后根据已经得到的分类器信息在剩余样本集中选择对于分类器改进作用最大的有价值样本。并与已得到的支持向量集合并构成新训练集,以更新分类器,从而在保留重要支持向量信息的前提下,去除大量不重要的支持向量,一定程度上避免了过学习问题,提高了学习效率。实验表明,AL_SVM方法能够在保持学习器泛化能力的同时提高其学习效率。  相似文献   

6.
一种基于SVM的遥感影像分类技术   总被引:1,自引:0,他引:1  
李雪婵 《通信技术》2009,42(8):115-117
支持向量机(SVM)应用到高光谱图像分类中有较好的识别效果。但用它来分类数据量大、维数高的高光谱图像时,就会遇到如何选择最佳惩罚因子和最优权向量系数的问题。提出一种改进的多类支持向量机分类方法,在OAO-SVM分类结果的基础上进行二次分类,以改善错分样本较多的类别之间的混淆程度。实验表明,二次分类的多类支持向量机方法是有效的。  相似文献   

7.
一种基于核SMOTE的非平衡数据集分类方法   总被引:7,自引:0,他引:7       下载免费PDF全文
曾志强  吴群  廖备水  高济 《电子学报》2009,37(11):2489-2495
 本文提出一种基于核SMOTE(Synthetic Minority Over-sampling Technique)的分类方法来处理支持向量机(SVM)在非平衡数据集上的分类问题.其核心思想是首先在特征空间中采用核SMOTE方法对少数类样本进行上采样,然后通过输入空间和特征空间的距离关系寻找所合成样本在输入空间的原像,最后再采用SVM对其进行训练.实验表明,核SMOTE方法所合成的样本质量高于SMOTE算法,从而有效提高SVM在非平衡数据集上的分类效果.  相似文献   

8.
胡正平  张晔 《信号处理》2007,23(2):161-164
SVM是利用靠近边界的少数向量来构造最大间隔的分类超平面,当海量样本之间存在相互混迭时,支持向量数目急剧增加,导致训练难度增大。针对该问题,本文将结构风险最小化近邻分析与支持向量机相结合构成了一种新的SVM学习方法。它首先根据各个训练数据的类间最近邻距离利用结构风险最小化近邻分析选择训练子集;在选择的样本子空间内采用乘性规则直接求取Lagrange因子,而不是传统的二次优化方法;最后加入附加剩余样本进行交叉验证处理,直到算法满足收敛性准则。各种分类实验表明本文提出的算法具有良好的性能,特别是在训练样本庞大,支持向量数量较多的情况下,能够较大幅度的减少计算复杂度,提高分类速度。  相似文献   

9.
针对在数字电路故障诊断过程中存在的样本不平衡度严重的问题,采用层次式支持向量机实现对其故障诊断,通过考虑各类样本的数据量来构造以支持向量为叶节点的树,该方法可有效地解决样本不平衡所带来的问题,同时能够减少计算SVM分类器的个数,提高了训练和诊断速度及准确率.针对故障样本集不可能覆盖所有故障状态而出现的未知故障状态的问题...  相似文献   

10.
时艳玲  刘子鹏  贾邦玲 《信号处理》2021,37(9):1781-1789
现有的海面弱目标分类算法难以应对单域特征造成特征混叠问题,且存在海杂波和目标样本不平衡的问题。因此,本文研究了一种样本不平衡下的海杂波弱目标分类的方法。首先,从多域提取特征,其中包括从极化域提取球体、双平面和螺旋散射的相对功率特征,从时域提取相对平均幅度特征、和从频域提取非广延熵特征。然后对比分析了海杂波和目标的多域特征之间的区别。由于海杂波特征的样本数目远大于目标样本数目,且海杂波特征具有局部聚集性,为了解决这种样本不平衡以及特征混叠所导致的分类偏差问题,本文设计了一种K均值和支持向量机(SVM)结合的分类器。该分类器主要通过将海杂波样本进行K均值动态聚类,将原本属于一类的海杂波样本分成多类,缓解样本非平衡现象,然后再将多类海杂波样本与目标样本进行SVM分类。经过实测数据验证,该方法具有良好的分类性能。   相似文献   

11.
翟云  王树鹏  马楠  杨炳儒  张德政 《电子学报》2014,42(7):1311-1319
非平衡数据集分类问题是机器学习领域的重大挑战性难题.针对该难题,传统的少数类样本合成技术(Synthetic Minority Over-Sampling Technique,SMOTE)已成为一种有力手段并得到广泛采用.但在新样本生成过程中,SMOTE利用所有少数类样本合成新样本,由此产生过拟合瓶颈.为更好地解决该问题,提出了一种基于单边选择链和样本分布密度的非平衡数据挖掘新方法(One-Sided Link & Distribution Density-SMOTE,OSLDD-SMOTE).OSLDD-SMOTE通过单边选择链遴选出处于分类边界的少数类样本,根据这些样本的动态分布密度生成新样本.进而分析了样本合成度对节点数目和对少数类精度的影响;基于G-mean、F-measure和AUC三个指标综合比较了OSLDD-SMOTE与其他同类方法的分类性能.实验结果表明,OSLDD-SMOTE有效提高了少数类样本的分类准确率.  相似文献   

12.
Abnormal samples are usually difficult to obtain in production systems, resulting in imbalanced training sample sets. Namely, the number of positive samples is far less than the number of negative samples. Traditional Support Vector Machine (SVM)‐based anomaly detection algorithms perform poorly for highly imbalanced datasets: the learned classification hyperplane skews toward the positive samples, resulting in a high false‐negative rate. This article proposes a new imbalanced SVM (termed ImSVM)‐based anomaly detection algorithm, which assigns a different weight for each positive support vector in the decision function. ImSVM adjusts the learned classification hyperplane to make the decision function achieve a maximum GMean measure value on the dataset. The above problem is converted into an unconstrained optimization problem to search the optimal weight vector. Experiments are carried out on both Cloud datasets and Knowledge Discovery and Data Mining datasets to evaluate ImSVM. Highly imbalanced training sample sets are constructed. The experimental results show that ImSVM outperforms over‐sampling techniques and several existing imbalanced SVM‐based techniques.  相似文献   

13.
一种不平衡数据流集成分类模型   总被引:6,自引:2,他引:4  
 针对不平衡数据流的分类问题,结合基于权重的集成分类器与抽样技术,本文提出了一种处理不平衡数据流集成分类器模型.理论分析与实验验证表明,该集成分类器具有更低的计算复杂度,更能适应存在概念漂移的不平衡数据流挖掘分类,其整体分类性能优于基于权重的集成分类器模型,能明显提升少数类的分类精度.  相似文献   

14.
针对处理不平衡数据集的分类问题,SMOTE通过在相邻样例间线性插值实现少数类样例过采样。但SMOTE插值的结果是样例密集的地方依然相对密集,样例稀疏的地方依然相对稀疏,影响分类性能。针对该问题本文提出一种基于聚类的过采样方法-C-SMOTE。该方法首先将少数类样例聚成多个簇,再以簇为单位结合SMOTE方法产生新样例。实验结果表明,C-SMOTE既保证了数据集整体分类准确率,又能提高少数类分类精度。  相似文献   

15.
胡峰  王蕾  周耀 《电子学报》2018,46(1):135-144
采样是解决不平衡数据分类问题的一个有效途径.文中结合三支决策理论,根据样本分布将样本划分成三个区域:正域、边界域和负域;在此基础上,分别对边界域和负域中的小类样本进行不同的过采样处理,提出了一种基于三支决策的不平衡数据过采样算法(TWD-IDOS算法).实验结果表明,在C4.5、KNN和CART等分类器上,文中提出的算法能有效解决不平衡数据的二分类问题,在Recall、F-value、AUC等指标上优于文献中的过采样算法.  相似文献   

16.
程磊  吴晓富  张索非 《信号处理》2020,36(1):110-107
数据集类别不平衡性是机器学习领域的常见问题,对迁移学习也不例外。本文针对迁移学习下数据集类别不平衡性的影响研究不足的问题,重点研究了以下几种不平衡性处理方法对迁移学习的影响效果分析:过采样、欠采样、加权随机采样、加权交叉熵损失函数、Focal Loss函数和基于元学习的L2RW(Learning to Reweight)算法。其中,前三种方法通过随机采样消除数据集的不平衡性,加权交叉熵损失函数和Focal Loss函数通过调整传统分类算法的损失函数以适应不平衡数据集的训练,L2RW算法则采用元学习机制动态调整样本权重以实现更好的泛化能力。大量实验结果表明,在上述各种不平衡性处理方法中,过采样处理和加权随机采样处理更适合迁移学习。   相似文献   

17.
We consider a particular paradigm of steganalysis, namely, highly imbalanced steganalysis with small training samples, in which the cover images always significantly outnumber the stego ones. Researchers have rigorously studied sampling and learning algorithms as well as feature selection approaches to the class imbalance problem, but the research in the steganalysis domain is rare. This study provides a systematic comparison of eight feature selection metrics and of three types of methods developed for the imbalanced data classification problem in the steganalysis domain. Each metric is compared across three different classifiers and four steganalytic features. The efficiency of the metrics is evaluated to determine which performs best with minimal features selected. The performance of the three types of methods and their combinations is examined. Moreover, we also investigate the effect of feature dimensionality, sample number and imbalance degree on the performance of feature selection inresolving imbalanced image steganalysis.  相似文献   

18.
针对网络流量分类过程中出现的类不平衡问题,该文提出一种基于加权对称不确定性(WSU)和近似马尔科夫毯(AMB)的特征选择算法。首先,根据类别分布信息,定义了偏向于小类别的特征度量,使得与小类别具有强相关性的特征更容易被选择出来;其次,充分考虑特征与类别间、特征与特征之间的相关性,利用加权对称不确定性和近似马尔科夫毯删除不相关特征及冗余特征;最后,利用基于相关性度量的特征评估函数以及序列搜索算法进一步降低特征维数,确定最优特征子集。实验表明,在保证算法整体分类精确率的前提下,算法能够有效提高小类别的分类性能。  相似文献   

19.
针对网络流量分类过程中出现的类不平衡问题,该文提出一种基于加权对称不确定性(WSU)和近似马尔科夫毯(AMB)的特征选择算法。首先,根据类别分布信息,定义了偏向于小类别的特征度量,使得与小类别具有强相关性的特征更容易被选择出来;其次,充分考虑特征与类别间、特征与特征之间的相关性,利用加权对称不确定性和近似马尔科夫毯删除不相关特征及冗余特征;最后,利用基于相关性度量的特征评估函数以及序列搜索算法进一步降低特征维数,确定最优特征子集。实验表明,在保证算法整体分类精确率的前提下,算法能够有效提高小类别的分类性能。  相似文献   

20.
针对辐射源个体识别(SEI)中样本标签不完整和数据类别分布不平衡导致分类准确率下降的问题,该文提出了一种基于代价敏感学习和半监督生成式对抗网络(GAN)的特定辐射源分类方法。该方法通过半监督训练方式优化生成器和判别器的网络参数,并向残差网络中添加多尺度拓扑模块融合时域信号的多维分辨率特征,赋予生成样本额外标签从而直接利用判别器完成分类。同时设计代价敏感损失缓解优势样本导致的梯度传播失衡,改善分类器在类不平衡数据集上的识别性能。在4类失衡仿真数据集上的实验结果表明,存在40%无标记样本的情况下,该方法对于5个辐射源的平均识别率相比于交叉熵损失和焦点损失分别提高5.34%和2.69%,为解决数据标注缺失和类别分布不均条件下的特定辐射源识别问题提供了新思路。   相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号