首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 234 毫秒
1.
软件缺陷预测是典型的非平衡学习问题。基于CS SVM和聚类算法改进代价敏感支持向量机(SVM)算法,提出了CCS SVM软件缺陷预测模型。在CCS SVM预测模型中,将SVM与类别误分代价结合起来,以非平衡数据评价指标作为目标函数,优化错分代价因子,提升少数类样本的识别率。通过聚类找到每类样本的中心点,根据样本到其中心点的距离定义每个样本的类别置信度,给每个样本分配不同的误分代价系数,并把样本的置信度引入到代价敏感SVM优化问题中,提高算法鲁棒性,提升SVM分类性能。此外,为了提高模型的泛化能力,使用遗传算法优化特征选择和模型参数。通过美国航空航天局NASA MDP数据集实验表明,本文方法的G mean和F measure模型评价值有明显的提升。  相似文献   

2.
丁晓剑  赵银亮 《自动化学报》2011,37(9):1105-1113
Poggio指出支持向量机(Support vector machine,SVM)中偏置b项是为了保证核函数的正定性,当使用的核函数为正定核时,b就不需要存在.为了验证b对SVM分类问题泛化性能的影响,研究了无bSVM的优化问题并给出了相应的有效集求解算法.通过XOR分类问题的实验研究得出约束条件 ∑1Nyiαi= 0 会影响SVM得到最佳分类超平面.实验中的基准数据集包括了中小数据集、大规模数据集、高维数据集和多类分类数据集,并使用高斯正定核和多项式正定核作为核函数.基于26个标准数据集的实验表明无bSVM在分类问题中的计算代价要低于SVM,泛化性能要好于SVM.参数敏感性测试表明无bSVM对代价参数变化不太敏感,这使得无bSVM能在较少的参数值对中得到最佳测试精度.  相似文献   

3.
为了改善传统支持向量机SVM对不平衡数据集中少数类的分类效果,提出一种基于改进灰狼算法(IGWO)的过采样方法——IGWOSMOTE。首先,改进初始灰狼种群的生成形式,由SVM的惩罚因子、核参数、特征向量和少数类的采样率组成灰狼个体;然后,经由灰狼优化过程智能搜索获得最优相关参数和最优采样率组合,进行重新采样供分类器学习及预测。通过对6个UCI数据集的分类实验得出:IGWOSMOTE+SVM较传统SMOTE+SVM方法在少数类分类精度上提高了6.3个百分点,在整体数据集分类精度上提高了2.1个百分点,IGWOSMOTE可作为一种新的过采样分类方法。  相似文献   

4.
鲁淑霞  张振莲 《计算机科学》2021,48(11):184-191
为了解决非平衡数据分类问题,提出了一种基于最优间隔的AdaBoostv算法.该算法采用改进的SVM作为基分类器,在SVM的优化模型中引入间隔均值项,并根据数据非平衡比对间隔均值项和损失函数项进行加权;采用带有方差减小的随机梯度方法(Stochastic Variance Reduced Gradient,SVRG)对优化模型进行求解,以加快收敛速度.所提基于最优间隔的AdaBoostv算法在样本权重更新公式中引入了一种新的自适应代价敏感函数,赋予少数类样本、误分类的少数类样本以及靠近决策边界的少数类样本更高的代价值;另外,通过结合新的权重公式以及引入给定精度参数v下的最优间隔的估计值,推导出新的基分类器权重策略,进一步提高了算法的分类精度.对比实验表明,在线性和非线性情况下,所提基于最优间隔的Ada-Boostv算法在非平衡数据集上的分类精度优于其他算法,且能获得更大的最小间隔.  相似文献   

5.
一种面向不平衡数据的结构化SVM集成分类器   总被引:1,自引:0,他引:1  
为改进面向不平衡数据的SVM分类器性能,以结构化SVM为基础,提出一种基于代价敏感的结构化支持向量机集成分类器模型.该模型首先通过训练样本的聚类,得到隐含在数据中的结构信息,并对样本进行初始加权.运用AdaBoost策略对各样本的权重进行动态调整,适当增大少数类样本的权重,使小类中误分的样本代价增大,以此来改进不平衡数据的分类性能.实验结果表明,该算法可有效提高不平衡数据的分类性能.  相似文献   

6.
处理不平衡数据分类时,传统支持向量机技术(SVM)对少数类样本识别率较低。鉴于SVM+技术能利用样本间隐藏信息的启发,提出了多任务学习的不平衡SVM+算法(MTL-IC-SVM+)。MTL-IC-SVM+基于SVM+将不平衡数据的分类表示为一个多任务的学习问题,并从纠正分类面的偏移出发,分别赋予多数类和少数类样本不同的错分惩罚因子,且设置少数类样本到分类面的距离大于多数类样本到分类面的距离。UCI数据集上的实验结果表明,MTL-IC-SVM+在不平衡数据分类问题上具有较高的分类精度。  相似文献   

7.
为解决极端不平衡数据中的分类问题,通过引入样本权值偏度调整函数优化Adaboost模型每轮迭代中权重更新函数,让权重更新不仅考虑错误分类样本采样权重,更关注错误样本中少数类样本,以适应极端不平衡情况。实验过程中对比分析改进模型与主流不平衡分类模型。结果显示,不同于传统不平衡模型以少数类识别准确率为代价保证其良好召回率,改进模型以中游水平召回率下取得最优识别准确率。由此在F1-score指标上表现优良,展现出对少数类样本分类稳定性。  相似文献   

8.
针对不平衡图像分类中少数类查全率低、分类结果总代价高,以及人工提取特征主观性强而且费时费力的问题,提出了一种基于Triplet-sampling的卷积神经网络(Triplet-sampling CNN)和代价敏感支持向量机(CSSVM)的不平衡图像分类方法——Triplet-CSSVM。该方法将分类过程分为特征学习和代价敏感分类两部分。首先,利用误差公式为三元损失函数的卷积神经网络端对端地学习将图像映射到欧几里得空间的编码方法;然后,结合采样方法重构数据集,使其分布平衡化;最后,使用CSSVM分类算法给不同类别赋以不同的代价因子,获得最佳代价最小的分类结果。在深度学习框架Caffe上使用人像数据集FaceScrub进行实验。实验结果表明,所提方法在1∶3的不平衡率下,与VGGNet-SVM方法相比,少数类的精确率提高了31个百分点,召回率提高了71个百分点。  相似文献   

9.
杨婷  孟相如  温祥西  伍文 《计算机应用》2013,33(9):2553-2556
针对支持向量机(SVM)训练不平衡样本数据产生最优分类面的偏移会降低分类模型泛化性的问题,提出一种基于Fisher类内散度平均分布比的分类面修正方法。对样本数据进行SVM训练后获得分类面的法向量;通过计算两类样本在该法向量方向上的Fisher类内散度来评价这两类样本的分布情况;依据类内散度综合考虑样本个数所得到的平均分布比重新修正最优分类面的位置。在benchmarks数据集上的实验结果说明该方法能够提高SVM分类模型在处理不均衡数据集时对于少数类的识别率,从而有助于提高模型的泛化性。  相似文献   

10.
将线性尺度空间的特征点扩展问题转化为多尺度数据集的同尺度内分类问题,该问题属于尺度不变的非平衡数据集分类问题。提出了一种基于尺度空间的核学习的采样算法来处理支持向量机(support vector machine,SVM)在非平衡数据集上的分类问题。其核心思想是首先在核空间中对少数类样本进行上采样,然后通过输入空间和核空间的距离关系寻找所合成样本在输入空间的原像,最后再采用SVM对其进行训练,从而有效克服了目前采样方法在不同空间处理训练样本所带来的数据不一致问题。该算法所采用的采样策略不仅能够降低数据失衡率,而且能够拓展少数类样本所形成的凸壳,从而更为有效地纠正最优分类超平面偏移问题。实验结果证明,所获得的结果分类器具有更好的泛化性能,能够在同尺度内有效扩展稳定特征点数量。  相似文献   

11.
大多数非均衡数据集的研究集中于纯重构数据集或者纯代价敏感学习,本文针对数据集类分布非均衡和不相等误分类代价往往同时发生这一事实,提出了一种以最小误分类代价为目标的基于混合重取样的代价敏感学习算法。该算法将两种不同类型解决方案有机地融合在一起,先用样本类空间重构的方法使原始数据集的两类数据达到基本均衡,然后再引入代价敏感学习算法进行分类,能提高少数类分类精度,同时有效降低总的误分类代价。实验结果验证了该算法在处理非均衡类问题时比传统算法要优越。  相似文献   

12.
Abstract: Decision tree induction has been widely studied and applied. In safety applications, such as determining whether a chemical process is safe or whether a person has a medical condition, the cost of misclassification in one of the classes is significantly higher than in the other class. Several authors have tackled this problem by developing cost-sensitive decision tree learning algorithms or have suggested ways of changing the distribution of training examples to bias the decision tree learning process so as to take account of costs. A prerequisite for applying such algorithms is the availability of costs of misclassification. Although this may be possible for some applications, obtaining reasonable estimates of costs of misclassification is not easy in the area of safety .
This paper presents a new algorithm for applications where the cost of misclassifications cannot be quantified, although the cost of misclassification in one class is known to be significantly higher than in another class. The algorithm utilizes linear discriminant analysis to identify oblique relationships between continuous attributes and then carries out an appropriate modification to ensure that the resulting tree errs on the side of safety. The algorithm is evaluated with respect to one of the best known cost-sensitive algorithms (ICET), a well-known oblique decision tree algorithm (OC1) and an algorithm that utilizes robust linear programming.  相似文献   

13.
Traditional Multiple Empirical Kernel Learning (MEKL) expands the expressions of the sample and brings better classification ability by using different empirical kernels to map the original data space into multiple kernel spaces. To make MEKL suit for the imbalanced problems, this paper introduces a weight matrix and a regularization term into MEKL. The weight matrix assigns high misclassification cost to the minority samples to balanced misclassification cost between minority and majority class. The regularization term named Majority Projection (MP) is used to make the classification hyperplane fit the distribution shape of majority samples and enlarge the between-class distance of minority and majority class. The contributions of this work are: (i) assigning high cost to minority samples to deal with imbalanced problems, (ii) introducing a new regularization term to concern the property of data distribution, (iii) and modifying the original PAC-Bayes bound to test the error upper bound of MEKL-MP. Through analyzing the experimental results, the proposed MEKL-MP is well suited to the imbalanced problems and has lower generalization risk in accordance with the value of PAC-Bayes bound.  相似文献   

14.
The original extreme learning machine (ELM) was designed for the balanced data, and it balanced misclassification cost of every sample to get the solution. Weighted extreme learning machine assumed that the balance can be achieved through the equality of misclassification costs. This paper improves previous weighted ELM with decay-weight matrix setting for balance and optimization learning. The decay-weight matrix is based on the sample number of each class, but the weight sum values of each class are not necessarily equal. When the number of samples is reduced, the weight sum is also reduced. By adjusting the decaying velocity, classifier could achieve more appropriate boundary position. From the experimental results, the decay-weighted ELM obtains the better effects in solving the imbalance classification tasks, particularly in multiclass tasks. This method was successfully applied to build the prediction model in the urban traffic congestion prediction system.  相似文献   

15.
基于支持向量机的代价敏感挖掘   总被引:4,自引:0,他引:4  
针对一些数据挖掘应用中反例样本和正例样本具有不同误分类代价的情况,提出一种代价敏感支持向量机算法CS-SVM.CS-SVM包括3个步骤:首先,引入Sigmoid函数,根据样本到分类超平面的距离估计其后验概率;然后,根据误分类代价最小原则重构训练样本的类标号;最后,在重构后的训练集上使用标准SVM进行学习即得到嵌入误分类代价的最优分类超平面.基于CS-SVM的思路,提出一个通用的嵌入误分类代价的代价敏感分类算法G-CSC.试验结果表明:相比于SVM,CS-SVM大大降低测试集上的平均误分类代价.  相似文献   

16.
代价敏感属性选择问题的目的是通过权衡测试代价和误分类代价,得到一个具有最小总代价的属性子集。目前,多数代价敏感属性选择方法只考虑误分类代价固定不变的情况,不能较好地解决类分布不均衡等问题。而在大规模数据集上,算法效率不理想也是代价敏感属性选择的主要问题之一。针对这些问题,以总代价最小为目标,设计了一种新的动态误分类代价机制。结合分治思想,根据数据集规模按列自适应拆分各数据集。基于动态误分类代价重新定义最小代价属性选择问题,提出了动态误分类代价下的代价敏感属性选择分治算法。通过实验表明,该算法能在提高效率的同时获得最优误分类代价,从而保证所得属性子集的总代价最小。  相似文献   

17.
基于标准支持向量机的托攻击检测方法不能体现由于用户误分代价不同对分类效果带来的影响,提出了一种基于代价敏感支持向量机的托攻击检测新方法,该方法在代价敏感性学习机制下引入支持向量机作为分类工具,对支持向量机输出进行后验概率建模,建立了基于类别隶属度的动态代价函数,更准确地反映不同样本的分类代价,在此基础上设计了代价敏感支持向量机分类器。将该分类器应用在推荐系统托攻击检测中,并与标准的支持向量机方法、代价敏感支持向量机方法进行比较,实验结果表明,本方法可以更精确地控制代价敏感性,进一步提高对攻击用户的检测精度,降低总体的误分类代价。  相似文献   

18.
万建武  杨明  吉根林  陈银娟 《软件学报》2013,24(5):1155-1164
传统的局部保持降维方法追求最低的识别错误率,即假设每一类的错分代价都是相同的.这个假设在真实的人脸识别应用中往往是不成立的.人脸识别是一个多类的代价敏感和类不平衡问题.例如,在人脸识别的门禁系统中,将入侵者错分成合法者的损失往往高于将合法者错分成入侵者的损失.因此,每一类的错分代价是不同的.另外,如果任一类合法者的样本数少于入侵者的样本数,该类合法者和入侵者就是类别不平衡的.为此,将错分代价融入到局部保持的降维模型中,提出了一种错分代价最小化的局部保持降维方法.同时,采用加权策略平衡了各类样本对投影方向的贡献.在人脸数据集AR,PIE,Extended Yale B 上的实验结果表明了该算法的有效性.  相似文献   

19.
In this paper, we propose a normalized semi-supervised probabilistic expectation-maximization neural network (PEMNN) that minimizes Bayesian misclassification cost risk. Using simulated and real-world datasets, we compare the proposed PEMNN with supervised cost sensitive probabilistic neural network (PNN), discriminant analysis (DA), mathematical integer programming (MIP) model and support vector machines (SVM) for different misclassification cost asymmetries and class biases. The results of our experiments indicate that the PEMNN performs better when class data distributions are normal or uniform. However, when class data distribution is exponential the performance of PEMNN deteriorates giving slight advantage to competing MIP, DA, PNN and SVM techniques. For real-world data with non-parametric distributions and mixed decision-making attributes (continuous and categorical), the PEMNN outperforms the PNN.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号