首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 171 毫秒
1.
基于支持向量机的代价敏感挖掘   总被引:4,自引:0,他引:4  
针对一些数据挖掘应用中反例样本和正例样本具有不同误分类代价的情况,提出一种代价敏感支持向量机算法CS-SVM.CS-SVM包括3个步骤:首先,引入Sigmoid函数,根据样本到分类超平面的距离估计其后验概率;然后,根据误分类代价最小原则重构训练样本的类标号;最后,在重构后的训练集上使用标准SVM进行学习即得到嵌入误分类代价的最优分类超平面.基于CS-SVM的思路,提出一个通用的嵌入误分类代价的代价敏感分类算法G-CSC.试验结果表明:相比于SVM,CS-SVM大大降低测试集上的平均误分类代价.  相似文献   

2.
基于改进的QBC和CS-SVM的故障检测   总被引:1,自引:0,他引:1  
针对复杂工业过程样本集中的类不平衡、样本标注代价昂贵和样本孤点的问题,研究基于委员会投票选择(MQBC)和代价敏感支持向量机(CS-SVM)的故障检测方法.给出未标注样本信息度的定义,提出改进的委员会投票选择算法.主动代价敏感学习通过MQBC选择信息度高的未标注样本对其标注并添加到训练集.CS-SVM将不同类样本的误分类赋予不同的误分类代价,从而提高CS-SVM的故障检测率.最后,以铜闪速熔炼过程为例,实验结果验证了所提出方法的有效性.  相似文献   

3.
针对数据识别分类在传统的支持向量机(SVM)个体分类器上正确识别率不理想的问题,提出一种基于代价敏感思想(cost-sensitive)和自适应增强(AdaBoost)的SVM集成数据分类算法(CAB-SVM)。在自适应增强算法每次迭代训练SVM弱分类器之前,根据样本总数设置初始样本权值,并抽取样本组成临时训练集训练SVM弱分类器。其中在权重迭代更新阶段,赋予被分错样本更高的误分代价,使得被分错样本权重增加更快,有效地减少了算法迭代次数。同时,算法迭代过程极大地优化了个体分类器的识别鲁棒性能,使得提出的CAB-SVM算法获得了更优越的数据分类性能。利用UCI数据样本集的实验结果表明CAB-SVM分类算法的正确识别率高于SVM和SVME算法。  相似文献   

4.
软件缺陷预测是典型的非平衡学习问题。基于CS SVM和聚类算法改进代价敏感支持向量机(SVM)算法,提出了CCS SVM软件缺陷预测模型。在CCS SVM预测模型中,将SVM与类别误分代价结合起来,以非平衡数据评价指标作为目标函数,优化错分代价因子,提升少数类样本的识别率。通过聚类找到每类样本的中心点,根据样本到其中心点的距离定义每个样本的类别置信度,给每个样本分配不同的误分代价系数,并把样本的置信度引入到代价敏感SVM优化问题中,提高算法鲁棒性,提升SVM分类性能。此外,为了提高模型的泛化能力,使用遗传算法优化特征选择和模型参数。通过美国航空航天局NASA MDP数据集实验表明,本文方法的G mean和F measure模型评价值有明显的提升。  相似文献   

5.
一种面向不平衡数据的结构化SVM集成分类器   总被引:1,自引:0,他引:1  
为改进面向不平衡数据的SVM分类器性能,以结构化SVM为基础,提出一种基于代价敏感的结构化支持向量机集成分类器模型.该模型首先通过训练样本的聚类,得到隐含在数据中的结构信息,并对样本进行初始加权.运用AdaBoost策略对各样本的权重进行动态调整,适当增大少数类样本的权重,使小类中误分的样本代价增大,以此来改进不平衡数据的分类性能.实验结果表明,该算法可有效提高不平衡数据的分类性能.  相似文献   

6.
特征选择是机器学习和数据挖据中一个重要的预处理步骤,而类别不均衡数据的特征选择是机器学习和模式识别中的一个热点研究问题。多数传统的特征选择分类算法追求高精度,并假设数据没有误分类代价或者有同样的代价。在现实应用中,不同的误分类往往会产生不同的误分类代价。为了得到最小误分类代价下的特征子集,本文提出一种基于样本邻域保持的代价敏感特征选择算法。该算法的核心思想是把样本邻域引入现有的代价敏感特征选择框架。在8个真实数据集上的实验结果表明了该算法的优越性。  相似文献   

7.
基于乘性规则的支持向量域分类器   总被引:18,自引:0,他引:18  
该文提出了一种基于支持向量域描述(SVDD)的学习分类器.在两类样本分类中,该算法在训练时通过对1类样本的描述求取包含1类样本的球形边界.然后通过该边界对两类样本数据进行分类,并且在求取边界的优化问题中,采用乘性规则来直接求取Lagrange乘子,而不是用传统的二次优化方法.该文所获得的学习算法和支持向量机(SVM)与序列最小优化(SMO)算法相比,不仅降低了样本的采集代价,而且在优化速度上有了很大提高.通过CBCL人脸库的仿真实验.将该算法和SVM、SOM算法的实验结果进行对比,说明了该学习算法的有效性.  相似文献   

8.
针对传统分类算法隐含的假设(相信并且接受每个样本的分类结果)在医疗/故障诊断和欺诈/入侵检测等领域中并不适用的问题,提出嵌入非对称拒识代价的二元分类问题,并对其进行简化.在此基础上设计出基于支持向量机(SVM)的代价敏感分类算法(CSVM-CRC).该算法包括训练 SVM 分类器、计算后验概率、估计分类可靠性和确定最优拒识阈值4个步骤.基于10个 Benchmark 数据集的实验研究表明, CSVM-CRC 算法能够有效降低平均代价.  相似文献   

9.
极限学习机的相异性集成算法(Dissimilarity Based Ensemble of Extreme Learning Machine,D-ELM)在基因表达数据分类中能够得到较稳定的分类效果,然而这种分类算法是基于分类精度的,当所给样本的误分类代价不相等时,不能直接实现代价敏感分类过程中的最小平均误分类代价的要求。通过在分类过程中引入概率估计以及误分类代价和拒识代价重新构造分类结果,提出了基于相异性集成极限学习机的代价敏感算法(CS-D-ELM)。该算法被运用到基因表达数据集上,得到了较好的分类效果。  相似文献   

10.
杨浩  王宇  张中原 《计算机应用》2019,39(7):1883-1887
为了解决不均衡数据集的分类问题和一般的代价敏感学习算法无法扩展到多分类情况的问题,提出了一种基于K最近邻(KNN)样本平均距离的代价敏感算法的集成方法。首先,根据最大化最小间隔的思想提出一种降低决策边界样本密度的重采样方法;接着,采用每类样本的平均距离作为分类结果的判断依据,并提出一种符合贝叶斯决策理论的学习算法,使得改进后的算法具备代价敏感性;最后,对改进后的代价敏感算法按K值进行集成,以代价最小为原则,调整各基学习器的权重,得到一个以总体误分代价最低为目标的代价敏感AdaBoost算法。实验结果表明,与传统的KNN算法相比,改进后的算法在平均误分代价上下降了31.4个百分点,并且代价敏感性能更好。  相似文献   

11.
This study proposes a novel PSO–CS-SVM model that hybridizes the particle swarm optimization (PSO) and cost sensitive support vector machine (CS-SVM) to deal with the problem of unbalanced data classification and asymmetry misclassification cost in loan default discrimination problem. Cost sensitive learning is applied to the standard SVM by integrating misclassification cost of each sample into standard SVM and PSO is employed for parameter determination of the CS-SVM. Meantime, the financial data are discretized by using the self-organizing mapping neural network. And the evaluation indices are reduced without information loss by genetic algorithm for decreasing the complexity of the model. The effectiveness of integrated model of CS-SVM and PSO is verified by three experiments comparing with traditional CS-SVM, PSO–SVM, SVM and BP neural network through real loan default data of companies in China. The corresponding results indicate that the accuracy rate, hit rate, covering rate and lift coefficient are improved dramatically by the developed approach. The proposed method can control the different types of errors distribution with various cost of misclassification accurately, reduce the total misclassification cost largely, and distinguish the loan default problems effectively.  相似文献   

12.
Cost-sensitive learning is a crucial problem in machine learning research. Traditional classification problem assumes that the misclassification for each category has the same cost, and the target of learning algorithm is to minimize the expected error rate. In cost-sensitive learning, costs of misclassification for samples of different categories are not the same; the target of algorithm is to minimize the sum of misclassification cost. Cost-sensitive learning can meet the actual demand of real-life classification problems, such as medical diagnosis, financial projections, and so on. Due to fast learning speed and perfect performance, extreme learning machine (ELM) has become one of the best classification algorithms, while voting based on extreme learning machine (V-ELM) makes classification results more accurate and stable. However, V-ELM and some other versions of ELM are all based on the assumption that all misclassifications have same cost. Therefore, they cannot solve cost-sensitive problems well. To overcome the drawback of ELMs mentioned above, an algorithm called cost-sensitive ELM (CS-ELM) is proposed by introducing misclassification cost of each sample into V-ELM. Experimental results on gene expression data show that CS-ELM is effective in reducing misclassification cost.  相似文献   

13.
基于标准支持向量机的托攻击检测方法不能体现由于用户误分代价不同对分类效果带来的影响,提出了一种基于代价敏感支持向量机的托攻击检测新方法,该方法在代价敏感性学习机制下引入支持向量机作为分类工具,对支持向量机输出进行后验概率建模,建立了基于类别隶属度的动态代价函数,更准确地反映不同样本的分类代价,在此基础上设计了代价敏感支持向量机分类器。将该分类器应用在推荐系统托攻击检测中,并与标准的支持向量机方法、代价敏感支持向量机方法进行比较,实验结果表明,本方法可以更精确地控制代价敏感性,进一步提高对攻击用户的检测精度,降低总体的误分类代价。  相似文献   

14.
针对氧化铝蒸发过程样本集中的类不平衡和故障难以实时检测问题,提出线性权重递减粒子群代价敏感支持向量机故障检测方法.深入分析氧化铝蒸发过程机理,选择合适输入条件、操作参数、状态参数作为代价敏感支持向量机的输入向量,工况样本类别作为其输出代价敏感支持向量机以最小化误分类代价为目标,利用线性权重递减粒子群优化代价敏感支持向量...  相似文献   

15.
We consider a feature selection problem where the decision-making objective is to minimize overall misclassification cost by selecting relevant features from a training dataset. We propose a two-stage solution approach for solving misclassification cost minimizing feature selection (MCMFS) problem. Additionally, we propose a maximum-margin genetic algorithm (MMGA) that maximizes margin of separation between classes by taking into account all examples as opposed to maximizing margin of separation using a few support vectors. Feature selection is carried out by either an exhaustive or a heuristic simulated annealing approach in the first stage and a cost sensitive classification using either MMGA or cost sensitive support vector machines (SVM) in the second stage. Using simulated and real-world data sets and different misclassification cost matrices, we test our two-stage approach for solving the MCMFS problem. Our results indicate that feature selection plays an important role when misclassification cost asymmetries increase and the MMGA shows equal or better performance than the SVM.  相似文献   

16.
针对年龄估计中样本数量不平衡及不同类间发生误分类时付出代价不同的问题,将代价敏感性嵌入深度学习框架中,提出基于深度代价敏感CNN的年龄估计算法.首先为每个年龄类别分别建立损失函数,解决训练样本的不平衡问题.然后,定义代价向量以反映不同类之间发生误分类而付出的代价差异性,构造逆交叉熵误差函数.最后,融合上述方法,为卷积神经网络(CNN)构造一个损失函数,使CNN在训练阶段学习针对年龄估计的鲁棒人脸表征.在不同种族的年龄估计标准图像集上的实验验证文中算法的有效性.  相似文献   

17.
为了解决客户细分中由于客户价值不同和不同价值客户数量的悬殊差异造成对客户错误分类的代价不同和不平衡的数据样本,研究了客户价值细分问题中错误分类代价形成机理,建立基于客户价值的动态代价函数,在此基础上设计了代价敏感的支持向量机分类器。实验结果说明,该方法可以更精确地控制代价敏感性,降低总体的错误分类代价,使模型能更准确地反映分类的代价,有效地识别客户价值。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号