共查询到20条相似文献,搜索用时 46 毫秒
1.
2.
3.
软件缺陷预测是典型的非平衡学习问题。基于CS SVM和聚类算法改进代价敏感支持向量机(SVM)算法,提出了CCS SVM软件缺陷预测模型。在CCS SVM预测模型中,将SVM与类别误分代价结合起来,以非平衡数据评价指标作为目标函数,优化错分代价因子,提升少数类样本的识别率。通过聚类找到每类样本的中心点,根据样本到其中心点的距离定义每个样本的类别置信度,给每个样本分配不同的误分代价系数,并把样本的置信度引入到代价敏感SVM优化问题中,提高算法鲁棒性,提升SVM分类性能。此外,为了提高模型的泛化能力,使用遗传算法优化特征选择和模型参数。通过美国航空航天局NASA MDP数据集实验表明,本文方法的G mean和F measure模型评价值有明显的提升。 相似文献
4.
基于支持向量机的代价敏感挖掘 总被引:4,自引:0,他引:4
针对一些数据挖掘应用中反例样本和正例样本具有不同误分类代价的情况,提出一种代价敏感支持向量机算法CS-SVM.CS-SVM包括3个步骤:首先,引入Sigmoid函数,根据样本到分类超平面的距离估计其后验概率;然后,根据误分类代价最小原则重构训练样本的类标号;最后,在重构后的训练集上使用标准SVM进行学习即得到嵌入误分类代价的最优分类超平面.基于CS-SVM的思路,提出一个通用的嵌入误分类代价的代价敏感分类算法G-CSC.试验结果表明:相比于SVM,CS-SVM大大降低测试集上的平均误分类代价. 相似文献
5.
相关向量机(RVM)是在稀疏贝叶斯框架下提出的稀疏模型,由于其强大的稀疏性和泛化能力,近年来在机器学习领域得到了广泛研究和应用,但和传统的决策树、神经网络算法及支持向量机一样,RVM不具有代价敏感性,不能直接用于代价敏感学习。针对监督学习中错误分类带来的代价问题,提出代价敏感相关向量分类(CS-RVC)算法,在相关向量机的基础上,通过赋予每类样本不同的误分代价,使其更加注重误分类代价较高的样本分类准确率,使得整体误分类代价降低以实现代价敏感挖掘。实验结果表明,该算法具有良好的稀疏性并能够有效地解决代价敏感分类问题。 相似文献
6.
入侵检测系统在最大化计算机安全性的同时,着手减小其代价也是关键点之一.标准的分类器设计一般基于精度,在入侵检测等实际应用问题中,不同的类别对应的错分代价也不同,在此类问题中直接使用标准分类方法就无法取得良好的分类和预测效果.代价敏感算法通过改变代价矩阵,可使高代价样本的错分率得到有效的控制,并尽量减少总体错分代价.本文时代价敏感支持向量机在入侵检测中的应用进行了研究,并用KDDCUP99标准数据集对文中算法进行了测试评估. 相似文献
7.
标准的分类器设计大多都是基于整体最小化错误率.在入侵检测、医疗诊断等领域中,不同类别的误分类通常具有不等的损失.文中采用支持向量机建立模型,在组合算法的思想下引入组合代价敏感支持向量机,弥补传统代价敏感支持向量机在分类精度上的不可控.在模型对比中引入了更为实际的对比方式,从而能更好地选取模型,以减少总体误分代价.文中考虑不同类别的误分代价的前提下建立合适的支持向量机模型,并成功地应用在个人信用分类上 相似文献
8.
在一定的约束条件下,提出并证明误分类代价敏感SVM(MC-SVM)与一类基于规则的FIS的函数具有等效性.在此基础上,提出了基于MC-SVM学习过程的FIS(MC-MBFIS)的设计方法.MC-MBFIS继承了基于规则的FIS的显式推理能力,也继承了MC-SVM的代价敏感性.Benchmark数据实验表明,MC-MBFIS能降低平均误分类代价. 相似文献
9.
密度加权近似支持向量机 总被引:3,自引:3,他引:0
标准的近似支持向量机(PSVM)用求解正则化最小二乘问题代替了求解二次规划问题,它可以得到一个解析解,从而减少训练时间。但是标准的PSVM没有考虑数据集中正、负样本的分布情况,对所有的样本都赋予了相同的惩罚因子。而在实际问题中,数据集中样本的分布是不平衡的。针对此问题,在PSVM的基础上提出了一种基于密度加权的近似支持向量机(DPSVM),其先计算样本的密度指标,不同的样例有不同的密度信息,因此对不同的样例给予不同的惩罚因子,并将原始优化问题中的惩罚因子由数值变为一个对角矩阵。在UCI数据集上用这种方法进行了实验,并与SVM和PSVM方法进行了比较,结果表明,DPSVM在正负类样本分布不平衡的数据集上有较好的分类性能。 相似文献
10.
11.
非平衡数据处理中常采用的欠采样方法很少考虑支持向量机(SVM)的特性,并且在原始空间进行采样会导致多数类样本部分关键信息的丢失.针对上述问题,文中提出基于识别关键样本点的非平衡数据核 SVM 算法.基于初始超平面有效划分多数类样本,在高维空间中对每个分块进行核异类近邻抽样,得到多数类中的关键样本点,使用关键样本点和少数类样本训练最终核 SVM 分类器.在多个数据集上的实验证明文中算法的可行性和有效性,特别是在非平衡度高于10:1的数据集上,文中算法优势明显。 相似文献
12.
为解决传统支持向量机易出现学习“过拟合”和丢失数据统计特征等问题,通过引入模糊隶属度和总间隔思想,提出一种基于总间隔的最大间隔最小包含模糊球形学习机(TMF-SSLM),使得一类(正类)被包含于一个最小包含超球内,而另一类(负类)与该超球间隔最大化,从而同时实现类间间隔的增大和正负两类类内体积的缩小。通过使用差异成本,解决不平衡训练样本问题。引入总间隔和模糊性惩罚,克服传统软间隔分类机的过拟合问题,显著提升球形学习机的泛化能力。采用UCI实际数据集分别对二类和一类模式分类进行实验,结果显示TMF-SSLM具有优于相关方法的稳定分类性能。 相似文献
13.
低层特征的选择与提取是自动图像分类的基础,一方面,所选择的图像特征应能代表各种不同的图像属性,利于不同类别图像之间的区分;另一方面,为了提高后续模型的计算效率,需要减少噪声特征、冗余特征.提出了一种基于特征加权的自动图像分类方法.该方法根据图像低层特征分布的离散程度来衡量特征相对于类别的重要性,增加相关度高的特征的权重,降低相关度低的特征权重,从而避免后续模型被弱相关或不相关的特征所支配.所提的特征加权算法主要考察的是特征相对某个具体类别的重要程度,可以为每个类别选择出适合自身的特征权重.然后,将加权特征嵌入到支持向量机算法中用于自动图像分类,在Corel图像数据集上的实验结果表明,基于特征加权的自动图像分类算法可以有效地提高图像分类的准确性. 相似文献
14.
在不平衡数据分类问题中,作为目标对象的少数类往往不易识别.常见方法存在需要显式设置实例重要度、仅仅间接支持少数类的识别等缺点.由此,文中提出基于实例重要性的支持向量机--ⅡSVM.它分为3个阶段.前两个阶段分别采用单类支持向昔机和二元支持向量机,将数据按照"最重要"、"较重要",和"不重要"3个档次重新组织.阶段3首先选择最重要的数据训练初始分类器,并通过显式设置早停止条件,直接支持少数类的识别.实验表明,ⅡSVM的平均分类性能优于目前的主流方法. 相似文献
15.
在现实问题中,相似性学习的样本对存在不平衡现象,即相似性样本对的数量会远小于不相似性样本对的数量.针对此问题,文中提出两种样本对构造方法——不相似K近邻-相似K近邻(DKNN-SKNN)和不相似K近邻-相似K远邻(DKNN-SKFN).运用这两种方法可有针对性地选择相似性学习样本对,不仅可加快支持向量机的训练过程,而且在一定程度上解决样本对之间的不平衡问题.在多个数据集上进行文中方法和经典的重采样方法的对比实验,结果表明DKNN-SKNN和DKNN-SKFN具有良好性能. 相似文献
16.
刘冰 《数字社区&智能家居》2007,1(6):1590-1593
介绍分析了SVM基础理论和目前多类SVM分类算法及其优缺点,提出了一种边界向量抽取算法,并基于该算法改进了1ar和1a1两种多类SVM算法。实验结果表明该边界向量抽取算法可以有效的减少训练样本的数量,在保持分类器推广能力的条件下缩短SVM的训练时间,特别是在大样本训练数据时1arΔ可以提供最好的训练性能。 相似文献
17.
18.
一种面向不平衡数据的结构化SVM集成分类器 总被引:1,自引:0,他引:1
为改进面向不平衡数据的SVM分类器性能,以结构化SVM为基础,提出一种基于代价敏感的结构化支持向量机集成分类器模型.该模型首先通过训练样本的聚类,得到隐含在数据中的结构信息,并对样本进行初始加权.运用AdaBoost策略对各样本的权重进行动态调整,适当增大少数类样本的权重,使小类中误分的样本代价增大,以此来改进不平衡数据的分类性能.实验结果表明,该算法可有效提高不平衡数据的分类性能. 相似文献
19.
分析了利用支持向量回归求解多分类问题的思想,提出了一种基于局部密度比权重设置模型的加权最小二乘支持向量回归模型来单步求解多分类问题:该方法先分别对类样本中每类样本利用局部密度比权重设置模型求出每个样本的权重隶属因子,然后运用加权最小二乘支持向量回归算法对所有样本进行训练,获得回归分类器。为验证算法的有效性,对UCI三个标准数据集以及一个随机生成的数据集进行实验,对比了多种单步求解多分类问题的算法,结果表明,提出的模型分类精度高,具有良好的鲁棒性和泛化性能。 相似文献
20.
在极度不平衡分类问题中,球形分类器将分类正确样本的损失计为零,仅使用误分样本构造决策函数.文中提出光滑有下界的奖惩结合损失函数,将分类正确样本的损失计为负,实现对目标函数的奖励,避免边界附近噪声的干扰.基于最大间隔双球面支持向量机,利用损失函数,建立奖惩结合的最大间隔双球模型.通过牛顿法构造两个同心球.小球体在覆盖多数类样本的同时抛弃多余的空隙.大球通过增加两个同心球之间的间隔,排除少数类.实验表明,文中模型分类效果较优. 相似文献