共查询到20条相似文献,搜索用时 500 毫秒
1.
2.
针对支持向量机(SVM)在超平面附近进行不平衡数据(imbalanced datasets)分类的不准确性,提出了一种改进SVM-KNN算法,该算法在分类阶段计算测试样本与最优超平面的距离,如果距离差大于给定阈值可直接应用支持向量机分类;如果距离差小于给定阈值,则将所有支持向量都作为测试样本的近邻样本,进行KNN分类。通过对UCI数据集的大量实验表明,该算法在少数类样本的识别率和分类器的整体性能上有明显改善。 相似文献
3.
4.
在机器学习及其分类问题时经常会遇到非平衡数据集,为了提高非平衡数据集分类的有效性,提出了基于商空间理论的过采样分类算法,即QMSVM算法。对训练集中多数类样本进行聚类结构划分,所得划分结果和少数类样本合并进行线性支持向量机(SVM)学习,从而获取多数类样本的支持向量和错分的样本粒;另一方面,获取少数类样本的支持向量和错分的样本,进行SMOTE采样,最后把上述得到的两类样本合并进行SVM学习,这样来实现学习数据集的再平衡处理,从而得到更加合理的分类超平面。实验结果表明,和其他几种算法相比,所提算法虽在正确分类率上有所降低,但较大改善了g_means值和acc+值,且对非平衡率较大的数据集效果会更好。 相似文献
5.
基于样本投影分布的平衡不平衡数据集分类* 总被引:2,自引:0,他引:2
提出一种平衡不平衡数据集统一分类方法,首先得到训练样本基于支持向量机(SVM)超平面法线方向上的投影;再借助支持向量数据描述(SVDD)对训练样本投影分布进行描述;测试样本在此基础上实现分类。平衡或不平衡数据集都可采用相同的方法进行分类。实验表明该方法能够同时对平衡或不平衡数据集进行有效的分类。 相似文献
6.
为提高多类支持向量机的分类效率,提出了一种基于混合二叉树结构的多类支持向量机分类算法。该混合二叉树中的每个内部结点对应一个分割超平面,该超平面通过计算两个距离最远的类的质心而获得,即该超平面为连接两质心线段的垂直平分线。每个终端结点(即决策结点)对应一个支持向量机,它的训练集不再是质心而是两类(组)样本集。该分类模型通常是超平面和支持向量机的混合结构,其中超平面实现训练早期的近似划分,以提升分类速度;而支持向量机完成最终的精确分类,以保证分类精度。实验结果表明,相比于经典的多类支持向量机方法,该算法在保证分类精度的前提下,能够有效缩短计算时间,提升分类效率。 相似文献
7.
针对支持向量机SVM分类效率低下的问题,提出一种基于层次K-均值聚类的支持向量机HKSVM(Hierarchical K-means SVM)学习模型。该方法首先对每类样本分别进行K-均值聚类,计算每类中心并训练SVM,得到初始分类器;然后根据超平面与聚类结果的关系,将聚类所得结果划分为活动类集和静止类集,并对超平面附近的活动类集进行深层聚类,以得到更小的类别同时计算类中心来训练新的SVM模型,并校正分类超平面,如此循环往复,直到得到较为精确的分类器为止。采用基于层次K-均值聚类的SVM模型,通过对活动类集进行不断地深层次聚类,从而在分类超平面附近得到较多样本点,而在距离超平面较远处则取少量训练样本,以有效压缩训练集规模,在保持SVM训练精度的同时大幅度提高其学习效率。标准数据集上的实验结果表明,HKSVM方法在大规模数据集上同时得到了较高的分类效率和测试精度。 相似文献
8.
支持向量机是在统计学习理论基础上发展起来的一种十分有效的分类方法。然而当两类样本数量相差悬殊时,会引起支持向量机分类能力的下降。为了提高支持向量机的非平衡数据分类能力,文章分析了最小二乘支持向量机的本质特征,提出了一种非平衡数据分类算法。在UCI标准数据集上进行的实验表明,该算法能够有效提高支持向量机对非均衡分布数据的正确性,尤其对于大规模训练集的情况,该算法在保证不损失训练精度的前提下,使训练速度有较大提高。 相似文献
9.
基于广义特征值的最接近支持向量机GEPSVM是一种新的具有与SVM性能相当的两类分类方法,通过求解广义特征值来获得两个彼此不平行的拟合两类样本的超平面,其决策规则是将测试样本归为距其最近的超平面所在的类。然而,该规则在某些情形会导致较差的分类结果。对此,本文提出了在利用GEPSVM产生一个主原型超平面的基础上,再利用主原型超平面及它类样本的信息构造一个次原型超平面,形成一个由主次原型超平面共同决策的最接近支持向量机。该方法不仅简单且易于实现,而且具有较GEPSVM更优的分类性能。在UCI数据集上的实验验证了它的有效性。 相似文献
10.
11.
12.
针对支持向量机(SVM)训练不平衡样本数据产生最优分类面的偏移会降低分类模型泛化性的问题,提出一种基于Fisher类内散度平均分布比的分类面修正方法。对样本数据进行SVM训练后获得分类面的法向量;通过计算两类样本在该法向量方向上的Fisher类内散度来评价这两类样本的分布情况;依据类内散度综合考虑样本个数所得到的平均分布比重新修正最优分类面的位置。在benchmarks数据集上的实验结果说明该方法能够提高SVM分类模型在处理不均衡数据集时对于少数类的识别率,从而有助于提高模型的泛化性。 相似文献
13.
14.
15.
用于不平衡数据分类的0阶TSK型模糊系统 总被引:3,自引:0,他引:3
处理不平衡数据分类时,传统模糊系统对少数类样本识别率较低.针对这一问题,首先,在前件参数学习上,提出了竞争贝叶斯模糊聚类(Bayesian fuzzy clustering based on competitive learning,BFCCL)算法,BFCCL算法考虑不同类别样本聚类中心间的排斥作用,采用交替迭代的执行方式并通过马尔科夫蒙特卡洛方法获得模型参数最优解.其次,在后件参数学习上,基于大间隔的策略并通过参数调节使得少数类到分类面的距离大于多数类到分类面的距离,该方法能有效纠正分类面的偏移.基于上述思想以0阶TSK型模糊系统为具体研究对象构造了适用于不平衡数据分类问题的0阶TSK型模糊系统(0-TSK-IDC).人工和真实医学数据集实验结果表明,0-TSK-IDC在不平衡数据分类问题中对少数类和多数类均具有较高的识别率,且具有良好的鲁棒性和可解释性. 相似文献
16.
一种基于类中心最大间隔的支持向量机 总被引:1,自引:0,他引:1
传统的支持向量机分类超平面对噪声和野值非常敏感.使用传统的支持向量机对含有噪声的数据分类时,所得到的超平面往往不是最优超平面.为了解决这个问题,本文以两个类中心距离最大为准则建立分类超平面,构造一个新的支持向量机,称作类中心最大间隔支持向量机.理论分析和仿真实验结果证明了该方法的正确性和有效性. 相似文献
17.
针对两类不平衡数据的分离超平面的偏移问题提出一种平衡方法。首先,对两类样本数据在核空间中进行核主成分分析,分别求出两类样本数据的在特征空间中的主要特征值;然后,根据两样本容量以及各自的特征值所提供的信息,对两类数据给出惩罚因子比例;最后,通过优化训练,产生一个新的分离超平面。该分类面校正了标准的支持向量机的分类误差。实验显示了所提出方法的有效性,即与标准的支持向量机相比,不仅平衡了错分率而且还能减少错分率。 相似文献
18.
针对不均衡分类问题,提出了一种基于隶属度加权的模糊支持向量机模型。使用传统支持向量机对样本进行训练,并通过样本点与所得分类超平面之间的距离构造模糊隶属度,这不仅能够消除噪点和野值点的影响,而且可以在一定程度上约减样本;利用正负类的平均隶属度和样本数量求得平衡调节因子,消除数据不平衡时造成的分类超平面的偏移现象;通过实验结果验证了该算法的可行性和有效性。实验结果表明,该算法能有效提高分类精度,特别是对不平衡数据效果更加明显,在训练速度和分类性能上比传统支持向量机和模糊支持向量机有进一步的提升。 相似文献
19.
非平衡数据处理中常采用的欠采样方法很少考虑支持向量机(SVM)的特性,并且在原始空间进行采样会导致多数类样本部分关键信息的丢失.针对上述问题,文中提出基于识别关键样本点的非平衡数据核SVM算法.基于初始超平面有效划分多数类样本,在高维空间中对每个分块进行核异类近邻抽样,得到多数类中的关键样本点,使用关键样本点和少数类样本训练最终核SVM分类器.在多个数据集上的实验证明文中算法的可行性和有效性,特别是在非平衡度高于10∶1的数据集上,文中算法优势明显. 相似文献