首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 500 毫秒
1.
陈青  薛惠锋  杜喆 《计算机仿真》2011,28(3):219-221,329
针对传统的最小二乘支持向量机对于非均衡数据的分类时,分类结果具有对较大类数据的偏向性问题,为了减小分类器的负担和样本的错误率.提出一种新的最小二乘支持向量机阈值计算方法进行修正.根据线性判别思想,计算出两类样本的在分类超平面法向量上的投影点的均值和方差,依据对两类样本错分概率相等准则,给出新的阈值计算方法从而实现对超平...  相似文献   

2.
针对支持向量机(SVM)在超平面附近进行不平衡数据(imbalanced datasets)分类的不准确性,提出了一种改进SVM-KNN算法,该算法在分类阶段计算测试样本与最优超平面的距离,如果距离差大于给定阈值可直接应用支持向量机分类;如果距离差小于给定阈值,则将所有支持向量都作为测试样本的近邻样本,进行KNN分类。通过对UCI数据集的大量实验表明,该算法在少数类样本的识别率和分类器的整体性能上有明显改善。  相似文献   

3.
针对传统的SVM算法在非平衡数据分类中分类效果不理想的问题,提出一种基于分类超平面和SMOTE过采样方法(HB_SMOTE)。该方法首先对原始训练样本集使用WSVM算法找到分类超平面,然后按一定标准剔除负类中被错分的样本、靠近分类超平面的样本以及远离分类超平面的样本。在UCI数据集上的实验结果表明:与RU_SMOTE等重采样方法相比,HB_SMOTE方法对正类样本和负类样本都具有较高的分类准确率。  相似文献   

4.
在机器学习及其分类问题时经常会遇到非平衡数据集,为了提高非平衡数据集分类的有效性,提出了基于商空间理论的过采样分类算法,即QMSVM算法。对训练集中多数类样本进行聚类结构划分,所得划分结果和少数类样本合并进行线性支持向量机(SVM)学习,从而获取多数类样本的支持向量和错分的样本粒;另一方面,获取少数类样本的支持向量和错分的样本,进行SMOTE采样,最后把上述得到的两类样本合并进行SVM学习,这样来实现学习数据集的再平衡处理,从而得到更加合理的分类超平面。实验结果表明,和其他几种算法相比,所提算法虽在正确分类率上有所降低,但较大改善了g_means值和acc+值,且对非平衡率较大的数据集效果会更好。  相似文献   

5.
基于样本投影分布的平衡不平衡数据集分类*   总被引:2,自引:0,他引:2  
提出一种平衡不平衡数据集统一分类方法,首先得到训练样本基于支持向量机(SVM)超平面法线方向上的投影;再借助支持向量数据描述(SVDD)对训练样本投影分布进行描述;测试样本在此基础上实现分类。平衡或不平衡数据集都可采用相同的方法进行分类。实验表明该方法能够同时对平衡或不平衡数据集进行有效的分类。  相似文献   

6.
冷强奎  刘福德  秦玉平 《计算机科学》2018,45(5):220-223, 237
为提高多类支持向量机的分类效率,提出了一种基于混合二叉树结构的多类支持向量机分类算法。该混合二叉树中的每个内部结点对应一个分割超平面,该超平面通过计算两个距离最远的类的质心而获得,即该超平面为连接两质心线段的垂直平分线。每个终端结点(即决策结点)对应一个支持向量机,它的训练集不再是质心而是两类(组)样本集。该分类模型通常是超平面和支持向量机的混合结构,其中超平面实现训练早期的近似划分,以提升分类速度;而支持向量机完成最终的精确分类,以保证分类精度。实验结果表明,相比于经典的多类支持向量机方法,该算法在保证分类精度的前提下,能够有效缩短计算时间,提升分类效率。  相似文献   

7.
针对支持向量机SVM分类效率低下的问题,提出一种基于层次K-均值聚类的支持向量机HKSVM(Hierarchical K-means SVM)学习模型。该方法首先对每类样本分别进行K-均值聚类,计算每类中心并训练SVM,得到初始分类器;然后根据超平面与聚类结果的关系,将聚类所得结果划分为活动类集和静止类集,并对超平面附近的活动类集进行深层聚类,以得到更小的类别同时计算类中心来训练新的SVM模型,并校正分类超平面,如此循环往复,直到得到较为精确的分类器为止。采用基于层次K-均值聚类的SVM模型,通过对活动类集进行不断地深层次聚类,从而在分类超平面附近得到较多样本点,而在距离超平面较远处则取少量训练样本,以有效压缩训练集规模,在保持SVM训练精度的同时大幅度提高其学习效率。标准数据集上的实验结果表明,HKSVM方法在大规模数据集上同时得到了较高的分类效率和测试精度。  相似文献   

8.
支持向量机是在统计学习理论基础上发展起来的一种十分有效的分类方法。然而当两类样本数量相差悬殊时,会引起支持向量机分类能力的下降。为了提高支持向量机的非平衡数据分类能力,文章分析了最小二乘支持向量机的本质特征,提出了一种非平衡数据分类算法。在UCI标准数据集上进行的实验表明,该算法能够有效提高支持向量机对非均衡分布数据的正确性,尤其对于大规模训练集的情况,该算法在保证不损失训练精度的前提下,使训练速度有较大提高。  相似文献   

9.
基于广义特征值的最接近支持向量机GEPSVM是一种新的具有与SVM性能相当的两类分类方法,通过求解广义特征值来获得两个彼此不平行的拟合两类样本的超平面,其决策规则是将测试样本归为距其最近的超平面所在的类。然而,该规则在某些情形会导致较差的分类结果。对此,本文提出了在利用GEPSVM产生一个主原型超平面的基础上,再利用主原型超平面及它类样本的信息构造一个次原型超平面,形成一个由主次原型超平面共同决策的最接近支持向量机。该方法不仅简单且易于实现,而且具有较GEPSVM更优的分类性能。在UCI数据集上的实验验证了它的有效性。  相似文献   

10.
为提高不平衡数据集的分类效率,建立一种分类模型,从样本采样和分类算法两方面进行优化。对决策边界的少类样本进行循环过采样生成新样本集,并与决策边界外合成的少类样本集合并,提高样本的重要度。针对传统ε-支持向量机(ε-SVM)在对不平衡数据集分类时超平面偏移的问题,引入正负惩罚系数和混合核函数,并利用客观的熵值法选取惩罚系数,提高分类算法的性能。实验结果表明,与标准的SVM算法相比,该分类模型在不平衡数据集分类上F-measure值平均提高18.1%,具有较好的分类效果。  相似文献   

11.
不平衡支持向量机的调整方法   总被引:1,自引:0,他引:1  
针对两类不平衡数据的分离超平面的偏移问题提出一种调整方法.首先对两类样本数据进行初步训练,产生一个初步分离超平面的法向量,然后把高维样本投影到该法向量上得到一维数据,然后由一维投影数据所提供的信息利用非参数密度估计,根据误差率最小准则,得到一个修正的偏置.几个真实数据试验表明,该方法不仅能保持标准支持向量机的良好性能,而且能平衡或减少总的错分率.  相似文献   

12.
杨婷  孟相如  温祥西  伍文 《计算机应用》2013,33(9):2553-2556
针对支持向量机(SVM)训练不平衡样本数据产生最优分类面的偏移会降低分类模型泛化性的问题,提出一种基于Fisher类内散度平均分布比的分类面修正方法。对样本数据进行SVM训练后获得分类面的法向量;通过计算两类样本在该法向量方向上的Fisher类内散度来评价这两类样本的分布情况;依据类内散度综合考虑样本个数所得到的平均分布比重新修正最优分类面的位置。在benchmarks数据集上的实验结果说明该方法能够提高SVM分类模型在处理不均衡数据集时对于少数类的识别率,从而有助于提高模型的泛化性。  相似文献   

13.
王金艳  冯建武  刘万里 《计算机应用》2007,27(12):2896-2898
针对支持向量机中两类不平衡数据的分离超平面的偏移问题提出一种校正方法:先对两类样本数据在核空间中进行核主成分分析,分别求出两类样本数据的在特征空间中的主要特征值;然后根据两样本容量以及各自的特征值所提供的信息,对两类数据给出惩罚因子比例;最后通过优化训练产生一个新的分离超平面。该分类面校正了标准支持向量机的分类误差,与标准的支持向量机相比,该方法不仅平衡了错分率,同时还能减少错分率。实验结果验证了方法的有效性。  相似文献   

14.
为了处理有限样本条件下的多类网络故障识别问题,提出了一种自适应质心距投影层次支持向量机。针对层次支持向量机固有的误差积累现象,该方法通过定义特征空间样本质心距投影度量类别离散程度,依据类别可分性优化偏态层次树结构;并设计基于自适应惩罚因子的补偿算法,修正由不平衡数据引起的分类超平面倾斜。实验结果表明,该方法具有较好的识别效果和效率,能够有效地抑制误差积累。  相似文献   

15.
用于不平衡数据分类的0阶TSK型模糊系统   总被引:3,自引:0,他引:3  
顾晓清  蒋亦樟  王士同 《自动化学报》2017,43(10):1773-1788
处理不平衡数据分类时,传统模糊系统对少数类样本识别率较低.针对这一问题,首先,在前件参数学习上,提出了竞争贝叶斯模糊聚类(Bayesian fuzzy clustering based on competitive learning,BFCCL)算法,BFCCL算法考虑不同类别样本聚类中心间的排斥作用,采用交替迭代的执行方式并通过马尔科夫蒙特卡洛方法获得模型参数最优解.其次,在后件参数学习上,基于大间隔的策略并通过参数调节使得少数类到分类面的距离大于多数类到分类面的距离,该方法能有效纠正分类面的偏移.基于上述思想以0阶TSK型模糊系统为具体研究对象构造了适用于不平衡数据分类问题的0阶TSK型模糊系统(0-TSK-IDC).人工和真实医学数据集实验结果表明,0-TSK-IDC在不平衡数据分类问题中对少数类和多数类均具有较高的识别率,且具有良好的鲁棒性和可解释性.  相似文献   

16.
一种基于类中心最大间隔的支持向量机   总被引:1,自引:0,他引:1  
传统的支持向量机分类超平面对噪声和野值非常敏感.使用传统的支持向量机对含有噪声的数据分类时,所得到的超平面往往不是最优超平面.为了解决这个问题,本文以两个类中心距离最大为准则建立分类超平面,构造一个新的支持向量机,称作类中心最大间隔支持向量机.理论分析和仿真实验结果证明了该方法的正确性和有效性.  相似文献   

17.
针对两类不平衡数据的分离超平面的偏移问题提出一种平衡方法。首先,对两类样本数据在核空间中进行核主成分分析,分别求出两类样本数据的在特征空间中的主要特征值;然后,根据两样本容量以及各自的特征值所提供的信息,对两类数据给出惩罚因子比例;最后,通过优化训练,产生一个新的分离超平面。该分类面校正了标准的支持向量机的分类误差。实验显示了所提出方法的有效性,即与标准的支持向量机相比,不仅平衡了错分率而且还能减少错分率。  相似文献   

18.
针对不均衡分类问题,提出了一种基于隶属度加权的模糊支持向量机模型。使用传统支持向量机对样本进行训练,并通过样本点与所得分类超平面之间的距离构造模糊隶属度,这不仅能够消除噪点和野值点的影响,而且可以在一定程度上约减样本;利用正负类的平均隶属度和样本数量求得平衡调节因子,消除数据不平衡时造成的分类超平面的偏移现象;通过实验结果验证了该算法的可行性和有效性。实验结果表明,该算法能有效提高分类精度,特别是对不平衡数据效果更加明显,在训练速度和分类性能上比传统支持向量机和模糊支持向量机有进一步的提升。  相似文献   

19.
非平衡数据处理中常采用的欠采样方法很少考虑支持向量机(SVM)的特性,并且在原始空间进行采样会导致多数类样本部分关键信息的丢失.针对上述问题,文中提出基于识别关键样本点的非平衡数据核SVM算法.基于初始超平面有效划分多数类样本,在高维空间中对每个分块进行核异类近邻抽样,得到多数类中的关键样本点,使用关键样本点和少数类样本训练最终核SVM分类器.在多个数据集上的实验证明文中算法的可行性和有效性,特别是在非平衡度高于10∶1的数据集上,文中算法优势明显.  相似文献   

20.
在分析了传统支持向量机(SVM)对不平衡数据的学习缺陷后,提出了一种改进SVM算法,采用自适应合成(ADASYN)采样技术对数据集进行部分重采样,增加少类样本的数量;对不同的样本点分配不同的权重,减弱噪声对训练结果的影响;使用基于代价敏感的SVM算法训练,缓解不平衡数据对超平面造成的偏移.选择UCI数据库中的6组不平衡数据集进行测试,实验结果表明:在各个数据集上改进SVM算法的性能优于其他算法,并在少类准确率和多类准确率上取得了很好的平衡.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号