首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
为了改善传统支持向量机SVM对不平衡数据集中少数类的分类效果,提出一种基于改进灰狼算法(IGWO)的过采样方法——IGWOSMOTE。首先,改进初始灰狼种群的生成形式,由SVM的惩罚因子、核参数、特征向量和少数类的采样率组成灰狼个体;然后,经由灰狼优化过程智能搜索获得最优相关参数和最优采样率组合,进行重新采样供分类器学习及预测。通过对6个UCI数据集的分类实验得出:IGWOSMOTE+SVM较传统SMOTE+SVM方法在少数类分类精度上提高了6.3个百分点,在整体数据集分类精度上提高了2.1个百分点,IGWOSMOTE可作为一种新的过采样分类方法。  相似文献   

2.
3.
基于样本投影分布的平衡不平衡数据集分类*   总被引:2,自引:0,他引:2  
提出一种平衡不平衡数据集统一分类方法,首先得到训练样本基于支持向量机(SVM)超平面法线方向上的投影;再借助支持向量数据描述(SVDD)对训练样本投影分布进行描述;测试样本在此基础上实现分类。平衡或不平衡数据集都可采用相同的方法进行分类。实验表明该方法能够同时对平衡或不平衡数据集进行有效的分类。  相似文献   

4.
针对支持向量机(SVM)在超平面附近进行不平衡数据(imbalanced datasets)分类的不准确性,提出了一种改进SVM-KNN算法,该算法在分类阶段计算测试样本与最优超平面的距离,如果距离差大于给定阈值可直接应用支持向量机分类;如果距离差小于给定阈值,则将所有支持向量都作为测试样本的近邻样本,进行KNN分类。通过对UCI数据集的大量实验表明,该算法在少数类样本的识别率和分类器的整体性能上有明显改善。  相似文献   

5.
不平衡数据知识挖掘:类分布对支持向量机分类的影响   总被引:8,自引:0,他引:8  
基于标准支持向量机及其启发,提出并证明支持向量数(率)和边界支持向量数(率)的界,并分别推广到正例类和反例类.在此基础上,证明正例的分类精度依概率小于反例的分类精度.虚拟数据仿真和Benchmark数据仿真表明本文所提方法的有效性和结论的正确性.  相似文献   

6.
SVM在处理不平衡数据分类问题(class imbalance problem)时,其分类结果常倾向于多数类。为此,综合考虑类间不平衡和类内不平衡,提出一种基于聚类权重的分阶段支持向量机(WSVM)。预处理时,采用K均值算法得到多数类中各样本的权重。分类时,第一阶段根据权重选出多数类内各簇边界区域的与少数类数目相等的样本;第二阶段对选取的样本和少数类样本进行初始分类;第三阶段用多数类中未选取的样本对初始分类器进行优化调整,当满足停止条件时,得到最终分类器。通过对UCI数据集的大量实验表明,WSVM在少数类样本的识别率和分类器的整体性能上都优于传统分类算法。  相似文献   

7.
为了改善传统支持向量机(SVM)对不平衡数据的分类效果,解决分类器对少类样本分类效果较差的问题,提出了一种复合SVM算法。该算法首先通过自适应合成采样(ADASYN)算法和不同错误代价(DEC)算法的结合,改善不平衡数据对超平面造成的偏移;然后引入一种新的修正算法对预测模型进行修正,提高预测模型对于不同数据特性的适应性。选择UCI数据库中的7组现实世界的不平衡数据集进行测试,实验表明在各个数据集上复合SVM算法性能均优于现有算法或与现有算法相当,分类性能平均提高了2.0%~20.9%,证明本算法的有效性和鲁棒性。  相似文献   

8.
杨晓月 《计算机与数字工程》2021,49(11):2305-2309,2330
不平衡数据的分类问题在数据挖掘和机器学习领域中,一直是备受关注的问题.论文从数据预处理方面出发,提出一种基于谱聚类的欠采样方法,以此来降低数据的不平衡程度.先对多类样本进行谱聚类,根据每个聚类簇的密集程度,以及到少类样本的平均距离,来计算每个聚类簇的采样数目和选取怎样的多类样本,此欠采样方法可以有效去除多数类的冗余数据.实验结果证明,该算法可以有效提升少类样本的分类效果.  相似文献   

9.
针对两类不平衡数据的分离超平面的偏移问题提出一种平衡方法。首先,对两类样本数据在核空间中进行核主成分分析,分别求出两类样本数据的在特征空间中的主要特征值;然后,根据两样本容量以及各自的特征值所提供的信息,对两类数据给出惩罚因子比例;最后,通过优化训练,产生一个新的分离超平面。该分类面校正了标准的支持向量机的分类误差。实验显示了所提出方法的有效性,即与标准的支持向量机相比,不仅平衡了错分率而且还能减少错分率。  相似文献   

10.
一种面向不平衡数据的结构化SVM集成分类器   总被引:1,自引:0,他引:1  
为改进面向不平衡数据的SVM分类器性能,以结构化SVM为基础,提出一种基于代价敏感的结构化支持向量机集成分类器模型.该模型首先通过训练样本的聚类,得到隐含在数据中的结构信息,并对样本进行初始加权.运用AdaBoost策略对各样本的权重进行动态调整,适当增大少数类样本的权重,使小类中误分的样本代价增大,以此来改进不平衡数据的分类性能.实验结果表明,该算法可有效提高不平衡数据的分类性能.  相似文献   

11.
目前客户流失预测面临的主要问题之一就是类不平衡性(class imbalance)。针对这个问题,首先应用欠抽样法(undersampling)处理客户流失数据降低不平衡性,再应用C4.5D、C4.5N、RIPPER、NaiveBayes和RandomForest机器学习方法对客户流失进行预测。实验结果表明,欠抽样法是在牺牲负类样本预测精度的前提下,提高正类预测精度,于是采用重复抽样法(resampling)来弥补欠抽样法的缺陷,减少负类样本中含有大量有用信息的丢失,实验结果证明了这种方法的正确性和有效性  相似文献   

12.
知识情境是知识创造和运用的具体环境和背景,融合知识情境的知识个性化推荐系统是提高知识重用效率和共享特性的重要手段。提出了在知识个性化推荐系统中添加知识情境,使用多层多维度建模方法构建知识情境模型,通过知识情境的相似性评估,将与当前目标情境相似度满足特定值的历史情境所关联的知识推荐给目标用户。实验表明,此方法一定程度上能提高知识个性化推荐的效率。  相似文献   

13.
对于现实的复杂网络而言,有连边的节点对数目通常远小于无连边的节点对数目,在链路预测时,不同类别的样本数量不平衡会导致预测的分类结果与真实情况有较大的偏差。针对此问题,本文提出更优的链路预测算法,先对网络拓扑信息进行特征提取,再设计出一种集成分类器对数据样本进行平衡处理,然后基于网络的拓扑信息改进了分类器的集成规则,最后将训练出的集成分类器同现有的4个针对不平衡分类的链路预测学习算法进行对比研究。通过对4个不同规模的时序网络进行链路预测,结果表明:本文的链路预测学习算法具有更高的召回率,同时也保证了预测结果的准确性,从而更好地解决了链路预测中因类别不平衡导致的误分类问题。  相似文献   

14.
针对少数类样本合成过采样技术(SMOTE)在处理非平衡数据集分类问题时,为少数类的不同样本设置相同的采样倍率,存在一定的盲目性的问题,提出了一种基于遗传算法(GA)改进的SMOTE方法--GASMOTE.首先,为少数类的不同样本设置不同的采样倍率,并将这些采样倍率取值的组合编码为种群中的个体;然后,循环使用GA的选择、交叉、变异等算子对种群进行优化,在达到停机条件时获得采样倍率取值的最优组合;最后,根据找到的最优组合对非平衡数据集进行SMOTE采样.在10个典型的非平衡数据集上进行的实验结果表明:与SMOTE算法相比,GASMOTE在F-measure值上提高了5.9个百分点,在G-mean值上提高了1.6个百分点;与Borderline-SMOTE算法相比,GASMOTE在F-measure值上提高了3.7个百分点,在G-mean值上提高了2.3个百分点.该方法可作为一种新的解决非平衡数据集分类问题的过采样技术.  相似文献   

15.
受级联结构的启示,提出了一种针对不平衡数据集分类的新方法,基于级联结构的Bagging分类方法。该方法通过在每一级剔除一部分多数类样本的方式使数据集逐步趋于平衡,并应用欠取样技术得到训练集,用Bagging算法训练分类器,最后把每一级训练到的分类器集成为一个新的分类器。在10个UCI数据集上的实验结果表明,该方法在查全率和F-value值上优于Bagging和AdaBoost。  相似文献   

16.
杨陟卓 《计算机应用》2015,35(4):1006-1008
针对传统词义消歧方法面临的数据稀疏问题,提出一种基于上下文语境的词义消歧方法。该方法假设同一篇文章中的句子之间共享一些相同的话题,首先,抽取在同一篇文章中包含相同歧义词的句子,这些句子可以作为歧义句的上下文语境,为其中的一个歧义句子提供消歧知识;其次,通过一种无监督的词义消歧方法进行词义消歧。在真实的语料上实验结果表明,使用2个上下文语境句子,窗口大小为1时,该方法的消歧准确率比基线方法(OrigDisam)提高了3.26%。  相似文献   

17.
在机器学习及其分类问题时经常会遇到非平衡数据集,为了提高非平衡数据集分类的有效性,提出了基于商空间理论的过采样分类算法,即QMSVM算法。对训练集中多数类样本进行聚类结构划分,所得划分结果和少数类样本合并进行线性支持向量机(SVM)学习,从而获取多数类样本的支持向量和错分的样本粒;另一方面,获取少数类样本的支持向量和错分的样本,进行SMOTE采样,最后把上述得到的两类样本合并进行SVM学习,这样来实现学习数据集的再平衡处理,从而得到更加合理的分类超平面。实验结果表明,和其他几种算法相比,所提算法虽在正确分类率上有所降低,但较大改善了g_means值和acc+值,且对非平衡率较大的数据集效果会更好。  相似文献   

18.
为了更有效地提高图像隐写分析的速度和正确检测率,提出了一种基于改进的支持向量机的隐写分析方法。采用Fridrich提出的多特征融合提取算法对图像进行特征提取,克服了单一特征不能很好描述图像差别的不足。然后提出了一种将最小二乘法与超球体一类支持向量机(HSOC-SVM)相结合的分类器——最小二乘超球一类支持向量机(LSHS-OCSVM),并与目前广泛使用的FLD和非线性SVM分类器作对比实验。结果表明,方法是一种有效、高速的隐写分析方法。  相似文献   

19.
基于球结构的完全二叉树SVM多类分类算法   总被引:4,自引:0,他引:4  
谢志强  高丽  杨静 《计算机应用研究》2008,25(11):3268-3270
针对一般的SVM方法不能有效地处理不平衡样本数据及现有的偏二叉树结构SVM分类器速度慢的这两个问题,提出了一种基于球结构的完全二叉树SVM多分类算法。该算法利用球结构的SVM考虑了每个类的分布情况,能有效地处理不平衡样本数据;构建完全二叉树结构,使得同层节点所代表的SVM分类器可以并行工作,能提高其训练和分类速度,分类速度相当于折半查找。实例验证两者结合后的算法可实现准确且高效的多类分类。  相似文献   

20.
传统DFS特征选择算法在降维处理时既未考虑样本分布不均的情况,又未涉及负特征词对类别的影响。本文综合考虑DFS的缺陷并进行优化处理,将DFS与卡方检测算法CHI结合,提出一种改进型特征选择算法DFS-sCHI,引入负特证词作为类别划分的影响因子之一,解决不平衡数据集下所提特征词类别分布不均的问题。经实验分析,不平衡数据集下,DFS-sCHI相比较于DFS,在分类精度上有明显提高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号