首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
陶秉墨  鲁淑霞 《计算机科学》2018,45(Z6):487-492
对于不平衡数据分类问题,传统的随机梯度下降方法在求解一般的支持向量机问题时会产生一定的偏差,导致效果较差。自适应随机梯度下降算法定义了一个分布p,在选择样例进行迭代更新时,其依据分布p而非依据均匀分布来选择样例,并且在优化问题中使用光滑绞链损失函数。对于不平衡的训练集,依据均匀分布选择样例时,数据的不平衡比率越大,多数类中的样例被选择的次数就越多,从而导致结果偏向少数类。分布p在很大程度上解决了这个问题。普通的随机梯度下降算法没有明确的停机准则,这导致何时停机成为一个很重要的问题,尤其是在大型数据集上进行训练时。以训练集或训练集的子集中的分类准确率为标准来设定停机准则,如果参数设定恰当,算法几乎可以在迭代的早期就停止,这种现象在大中型数据集上表现得尤为突出。在一些不平衡数据集上的实验证明了所提算法的有效性。  相似文献   

2.
类别不平衡问题广泛存在于现实生活中,多数传统分类器假定类分布平衡或误分类代价相等,因此类别不平衡数据严重影响了传统分类器的分类性能。针对不平衡数据集的分类问题,提出了一种处理不平衡数据的概率阈值Bagging分类方法-PT Bagging。将阈值移动技术与Bagging集成算法结合起来,在训练阶段使用原始分布的训练集进行训练,在预测阶段引入决策阈值移动方法,利用校准的后验概率估计得到对不平衡数据分类的最大化性能测量。实验结果表明,PT Bagging算法具有更好的处理不平衡数据的分类优势。  相似文献   

3.
针对数据采集过程中的数据分布不平衡的问题,对非平衡数据应用数据挖掘分类算法进行分类。传统的分类器在处理非平衡数据时分类结果往往倾向于样本数目较多的类。但Adaboost算法在处理非平衡数据过程中表现出了优势,主要是对Adaboost算法进行改进和应用,采用级联的Adaboost分类器并结合SVM算法构造出分类效率更高的分类器。最后通过具体数据验证改进后算法的有效性。  相似文献   

4.
在机器学习及其分类问题时经常会遇到非平衡数据集,为了提高非平衡数据集分类的有效性,提出了基于商空间理论的过采样分类算法,即QMSVM算法。对训练集中多数类样本进行聚类结构划分,所得划分结果和少数类样本合并进行线性支持向量机(SVM)学习,从而获取多数类样本的支持向量和错分的样本粒;另一方面,获取少数类样本的支持向量和错分的样本,进行SMOTE采样,最后把上述得到的两类样本合并进行SVM学习,这样来实现学习数据集的再平衡处理,从而得到更加合理的分类超平面。实验结果表明,和其他几种算法相比,所提算法虽在正确分类率上有所降低,但较大改善了g_means值和acc+值,且对非平衡率较大的数据集效果会更好。  相似文献   

5.
针对不平衡数据集分类结果偏向多数类的问题,重采样技术是解决此问题的有效方法之一。而传统过采样算法易合成无效样本,欠采样方法易剔除重要样本信息。基于此提出一种基于SVM的不平衡数据过采样方法SVMOM(Oversampling Method Based on SVM)。SVMOM通过迭代合成样本。在迭代过程中,通过SVM得到分类超平面;根据每个少数类样本到分类超平面的距离赋予样本距离权重;同时考虑少数类样本的类内平衡,根据样本的分布计算样本的密度,赋予样本密度权重;依据样本的距离权重和密度权重计算每个少数类样本的选择权重,根据样本的选择权重选择样本运用SMOTE合成新样本,达到平衡数据集的目的。实验结果表明,提出的算法在一定程度上解决了分类结果偏向多数类的问题,验证了算法的有效性。  相似文献   

6.
一种新的不平衡数据学习算法PCBoost   总被引:8,自引:0,他引:8  
现实世界中广泛存在不平衡数据,其分类问题是机器学习研究中的一个热点.多数传统分类算法假定类分布平衡或误分类代价均衡,在处理不平衡数据时,效果不够理想.文中提出一种不平衡数据分类算法-PCBoost.算法以信息增益率为分裂准则构建决策树,作为弱分类器.在每次迭代初始,利用数据合成方法添加合成的少数类样例,平衡训练信息;在子分类器形成后,修正“扰动”,删除未被正确分类的合成样例.文中讨论了数据合成方法,给出了训练误差界的理论分析,并分析了集成学习参数的选择.实验结果表明,PCBoost算法具有处理不平衡数据分类问题的优势.  相似文献   

7.
提出了一种可以解决SVM分类算法中的多重共线性问题的因子分析方法。因子分析的核心是用较少的互相独立的因子反映原有变量的绝大部分信息,它既能大大减少参与数据建模的变量个数,简化支持向量机结构,减少支持向量机分类过程中的复杂度和运算量,同时不会改变样本的分布特性,保持样本的分类信息。实验结果表明,通过因子分析对样本数据的处理,使用3个因子代替7个原始变量,原始变量间的多重共线性问题得到了很好的解决。  相似文献   

8.
In this paper, a new weighted approach on Lagrangian support vector machine for imbalanced data classification problem is proposed. The weight parameters are embedded in the Lagrangian SVM formulation. The training method for weighted Lagrangian SVM is presented and its convergence is proven. The weighted Lagrangian SVM classifier is tested and compared with some other SVMs using synthetic and real data to show its effectiveness and feasibility.  相似文献   

9.
在不平衡数据分类问题中,作为目标对象的少数类往往不易识别.常见方法存在需要显式设置实例重要度、仅仅间接支持少数类的识别等缺点.由此,文中提出基于实例重要性的支持向量机--ⅡSVM.它分为3个阶段.前两个阶段分别采用单类支持向昔机和二元支持向量机,将数据按照"最重要"、"较重要",和"不重要"3个档次重新组织.阶段3首先选择最重要的数据训练初始分类器,并通过显式设置早停止条件,直接支持少数类的识别.实验表明,ⅡSVM的平均分类性能优于目前的主流方法.  相似文献   

10.
支持向量机是在统计学习理论基础上发展起来的一种十分有效的分类方法。然而当两类样本数量相差悬殊时,会引起支持向量机分类能力的下降。为了提高支持向量机的非平衡数据分类能力,文章分析了最小二乘支持向量机的本质特征,提出了一种非平衡数据分类算法。在UCI标准数据集上进行的实验表明,该算法能够有效提高支持向量机对非均衡分布数据的正确性,尤其对于大规模训练集的情况,该算法在保证不损失训练精度的前提下,使训练速度有较大提高。  相似文献   

11.
陈刚  冯丹 《控制与决策》2012,27(1):104-108
针对传统分类算法在处理非平衡数据集所出现的少数类分类准确率较低的问题,通过引入加权系数和样本分布函数给出了一种新的模糊规则权重的计算方法.该方法加强了类间的对比度和差异性,削弱了类内差距.将该权重方法与Chi et al规则生成算法和模糊分类推理模型结合形成新的分类算法,对具有不同非平衡度的UCI数据集进行Matlab对比研究,所得结果验证了该算法的可靠性与有效性.  相似文献   

12.
针对网络中存在的对等网络(P2P)流量泛滥导致的流量失衡问题,提出将非平衡数据分类思想应用于流量识别过程。通过引入合成少数类过采样技术(SMOTE)算法并进行改进,提出了均值SMOTE (M-SMOTE)算法,实现对流量数据的平衡化处理。在此基础上分别采用3种机器学习分类器:随机森林(RF)、支持向量机(SVM)、反向传播神经网络(BPNN)对处理后各类流量进行识别。理论分析与仿真结果表明,在不影响P2P流量识别准确率的前提下,与非平衡状态相比,引入SMOTE算法将非P2P流量的识别准确率平均提高了16.5个百分点,将网络流量的整体识别率提高了9.5个百分点;与SMOTE算法相比,M-SMOTE算法将非P2P流量的识别准确率与网络流量的整体识别率分别进一步提高了3.2个百分点和2.6个百分点。实验结果表明,非平衡数据分类思想可有效解决P2P流量过多导致的非P2P流量识别率低的问题,同时所提M-SMOTE算法具有更高的识别准确度。  相似文献   

13.
基于聚类和遗传交叉的少数类样本生成方法   总被引:1,自引:1,他引:0       下载免费PDF全文
杜娟  衣治安  周颖 《计算机工程》2009,35(22):182-184
传统的分类算法在处理不均衡样本数据时,分类器预测倾向于多数类,样本数量少的类别分类误差大。针对该问题,提出一种基于聚类和遗传交叉的少数类样本上采样方法,通过K-means算法将少数类样本聚类分组,在每个聚类内使用遗传交叉获取新样本,并进行有效性验证。基于K-最近邻及支持向量机分类器的实验结果证明了该方法的有效性。  相似文献   

14.
少数类样本合成过采样技术(SMOTE)是一种典型的过采样数据预处理方法,它能够有效平衡非均衡数据,但会带来噪音等问题,影响分类精度。为解决此问题,借助主动学习支持向量机的分类性能,提出一种基于主动学习SMOTE的非均衡数据分类方法 ALSMOTE。由于主动学习支持向量机采用基于距离的主动选择最佳样本的学习策略,因此能够主动选择非均衡数据中的有价值的多数类样本,舍弃价值较小的样本,从而提高运算效率,改进SMOTE带来的问题。首先运用SMOTE方法均衡小部分样本,得到初始分类器;然后利用主动学习策略调整分类器精度。实验结果表明,该方法有效提高了非均衡数据的分类准确率。  相似文献   

15.
基于样本投影分布的平衡不平衡数据集分类*   总被引:2,自引:0,他引:2  
提出一种平衡不平衡数据集统一分类方法,首先得到训练样本基于支持向量机(SVM)超平面法线方向上的投影;再借助支持向量数据描述(SVDD)对训练样本投影分布进行描述;测试样本在此基础上实现分类。平衡或不平衡数据集都可采用相同的方法进行分类。实验表明该方法能够同时对平衡或不平衡数据集进行有效的分类。  相似文献   

16.
针对不平衡数据分类问题,一种基于密度的近邻分类算法(DNN)被提出。它利用核密度估计敏锐地捕捉不平衡数据的局部分布特征,由此产生更好的分类结果。用核密度估计方法估计查询实例的各类别密度,以此对其进行密度定位;将原始数据空间中的点映射到由类别密度和距离信息构成的空间;在这个映射空间中动态地选择近邻并对查询实例进行分类。实验结果表明,DNN算法在15个不平衡数据集上分类性能良好。  相似文献   

17.
史岩  李小民  齐晓慧 《计算机测量与控制》2012,20(5):1203-1204,1235
支持向量机对于非平衡数据的分类效果不是十分理想;某些新型装备的故障数据较少且难于采集,正常数据则能够较为容易获得足够数量;这就使得支持向量机的诊断效果受到较大影响,如诊断精度降低,漏报、虚警概率的提高;文章借鉴距离最大熵样本欠采样原理,并引入条件熵的概念,提出了距离条件最大熵欠采样策略,用以改善支持向量机对于非平衡样本的诊断性能,实验表明该方法可行有效。  相似文献   

18.
支持向量机已经被成功应用于遥感图像分类。一种新型具有良好特性的支持向量机--全间隔自适应模糊支持向量机被提出。这种新型的支持向量机具有通过训练集的模糊性来增强泛化能力;对不平衡训练集具有自适应性,对正负数据采用不同的损失算法,可以提高正确分类率;通过引进全间隔算法来代替软间隔算法,可以得到更低的泛化误差等优良特性,符合遥感图像数据的内在规律。并且运用实值遗传算法对其进行参数优选,得到一种新的分类器——AGATAFSVM。最后将该分类器应用于遥感图像分类。实验结果表明,该分类器非常适用于遥感图像分类,分类精度和稳定性明显高于径向基神经网络分类器、 最近邻分类器和标准支持向量机。  相似文献   

19.
针对移动客户的多类别特点以及不同类别客户的数据集分布不平衡,把CW-SVM应用于多类别分类,提出了DAG-CWS-VM算法,分别用1-V-R SVM、1-V-1 SVM、DAG-SVM与DAG-CWSVM算法进行分类预测,并用ROC曲线、AUC值、提升度(lift)指标对四种模型进行评价。实验表明DAG-CWSVM算法不仅能够处理数据多类别分类问题,而且能够有效地解决数据集不平衡对预测结果造成的影响,具有较好的预测效果。  相似文献   

20.
代价敏感学习是解决不均衡数据分类问题的一个重要策略,数据特征的非线性也给分类带来一定困难,针对此问题,结合代价敏感学习思想与核主成分分析KPCA提出一种代价敏感的Stacking集成算法KPCA-Stacking.首先对原始数据集采用自适应综合采样方法(ADASYN)进行过采样并进行KPCA降维处理;其次将KNN、LD...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号