首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 78 毫秒
1.
陈刚  王丽娟 《信息与控制》2020,(2):203-209,218
针对传统分类器对于非平衡数据的分类效果存在的问题,提出了一种基于高斯混合模型-期望最大化(GMM-EM)的对称翻转算法.该算法的核心思想是基于概率论中的"3σ法则"使数据达到平衡.首先,利用高斯混合模型和EM算法得到多数类与少数类数据的密度函数;其次,以少数类数据的均值为对称中心,根据"3σ法则"确定多数类侵入少数类的翻转边界,进行数据翻转,同时剔除与翻转区间中少数类原始数据数据重复的点;此时,若两类数据不平衡,则在翻转区域内使用概率密度增强方法使数据达到平衡.最后,从UCI、KEEL数据库中选取的14组数据使用决策树分类器对平衡后的数据进行分类,实例分析表明了该算法的有效性.  相似文献   

2.
在许多业务应用中,非平衡数据分类问题都会频繁出现,然而这个问题仍未得到很好的解决.除了直接预测数据对应的分类标签,许多应用还可能关心这个预测的准确性有多少.然而,已有的许多研究都主要集中在分类准确度上而忽略分类概率预测值的准确度.为了解决这个问题,提出了一种新的线性回归算法,该算法在广义线性模型的框架下,结合广义极值(generalized extreme value, GEV)分布作为链接函数以及校准损失函数作为目标优化函数,形成凸优化问题,利用广义极值分布的非对称性解决非平衡数据分类问题.另外,由于广义极值分布的形状参数对建模精度有较大影响,还提出了2种参数寻优方法.在实验部分,人工数据集和真实数据集均表明所提算法有着优异的分类性能以及准确的分类概率预测.  相似文献   

3.
在灾害天气、故障诊断、网络攻击和金融欺诈等领域经常存在不平衡的数据集。针对随机森林算法在非平衡数据集上表现的分类性能差的问题,提出一种新的过采样方法:SCSMOTE(Seed Center Synthetic Minority Over-sampling Technique)算法。该算法的关键是在数据集的少数类样本中找出合适的候选样本,计算出候选样本的中心,在候选样本与样本中心之间产生新的少数类样本,实现了对合成少数类样本质量的控制。结合SCSMOTE算法与随机森林算法来处理非平衡数据集,通过在UCI数据集上对比实验结果表明,该算法有效提高了随机森林在非平衡数据集上的分类性能。  相似文献   

4.
5.
董元方  李雄飞  李军 《计算机工程》2010,36(24):161-163
针对不平衡数据学习问题,提出一种采用渐进学习方式的分类算法。根据属性值域分布,逐步添加合成少数类样例,并在阶段分类器出现误分时,及时删除被误分的合成样例。当数据达到预期的平衡程度时,用原始数据和合成数据训练学习算法,得到最终分类器。实验结果表明,该算法优于C4.5算法,并在多数数据集上优于SMOTEBoost和DataBoost-IM。  相似文献   

6.
借鉴半监督分类的思想,本文提出一种基于改进EM算法的贝叶斯分类模型,对移动通信网络中存在的大量随机缺失的非平衡数据进行分类。首先,从实际数据中经过初步统计分析得到能在一定程度上反应变量状态的先验概率,并以此作为贝叶斯分类模型的初始值进行EM迭代训练,从而减少EM算法的迭代次数并改善EM算法对初始值的敏感性以及局部收敛的缺陷;然后,利用对历史移动通信数据进行训练得到的叶斯网络分类模型,对测试数据进行预测分类。实验结果表明,该方法大大提高了移动通信数据中负类样本的预测成功率,与传统的数理统计分析方法相比较,表现出了更好的性能。  相似文献   

7.
网络入侵数据是一种典型的非平衡数据,小类样本常被大类样本"淹没"。本文针对网络入侵检测的非平衡数据集,对SVM-RFE特征选择算法进行了改进。通过将大类样本数据聚类成N份数量与小类样本相当的数据集,并分别与小类样本组合成N个新的训练数据集,在此基础上使用SVM-RFE算法,并利用SVM进行分类。通过在KDD CUP99入侵检测数据集上的实验,验证了本方法的有效性。  相似文献   

8.
蒋莎  张晓龙 《计算机工程》2008,34(20):198-199
在实际应用中的分类数据往往是非平衡数据,少数类别的数据可能有很大的分类代价。分类性能不仅要考虑分类精度,同时要考虑分类代价。该文扩展了支持向量机(SVM)学习方法,对于以高斯核为核函数时的少数类和多数类使用不同的惩罚参数C+, C-以获得高敏感度的超平面,并提出利用遗传算法对SVM的学习参数进行优化调整。给出一种新的评价函数,对分类结果的质量进行评价。实验结果证明,算法对于非平衡数据的分类有较好的效果,对少数类样本预测的准确性较高。  相似文献   

9.
陈刚  冯丹 《控制与决策》2012,27(1):104-108
针对传统分类算法在处理非平衡数据集所出现的少数类分类准确率较低的问题,通过引入加权系数和样本分布函数给出了一种新的模糊规则权重的计算方法.该方法加强了类间的对比度和差异性,削弱了类内差距.将该权重方法与Chi et al规则生成算法和模糊分类推理模型结合形成新的分类算法,对具有不同非平衡度的UCI数据集进行Matlab对比研究,所得结果验证了该算法的可靠性与有效性.  相似文献   

10.
非平衡数据集分类问题研究进展   总被引:3,自引:0,他引:3  
非平衡数据集广泛存在于现实世界中,其分类问题已经成为目前数据挖掘领域中的一个研究热点.文章综述了非平衡数据集分类问题的评价方法及其常用分类算法,分析了目前存在的主要困难,并指出需进一步解决的几个问题.  相似文献   

11.
针对不平衡数据集,提出一种基于后验概率的特征选择算法。该算法引入基于Parzen-window方法估算的不均衡因子,并以Tomek links中点为初始值进行迭代,找出满足后验概率相等的判别边界点,通过对这些点法向量进行投影计算得到各特征的权值。实验表明,对于不平衡数据集,该算法在不降低分类器总体性能的基础上,不仅可以有效降低维度,节省计算开销,而且能够避免常规特征选择算法用于不平衡数据时忽视小类的缺点。  相似文献   

12.
将线性尺度空间的特征点扩展问题转化为多尺度数据集的同尺度内分类问题,该问题属于尺度不变的非平衡数据集分类问题。提出了一种基于尺度空间的核学习的采样算法来处理支持向量机(support vector machine,SVM)在非平衡数据集上的分类问题。其核心思想是首先在核空间中对少数类样本进行上采样,然后通过输入空间和核空间的距离关系寻找所合成样本在输入空间的原像,最后再采用SVM对其进行训练,从而有效克服了目前采样方法在不同空间处理训练样本所带来的数据不一致问题。该算法所采用的采样策略不仅能够降低数据失衡率,而且能够拓展少数类样本所形成的凸壳,从而更为有效地纠正最优分类超平面偏移问题。实验结果证明,所获得的结果分类器具有更好的泛化性能,能够在同尺度内有效扩展稳定特征点数量。  相似文献   

13.
处理不平衡数据分类时,传统支持向量机技术(SVM)对少数类样本识别率较低。鉴于SVM+技术能利用样本间隐藏信息的启发,提出了多任务学习的不平衡SVM+算法(MTL-IC-SVM+)。MTL-IC-SVM+基于SVM+将不平衡数据的分类表示为一个多任务的学习问题,并从纠正分类面的偏移出发,分别赋予多数类和少数类样本不同的错分惩罚因子,且设置少数类样本到分类面的距离大于多数类样本到分类面的距离。UCI数据集上的实验结果表明,MTL-IC-SVM+在不平衡数据分类问题上具有较高的分类精度。  相似文献   

14.
欠采样是当前解决类不平衡问题的主流方法之一。现有研究表明,高效地处理类别重叠能够有效提升过采样方法的性能。然而,目前对欠采样的研究大多认为由于样本选择策略不当而导致的关键样本丢失是影响欠采样方法性能的主要原因,为此,研究者从不同的角度提出了一系列针对性的方法,但鲜有对欠采样中类别重叠的研究。提出一种融合贝叶斯后验概率和分布密度的欠采样方法(BPDDUS)实现重叠区域样本的检测和清洗,并通过样本的分布信息对清洗后的样本进行欠采样。具体来说,该方法通过贝叶斯后验概率对多数类样本中潜在的噪声和重叠样本进行清洗以增强分类决策边界的清晰度。对清洗后的多数类样本,引入全局分布密度和信息熵来度量样本对不平衡数据分类学习的重要程度并对其分配相应的采样权重。按样本权重欠采样并构建集成分类系统,以提升模型的泛化能力。在43个KEEL数据库数据集上进行的数值实验验证了所提的BPDDUS方法的有效性。  相似文献   

15.
冯宏伟  姚博  高原  王惠亚  冯筠 《控制与决策》2017,32(10):1831-1836
针对非均衡数据分类效果差的问题,提出一种新的基于边界混合采样的非均衡数据处理方法(BMS).首先通过引进“变异系数”找出样本的边界域和非边界域;然后对边界域中的少数类样本进行过采样,对非边界域中的多数类样本进行随机欠采样,以期达到训练数据基本平衡的目标.实验结果表明,BMS方法比其他3种流行的非均衡数据处理方法在对7个公开数据集的分类性能上平均提高了5%左右,因此,该方法可以广泛应用于非均衡数据的处理和分类中.  相似文献   

16.
为了改善传统支持向量机(SVM)对不平衡数据的分类效果,解决分类器对少类样本分类效果较差的问题,提出了一种复合SVM算法。该算法首先通过自适应合成采样(ADASYN)算法和不同错误代价(DEC)算法的结合,改善不平衡数据对超平面造成的偏移;然后引入一种新的修正算法对预测模型进行修正,提高预测模型对于不同数据特性的适应性。选择UCI数据库中的7组现实世界的不平衡数据集进行测试,实验表明在各个数据集上复合SVM算法性能均优于现有算法或与现有算法相当,分类性能平均提高了2.0%~20.9%,证明本算法的有效性和鲁棒性。  相似文献   

17.
    
Learning on imbalanced datasets, where one class is underrepresented, is problematic and important at the same time. On the one hand, a limited number of positive examples restricts the generalization ability of classifiers. On the other hand, often, the class of interest is such exactly because it is rare. The Synthetic Minority Oversampling TEchnique (SMOTE) is a preprocessing method that creates new synthetic examples by interpolating between neighboring instances. In this work, an enhancement to SMOTE is proposed, which characterizes synthetic instances as solutions of attraction‐repulsion problems among the neighboring data points. Experimental evaluation shows an improvement in the positive predictive power of classification.  相似文献   

18.
传统的分类算法在对不平衡数据进行分类时,容易导致少数类被错分。为了提高少数类样本的分类准确度,提出了一种基于改进密度峰值聚类的采样算法IDP-SMOTE。首先,采用Box-Cox变换和σ准则对密度峰值聚类算法进行改进,实现了聚类中心和离群点的自动判别;然后,将改进的密度峰值聚类算法与SMOTE升采样算法相结合,去除噪声数据,并基于少数类样本的局部密度和邻近距离,在子类的范围内合成采样数据。该算法有效避免了升采样导致的边界模糊,改善了类内不平衡及边界样本难以学习的问题,同时实现了自动聚类和重采样,防止了人为因素干扰。通过实验对比,验证了提出算法的有效性和自适应性。  相似文献   

19.
基于改进SMOTE的非平衡数据集分类研究   总被引:1,自引:0,他引:1  
针对SMOTE(Synthetic Minority Over-sampling Technique)在合成少数类新样本时存在的不足,提出了一种改进的SMOTE算法(SSMOTE)。该算法的关键是将支持度概念和轮盘赌选择技术引入到SMOTE中,并充分利用了异类近邻的分布信息,实现了对少数类样本合成质量和数量的精细控制。将SSMOTE与KNN(K-Nearest Neighbor)算法结合来处理不平衡数据集的分类问题。通过在UCI数据集上与其他重要文献中的相关算法进行的大量对比实验表明,SSMOTE在新样本的整体合成效果上表现出色,有效提高了KNN在非平衡数据集上的分类性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号