首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
针对不平衡数据集上的分类问题,提出了基于Lévy分布的过采样方法,其核心思想是根据初始数据集的分布,利用Lévy分布构造新样本的密度分布。基于Lévy分布的特性,使得从边界样本合成的新样本密度最大,靠近多数类的样本合成的新样本密度次之,靠近少数类的样本合成的新样本密度最小。因此,该算法可以增强分类边界,同时可以减小噪声生成。通过在多个数据集上的实验,表明所提算法可以有效改善不平衡数据的分类效果。  相似文献   

2.
3.
4.
不平衡数据集是指在数据集中,某一类样本的数量远大于其他类样本的数量,其会影响分类结果,使基本分类器偏向多数类.合成少数样本过采样技术(SMOTE)是处理数据不平衡问题的一种经典过采样方法,以两个少数样本对应的线段为端点生成一个合成样本.提出一种基于SMOTE的少数群体过采样方法,改进生成新样本的方式,在合成样本的过程中...  相似文献   

5.
6.
针对不平衡数据集分类结果偏向多数类的问题,重采样技术是解决此问题的有效方法之一。而传统过采样算法易合成无效样本,欠采样方法易剔除重要样本信息。基于此提出一种基于SVM的不平衡数据过采样方法SVMOM(Oversampling Method Based on SVM)。SVMOM通过迭代合成样本。在迭代过程中,通过SVM得到分类超平面;根据每个少数类样本到分类超平面的距离赋予样本距离权重;同时考虑少数类样本的类内平衡,根据样本的分布计算样本的密度,赋予样本密度权重;依据样本的距离权重和密度权重计算每个少数类样本的选择权重,根据样本的选择权重选择样本运用SMOTE合成新样本,达到平衡数据集的目的。实验结果表明,提出的算法在一定程度上解决了分类结果偏向多数类的问题,验证了算法的有效性。  相似文献   

7.
针对不平衡数据集分类效果不理想的问题,提出了一种新的基于混合采样的不平衡数据集算法(BSI)。通过引进“变异系数”找出样本的稀疏域和密集域,针对稀疏域中的少数类样本,提出了一种改进SMOTE算法的过采样方法(BSMOTE);对密集域中的多数类样本,提出了一种改进的欠采样方法(IS)。通过在六种不平衡数据集上的实验表明,该算法与传统算法相比,取得了更高的G-mean值、F-value值、AUC值,有效改善了不平衡数据集的综合分类性能。  相似文献   

8.
王晓娟 《福建电脑》2011,27(6):145-146
本文在文献[1]的基础上提出了一种改进的SMOTE过采样方法,以少数类样本为中心向外扩展,直到遇到多数类样本,以此来确定半径,然后在该范围内进行随机地插值,用该方法来解决不平衡数据的分类问题,通过实验表明,该方法是可行的、有效的。  相似文献   

9.
针对数据不平衡带来的少数类样本识别率低的问题,提出通过加权策略对过采样和随机森林进行改进的算法,从数据预处理和算法两个方面降低数据不平衡对分类器的影响。数据预处理阶段应用合成少数类过采样技术(Synthetic Minority Oversampling Technique,SMOTE)降低数据不平衡度,每个少数类样本根据其相对于剩余样本的欧氏距离分配权重,使每个样本合成不同数量的新样本。算法改进阶段利用Kappa系数评价随机森林中决策树训练后的分类效果,并赋予每棵树相应的权重,使分类能力更好的树在投票阶段有更大的投票权,提高随机森林算法对不平衡数据的整体分类性能。在KEEL数据集上的实验表明,与未改进算法相比,改进后的算法对少数类样本分类准确率和整体样本分类性能有所提升。  相似文献   

10.
不平衡数据集的特点导致了在分类时产生了诸多难题。对不平衡数据集的分类方法进行了分析与总结。在数据采样方法中从欠采样、过采样和混合采样三方面介绍不平衡数据集的分类方法;在欠采样方法中分为基于[K]近邻、Bagging和Boosting三种方法;在过采样方法中从合成少数过采样技术(Synthetic Minority Over-sampling Technology,SMOTE)、支持向量机(Support Vector Machine,SVM)两个角度来分析不平衡数据集的分类方法;对这两类采样方法的优缺点进行了比较,在相同数据集下比较算法的性能并进行分析与总结。从深度学习、极限学习机、代价敏感和特征选择四方面对不平衡数据集的分类方法进行了归纳。最后对下一步工作方向进行了展望。  相似文献   

11.
针对实际应用中存在的数据集分布不平衡的问题,提出一种融合特征边界数据信息的过采样方法。去除数据集中的噪声点,基于少数类样本点的多类近邻集合,融合特征边界的几何分布信息获得有利于定义最优非线性分类边界的少数类样本点,通过其与所属类簇的结合生成新样本。对不平衡数据集采用多种过采样技术处理后,利用支持向量机进行分类,对比实验表明所提方法有效改善了不平衡数据的分类精度,验证了算法的有效性。  相似文献   

12.
针对软件缺陷预测中不平衡数据的分类问题,提出了一种基于过采样和集成学习的类不平衡软件缺陷预测模型XG-AJCC(AJCC-Ram+XGBoost).在预处理阶段,提出了AJCC-Ram(Adaptive Judgment Cure Clustering Random Sampling)多层次过采样方法.该方法基于改进的ADASYN自适应过采样和CURE-SMOTE过采样分别在类边缘和类中心层面生成新样本,通过CLNI方法对样本生成后的数据集进行噪声过滤及清理.在模型构建阶段,与集成算法XGBoost(eXtreme Gradient Boosting)相结合形成最终的不平衡数据缺陷预测模型.本文在AEEEM数据集和NASA数据集中进行了验证,实验结果表明:较于经典的采样方法和采样集成预测模型,在F1指标上AJCC-Ram过采样方法及XG-AJCC采样集成算法模型均能够取得有效的预测结果.  相似文献   

13.
针对现有过采样方法存在的易引入噪声点、合成样本重叠的问题,提出一种基于自然最近邻的不平衡数据过采样方法.确定少数类样本的自然最近邻,每个样本的近邻个数由算法自适应计算生成,反映了样本分布的疏密程度.基于自然近邻关系对少数类样本聚类,由位于同一类簇中密集区域的核心点和稀疏区域的非核心点生成新样本.在二维合成数据集和UCI...  相似文献   

14.
为了缓解软件缺陷预测的类不平衡问题,避免过拟合影响缺陷预测模型的准确率,本文提出一种面向软件缺陷预测的基于异类距离排名的过采样方法(HDR).首先,对少数类实例进行3类实例区分,去除噪声实例,减少噪声数据导致的过拟合的情况,然后基于异类距离将实例进行排名,选取相似度高的实例两两组合产生新实例,以此来提升新实例的多样性,...  相似文献   

15.
针对SMOTE(synthetic minority over-sampling technique)在合成少数类新样本时存在的不足,提出了一种改进的SMOTE算法GA-SMOTE。该算法的关键将是遗传算法中的3个基本算子引入到SMOTE中,利用选择算子实现对少数类样本有区别的选择,使用交叉、变异算子实现对合成样本质量的控制.结合GA-SMOTE与SVM(support vector machine)算法来处理不平衡数据的分类问题.UCI数据集上的大量实验表明,GA-SMOTE在新样本的整体合成效果上表现出色,有效提高了SVM在不平衡数据集上的分类性能。  相似文献   

16.
针对分类任务中的不平衡数据集造成的分类性能低下的问题,提出了类不平衡数据的EM聚类过采样算法,通过过采样提高少数类样本数量,从根本上解决数据不平衡问题。首先,算法采用聚类技术,通过欧式距离衡量样本间的相似度,选取每个聚类簇的中心点作为过采样点,一定程度解决了样本的重要程度不够的问题;其次,通过直接在少数类样本空间上进行采样,可较好解决SMOTE、Cluster-SMOTE等方法对聚类空间没有针对性的问题;同时,通过对少数类样本数量的30%进行过采样,有效解决基于Cluster聚类的欠采样盲目追求两类样本数量平衡和SMOTE等算法没有明确采样率的问题。在公开的24个类不平衡数据集上进行了实验,验证了方法的有效性。  相似文献   

17.
18.
《信息与电脑》2021,(1):45-49
采用传统过采样算法会导致忽略边界样本重要信息、新样本高相似度等问题,本文针对这一问题提出了一种新型的DB-BMCSMOTE方法。首先,该算法用DBSCAN聚类法对少数类聚类,识别并去除噪音后对标签中存在的边界少数样本依概率进行标记。其次,对聚类生成的每一样本簇生成密度函数,计算其密度及采样权重,将各簇中依概率标记的少数样本与较远样本间的中点进行过采样,以提升模型的准确率。实验结果表明,该算法相比其他算法平均提升3.8%,最大为5.92%,并有效应用于信用评价。  相似文献   

19.
针对传统采样方式准确率与鲁棒性不够明显,欠采样容易丢失重要的样本信息,而过采样容易引入冗杂信息等问题,以UCI公共数据集中的不平衡数据集Pima-Indians为例,综合考虑数据集正负类样本的类间距离、类内距离与不平衡度之间的关系,提出一种基于样本特性的新型过采样方式.首先对原始数据集进行距离带的划分,然后提出一种改进的基于样本特性的自适应变邻域Smote算法,在每个距离带的少数类样本中进行新样本的合成,并将此方式推广到UCI数据集中其他5种不平衡数据集.最后利用SVM分类器进行实验验证的结果表明:在6类不平衡数据集中,应用新型过采样SVM算法,相比已有的采样方式,少(多)数类样本的分类准确率均有明显提高,且算法具有更强的鲁棒性.  相似文献   

20.
针对不平衡数据集的Bagging改进算法   总被引:1,自引:1,他引:0       下载免费PDF全文
传统的Bagging分类方法对不平衡数据集进行分类时,虽然能够达到很高的分类精度,但是对其中少数类的分类准确率不高。为提高其对少数类数据的分类精度,利用SMOTE算法对样例集中的少数类样例进行加工,在Bagging算法中根据类值对各个样例的权重进行调整。混淆矩阵和ROC曲线表明改进算法达到了既能保证整体的分类准确率,又能提高少数类分类精度的目的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号