首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到14条相似文献,搜索用时 140 毫秒
1.
针对不平衡数据集分类结果偏向多数类的问题,重采样技术是解决此问题的有效方法之一。而传统过采样算法易合成无效样本,欠采样方法易剔除重要样本信息。基于此提出一种基于SVM的不平衡数据过采样方法SVMOM(Oversampling Method Based on SVM)。SVMOM通过迭代合成样本。在迭代过程中,通过SVM得到分类超平面;根据每个少数类样本到分类超平面的距离赋予样本距离权重;同时考虑少数类样本的类内平衡,根据样本的分布计算样本的密度,赋予样本密度权重;依据样本的距离权重和密度权重计算每个少数类样本的选择权重,根据样本的选择权重选择样本运用SMOTE合成新样本,达到平衡数据集的目的。实验结果表明,提出的算法在一定程度上解决了分类结果偏向多数类的问题,验证了算法的有效性。  相似文献   

2.
基于改进SMOTE的非平衡数据集分类研究   总被引:1,自引:0,他引:1  
针对SMOTE(Synthetic Minority Over-sampling Technique)在合成少数类新样本时存在的不足,提出了一种改进的SMOTE算法(SSMOTE)。该算法的关键是将支持度概念和轮盘赌选择技术引入到SMOTE中,并充分利用了异类近邻的分布信息,实现了对少数类样本合成质量和数量的精细控制。将SSMOTE与KNN(K-Nearest Neighbor)算法结合来处理不平衡数据集的分类问题。通过在UCI数据集上与其他重要文献中的相关算法进行的大量对比实验表明,SSMOTE在新样本的整体合成效果上表现出色,有效提高了KNN在非平衡数据集上的分类性能。  相似文献   

3.
针对少数类合成过采样技术(Synthetic Minority Oversampling Technique,SMOTE)及其改进算法在不平衡数据分类问题中分类效果不佳,提出了基于K最邻近算法(K-NearestNeighbor,KNN)和自适应的过采样方法(Oversampling Method Based on KNN and Adaptive,KAO)。首先,利用KNN去除噪声样本;其次,根据少数类样本K近邻样本中多数类样本数,自适应给少数类样本分配过采样权重;最后,利用新的插值方式生成新样本平衡数据集。在KEEL公开的数据集上进行实验,将提出的KAO算法与SMOTE及其改进算法进行对比,在F1值和g-mean上都有所提升。  相似文献   

4.
针对SMOTE(Synthetic Minority Over-sampling Technique)等传统过采样算法存在的忽略类内不平衡、扩展少数类的分类区域以及合成的新样本高度相似等问题,基于综合考虑类内不平衡和合成样本多样性的思想,提出了一种整合DBSCAN和改进SMOTE的过采样算法DB-MCSMOTE(DBSCAN and Midpoint Centroid Synthetic Minority Over-sampling Technique)。该算法对少数类样本进行DBSCAN聚类,根据提出的簇密度分布函数,计算各个簇的簇密度和采样权重,在各个簇中利用改进的SMOTE算法(MCSMOTE)在相距较远的少数类样本点之间的连线上进行过采样,提高合成样本的多样性,得到新的类间和类内综合平衡数据集。通过对一个二维合成数据集和九个UCI数据集的实验表明,DB-MCSMOTE可以有效提高分类器对少数类样本和整体数据集的分类性能。  相似文献   

5.
针对少数类样本合成过采样技术(Synthetic Minority Over-Sampling Technique, SMOTE)在合成少数类新样本时会带来噪音问题,提出了一种改进降噪自编码神经网络不平衡数据分类算法(SMOTE-SDAE)。该算法首先通过SMOTE方法合成少数类新样本以均衡原始数据集,考虑到合成样本过程中会产生噪音的影响,利用降噪自编码神经网络算法的逐层无监督降噪学习和有监督微调过程,有效实现对过采样数据集的降噪处理与数据分类。在UCI不平衡数据集上实验结果表明,相比传统SVM算法,该算法显著提高了不平衡数据集中少数类的分类精度。  相似文献   

6.
SMOTE算法可以扩充少数类样本,提高不平衡数据集中少数类的分类能力,但是它在扩充少数类样本时对于边界样本的选择以及随机数的取值具有盲目性。针对此问题,将传统的SMOTE过采样算法进行改进,改进后的过采样算法定义为SDRSMOTE,该算法综合考虑不平衡数据集中全部样本的分布状况,通过融合支持度sd和影响因素posFac来指导少数类样本的合成。在WEKA平台上分别使用SMOTE、SDRSMOTE算法对所选用的6个不平衡数据集进行过采样数据预处理,然后使用决策树、AdaBoost、Bagging和朴素贝叶斯分类器对预处理后的数据集进行预测,选择F-value、G-mean和AUC作为分类性能的评价指标,实验表明SDRSMOTE算法预处理的不平衡数据集的分类效果更好,证明了该算法的有效性。  相似文献   

7.
王圆方 《软件》2020,(2):201-204
针对SMOTE算法在合成少数类新样本时存在的不足,提出了一种基于层次聚类算法改进的SMOTE过采样法H-SMOTE。该算法首先对少数类样本进行层次聚类,其次根据提出的簇密度分布函数,计算各个簇的簇密度,最后在各个簇中利用改进的SMOTE算法进行过采样,提高合成样本的多样性,得到新的平衡数据集。通过对UCI数据集的实验表明,H-SMOTE算法的分类效果得到明显的提升。  相似文献   

8.
针对数据不平衡带来的少数类样本识别率低的问题,提出通过加权策略对过采样和随机森林进行改进的算法,从数据预处理和算法两个方面降低数据不平衡对分类器的影响。数据预处理阶段应用合成少数类过采样技术(Synthetic Minority Oversampling Technique,SMOTE)降低数据不平衡度,每个少数类样本根据其相对于剩余样本的欧氏距离分配权重,使每个样本合成不同数量的新样本。算法改进阶段利用Kappa系数评价随机森林中决策树训练后的分类效果,并赋予每棵树相应的权重,使分类能力更好的树在投票阶段有更大的投票权,提高随机森林算法对不平衡数据的整体分类性能。在KEEL数据集上的实验表明,与未改进算法相比,改进后的算法对少数类样本分类准确率和整体样本分类性能有所提升。  相似文献   

9.
针对不平衡数据集的低分类效率,基于L-SMOTE算法和混合核SVM提出了一种改进的SMOTE算法(FTL-SMOTE)。利用混合核SVM对数据集进行分类。提出了噪声样本识别三原则对噪声样本进行精确识别并予以剔除,进而利用F-SMOTE和T-SMOTE算法分别对错分和正确分类的少类样本进行采样。如此循环,直到满足终止条件,算法结束。通过在UCI数据集上与经典的SMOTE等重要采样算法以及标准SVM的大量实验表明,该方法具有更好的分类效果,改进算法与L-SMOTE算法相比,运算时间大幅减少。  相似文献   

10.
针对非平衡数据集中类分布信息不对称现象,提出一种新的过采样算法DB_SMOTE(Distance-based Synthetic Minority Over-sampling Technique),通过合成少数类新样本解决样本不足问题。算法基于样本与类中心距离,结合类聚集程度提取种子样本。根据SMOTE(Synthetic Minority Over-sampling Technique)算法思想,在种子样本上实现少数类新样本合成。根据种子样本与少数类中心距离构造新样本分布函数。基于此采样算法并在多个数据集上进行分类实验,结果表明DB_SMOTE算法是可行的。  相似文献   

11.
针对不平衡数据集分类效果不理想的问题,提出了一种新的基于混合采样的不平衡数据集算法(BSI)。通过引进“变异系数”找出样本的稀疏域和密集域,针对稀疏域中的少数类样本,提出了一种改进SMOTE算法的过采样方法(BSMOTE);对密集域中的多数类样本,提出了一种改进的欠采样方法(IS)。通过在六种不平衡数据集上的实验表明,该算法与传统算法相比,取得了更高的G-mean值、F-value值、AUC值,有效改善了不平衡数据集的综合分类性能。  相似文献   

12.
不平衡数据分析是智能制造的关键技术之一,其分类问题已成为机器学习和数据挖掘的研究热点。针对目前不平衡数据过采样策略中人工合成数据边缘化且需要降噪处理的问题,提出一种基于改进SMOTE(synthetic minority oversampling technique)和局部离群因子(local outlier factor,LOF)的过采样算法。首先对整个数据集进行[K]-means聚类,筛选出高可靠性样本进行改进SMOTE算法过采样,然后采用LOF算法删除误差大的人工合成样本。在4个UCI不平衡数据集上的实验结果表明,该方法对不平衡数据中少数类的分类能力更强,有效地克服了数据边缘化问题,将算法应用于磷酸生产中的不平衡数据,实现了该不平衡数据的准确分类。  相似文献   

13.
针对SMOTE(synthetic minority over-sampling technique)等基于近邻值的传统过采样算法在处理类不平衡数据时近邻参数不能根据少数类样本的分布及时调整的问题,提出邻域自适应SMOTE算法AdaN_SMOTE.为使合成数据保留少数类的原始分布,跟踪精度下降点确定每个少数类数据的近邻值,并根据噪声、小析取项或复杂的形状及时调整近邻值的大小;合成数据保留了少数类的原始分布,算法分类性能更佳.在KE E L数据集上进行实验对比验证,结果表明AdaN_SMOTE分类性能优于其他基于近邻值的过采样方法,且在有噪声的数据集中更有效.  相似文献   

14.
在机器学习及其分类问题时经常会遇到非平衡数据集,为了提高非平衡数据集分类的有效性,提出了基于商空间理论的过采样分类算法,即QMSVM算法。对训练集中多数类样本进行聚类结构划分,所得划分结果和少数类样本合并进行线性支持向量机(SVM)学习,从而获取多数类样本的支持向量和错分的样本粒;另一方面,获取少数类样本的支持向量和错分的样本,进行SMOTE采样,最后把上述得到的两类样本合并进行SVM学习,这样来实现学习数据集的再平衡处理,从而得到更加合理的分类超平面。实验结果表明,和其他几种算法相比,所提算法虽在正确分类率上有所降低,但较大改善了g_means值和acc+值,且对非平衡率较大的数据集效果会更好。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号