首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 46 毫秒
1.
针对传统的Borderline—SMOTE方法在选择少数类样本进行合成的过程中,无法识别出完全的边界样本的这一问题,提出一种基于近邻构建边界样本的过采样算法BN-SMOTE.该算法利用最近邻的思想,构建处于决策边界附近的多数类样本集,再以此来确定边界区域的难以学习的少数类样本点,组成一个新的用于合成新样本的少数类样本集...  相似文献   

2.
訾壮壮  何涛  赵停 《计算机应用与软件》2020,37(10):290-294,306
大多数不平衡数据集过采样方法依赖于欧几里得特征空间中少数类样本的空间位置,使用少数类样本的局部信息生成新样本来减轻类不平衡问题,因此新生成的少数类样本质量较差。针对这种情况,提出一种K稀疏解过采样算法(K Sparse Over-Sampling,KSOS),其使用少数类样本的全局信息进行样本合成。使用少数类样本来构造稀疏字典,通过求解L1范数最小化来获得当前点的稀疏解;使用稀疏解中的非零项所对应的项来生成新的样本;计算每一个新生成样本的置信度,将所有新生成样本按其置信度排序,从中选取符合要求的新生成样本。在几个UCI数据集上的实验结果证明了该算法的有效性。  相似文献   

3.
针对分类任务中的不平衡数据集造成的分类性能低下的问题,提出了类不平衡数据的EM聚类过采样算法,通过过采样提高少数类样本数量,从根本上解决数据不平衡问题。首先,算法采用聚类技术,通过欧式距离衡量样本间的相似度,选取每个聚类簇的中心点作为过采样点,一定程度解决了样本的重要程度不够的问题;其次,通过直接在少数类样本空间上进行采样,可较好解决SMOTE、Cluster-SMOTE等方法对聚类空间没有针对性的问题;同时,通过对少数类样本数量的30%进行过采样,有效解决基于Cluster聚类的欠采样盲目追求两类样本数量平衡和SMOTE等算法没有明确采样率的问题。在公开的24个类不平衡数据集上进行了实验,验证了方法的有效性。  相似文献   

4.
在现实世界中,金融欺诈检测和疾病诊断是典型的图不平衡问题,基于过采样的图神经网络是解决此类问题的常用方法之一.然而,该方法难以保证生成边界样本的多样性,易导致分类性能下降.提出一种基于边界过采样的图节点不平衡分类算法(ImBS)来提升生成样本的多样性.ImBS通过双层图神经分类网络选择出每个类别中高置信度样本作为采样锚点,提高锚点的代表性.为了使生成样本分布更加合理,利用上一步得到的混淆矩阵,计算少数类误判的分布比例.并基于该分布比例,自适应计算不同类间生成的样本数量.在此基础上,提出基于锚点的混合过采样方法.通过混合异类锚点特征的方式过采样边界节点,达到增加样本多样性和扩展少数类决策边界的目的.此外,为了防止产生有害连接,引入个性化PageRank方法,为过采样样本生成邻域分布.在三个真实的数据集(Cora、CiteSeer和Cora-Ful)上的实验表明,该方法与9个代表性的方法对比具有明显优势.  相似文献   

5.
不平衡数据集是指在数据集中,某一类样本的数量远大于其他类样本的数量,其会影响分类结果,使基本分类器偏向多数类.合成少数样本过采样技术(SMOTE)是处理数据不平衡问题的一种经典过采样方法,以两个少数样本对应的线段为端点生成一个合成样本.提出一种基于SMOTE的少数群体过采样方法,改进生成新样本的方式,在合成样本的过程中...  相似文献   

6.
针对现有过采样方法存在的易引入噪声点、合成样本重叠的问题,提出一种基于自然最近邻的不平衡数据过采样方法.确定少数类样本的自然最近邻,每个样本的近邻个数由算法自适应计算生成,反映了样本分布的疏密程度.基于自然近邻关系对少数类样本聚类,由位于同一类簇中密集区域的核心点和稀疏区域的非核心点生成新样本.在二维合成数据集和UCI...  相似文献   

7.
针对单一的不平衡数据分类算法合成样本质量不佳、未考虑类内样本分布等局限性,提出一种不平衡数据中基于权重的边界混合采样(boundary mixed sampling based on weight selection in imbalanced data,BWBMS)。剔除噪声样本并引入边界因子概念,把原样本空间分成边界集和非边界集;考虑类内样本分布,对于边界集中每个少数类样本赋予支持度权重和密度权重并增加采样比重将其划分为两类,对两类样本子集采用不同的过采样算法和过采样倍率;考虑不同区域样本重要性的不同,根据多数类样本距离其最近的k个异类近邻的平均距离来删减部分非边界集多数类样本点。实验结果表明,结合SVM分类器的BWBMS算法在不同数据集上的性能指标得到了提升,验证了其有效性。  相似文献   

8.
针对传统过采样方法不能充分利用数据集信息的缺陷,提出一种基于反事实(counterfactual,CF)的不平衡数据过采样方法,并进一步对生成的少数类合成样本进行了\"可信\"清除.其核心思想是依据数据集原有实例特征值合成新样本,相比传统过采样的插值法,更能充分挖掘数据中的边界决策信息,从而为分类器提供更多的有用信息,提高分类性能.在9个来自KEEL与UCI的不平衡数据集、5种不同分类器(SVM、DT、Logistic、RF、AdaBoost)上与4种传统过采样方法(SMOTE、B1-SMOTE、B2-SMOTE、ADASYN)进行了大量对比实验,结果表明,所提方法具有更高的AUC值、F1值和G-mean值,可以更为有效地解决类不平衡问题.  相似文献   

9.
针对SMOTE方法对所有少数类样本进行过采样的缺陷,提出一种基于特征加权与聚类融合的过采样方法(WKMeans-SMOTE),由此进行不平衡数据分类。考虑到不同特征权重对聚类结果的影响程度不同,选择特征加权的聚类算法对原始数据集进行聚类,并多次改变初始簇中心生成不同的聚类结果;根据簇标签匹配方法将不同的聚类结果进行匹配,引进“聚类一致性系数”筛选出处于少数类边界的样本;对筛选出的少数类样本进行SMOTE过采样,并采用CART决策树方法作为基分类器,对新的少数类样本与所有的多数类样本进行训练。实验结果表明,与现有的SMOTE、Borderline-SMOTE和ADASYN等过采样方法相比,所提出的WKMeans-SMOTE方法在分类性能上有一定的提升。  相似文献   

10.
针对不平衡数据集上的分类问题,提出了基于Lévy分布的过采样方法,其核心思想是根据初始数据集的分布,利用Lévy分布构造新样本的密度分布。基于Lévy分布的特性,使得从边界样本合成的新样本密度最大,靠近多数类的样本合成的新样本密度次之,靠近少数类的样本合成的新样本密度最小。因此,该算法可以增强分类边界,同时可以减小噪声生成。通过在多个数据集上的实验,表明所提算法可以有效改善不平衡数据的分类效果。  相似文献   

11.
针对非平衡数据集中类分布信息不对称现象,提出一种新的过采样算法DB_SMOTE(Distance-based Synthetic Minority Over-sampling Technique),通过合成少数类新样本解决样本不足问题。算法基于样本与类中心距离,结合类聚集程度提取种子样本。根据SMOTE(Synthetic Minority Over-sampling Technique)算法思想,在种子样本上实现少数类新样本合成。根据种子样本与少数类中心距离构造新样本分布函数。基于此采样算法并在多个数据集上进行分类实验,结果表明DB_SMOTE算法是可行的。  相似文献   

12.
在类别不平衡数据集中,由于靠近类边界的样本更容易被错分,因此准确识别边界样本对分类具有重要意义。现有方法通常采用K近邻来标识边界样本,准确率有待提高。针对上述问题,提出一种基于Tomek 链的边界少数类样本合成过采样方法。首先,计算得到类间距离互为最近的样本形成Tomek链;然后,根据Tomek链标识出位于类间边界处的少数类样本;接下来,利用合成少数类过采样技术(SMOTE)中的线性插值机制在边界样本及其少数类近邻间进行过采样,并最终实现数据集的平衡。实验对比了8种采样方法,结果表明所提方法在大部分数据集上均获得了更高的G-mean和F1值。  相似文献   

13.
不平衡数据集的分类方法研究   总被引:2,自引:0,他引:2  
传统的分类算法在处理不平衡数据分类问题时会倾向于多数类,而导致少数类的分类精度较低。针对不平衡数据的分类,首先介绍了现有不平衡数据分类的性能评价;然后介绍了现有常用的基于数据采样的方法及现有的分类方法;最后介绍了基于数据采样和分类方法结合的综合方法。  相似文献   

14.
现有分类算法对不平衡数据挖掘通常表现出有偏性,即正类样本(通常是更重要的一类)的分类和预测性能差于负类样本的分类和预测性能,为此提出一种不平衡数据的分类方法。该方法对不同类引入不同的惩罚参数来灵活控制两类错分率的上界,通过一个超球面将两类数据以最大分离比率分离,从而提高不平衡数据对正类分类和预测的性能。实验结果表明,该方法可以有效提高不平衡数据的分类性能。  相似文献   

15.
代价敏感学习是解决不均衡数据分类问题的一个重要策略,数据特征的非线性也给分类带来一定困难,针对此问题,结合代价敏感学习思想与核主成分分析KPCA提出一种代价敏感的Stacking集成算法KPCA-Stacking.首先对原始数据集采用自适应综合采样方法(ADASYN)进行过采样并进行KPCA降维处理;其次将KNN、LD...  相似文献   

16.
基于聚类和遗传交叉的少数类样本生成方法   总被引:1,自引:1,他引:0  
杜娟  衣治安  周颖 《计算机工程》2009,35(22):182-184
传统的分类算法在处理不均衡样本数据时,分类器预测倾向于多数类,样本数量少的类别分类误差大。针对该问题,提出一种基于聚类和遗传交叉的少数类样本上采样方法,通过K-means算法将少数类样本聚类分组,在每个聚类内使用遗传交叉获取新样本,并进行有效性验证。基于K-最近邻及支持向量机分类器的实验结果证明了该方法的有效性。  相似文献   

17.
在非平衡数据分类问题中,为了合成有价值的新样本和删除无影响的原样本,提出一种基于边界混合重采样的非平衡数据分类算法。该算法首先引入支持k-离群度概念,找出数据集中的边界点集和非边界点集;利用改进的SMOTE算法将少数类中的边界点作为目标样本合成新的点集,同时对多数类中的非边界点采用基于距离的欠采样算法,以此达到类之间的平衡。通过实验结果对比表明了该算法在保证G-mean值较优的前提下,一定程度上提高了少数类的分类精度。  相似文献   

18.
陆宇  赵凌云  白斌雯  姜震 《计算机应用》2022,42(12):3750-3755
不平衡分类的相关算法是机器学习领域的研究热点之一,其中的过采样通过重复抽取或者人工合成来增加少数类样本,以实现数据集的再平衡。然而当前的过采样方法大部分是基于原有的样本分布进行的,难以揭示更多的数据集分布特征。为了解决以上问题,首先,提出一种改进的半监督聚类算法来挖掘数据的分布特征;其次,基于半监督聚类的结果,在属于少数类的簇中选择置信度高的无标签数据(伪标签样本)加入原始训练集,这样做除了实现数据集的再平衡外,还可以利用半监督聚类获得的分布特征来辅助不平衡分类;最后,融合半监督聚类和分类的结果来预测最终的类别标签,从而进一步提高算法的不平衡分类性能。选择G-mean和曲线下面积(AUC)作为评价指标,将所提算法与TU、CDSMOTE等7个基于过采样或欠采样的不平衡分类算法在10个公开数据集上进行了对比分析。实验结果表明,与TU、CDSMOTE相比,所提算法在AUC指标上分别平均提高了6.7%和3.9%,在G-mean指标上分别平均提高了7.6%和2.1%,且在两个评价指标上相较于所有对比算法都取得了最高的平均结果。可见所提算法能够有效地提高不平衡分类性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号