首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 0 毫秒
1.
针对当前银行用户数据中良好用户与违约用户存在类别不平衡的情况,以及由此导致分类模型出现过拟合且准确率过于乐观的问题,提出一种基于SMOTE+TOMEK采样算法的XGBoost分类模型。该模型以Lending Club公开信贷数据集为实验数据,通过SMOTE+TOMEK算法进行采样得到样本均衡化且边界清晰的平衡数据集,通过XGBoost模型对数据样本进行分类并与单一分类模型进行对比。实验结果表明,ST-XGB模型从精准率、AUC分数等模型评估指标均优于单一分类模型,具有较好的泛化能力与稳定性。  相似文献   

2.
近年来,随着在线信贷的飞速发展,贷款总量不断加大,违约概率不断提升.因此对贷款风险进行深入研究,对在线信贷企业预防互联网金融风险是非常具有现实意义的.针对贷款数据非平衡分布、大量噪声、维度高的问题,本文提出一种基于SMOTE和XGBoost的贷款风险预测方法.通过特征工程对数据进行降维和去噪;针对数据的非平衡问题,使用...  相似文献   

3.
随着金融机构信用卡业务的快速发展,信用卡欺诈行为成为金融机构面临的严峻问题。针对金融机构信用卡数据分布不均衡问题,本文采用过采样、降采样、SMOTE+ENN、SMOTE+Tomeklin、改进的SMOTE+Tomeklin和改进的SMOTE+ENN混合采样这6种不同采样方法对不平衡数据进行平衡处理,然后将平衡数据集输入到多种分类算法模型中进行实验比对,最后提出一种基于改进的SMOTE+ENN混合采样和XGBoost算法的信用卡欺诈行为检测模型。通过5种评价指标验证该检测方法不仅提高了信用卡欺诈行为不平衡数据的区分度,同时提高了信用卡欺诈行为检测的准确性和可行性。  相似文献   

4.
王圆方 《软件》2020,(2):201-204
针对SMOTE算法在合成少数类新样本时存在的不足,提出了一种基于层次聚类算法改进的SMOTE过采样法H-SMOTE。该算法首先对少数类样本进行层次聚类,其次根据提出的簇密度分布函数,计算各个簇的簇密度,最后在各个簇中利用改进的SMOTE算法进行过采样,提高合成样本的多样性,得到新的平衡数据集。通过对UCI数据集的实验表明,H-SMOTE算法的分类效果得到明显的提升。  相似文献   

5.
不平衡数据分析是智能制造的关键技术之一,其分类问题已成为机器学习和数据挖掘的研究热点。针对目前不平衡数据过采样策略中人工合成数据边缘化且需要降噪处理的问题,提出一种基于改进SMOTE(synthetic minority oversampling technique)和局部离群因子(local outlier factor,LOF)的过采样算法。首先对整个数据集进行[K]-means聚类,筛选出高可靠性样本进行改进SMOTE算法过采样,然后采用LOF算法删除误差大的人工合成样本。在4个UCI不平衡数据集上的实验结果表明,该方法对不平衡数据中少数类的分类能力更强,有效地克服了数据边缘化问题,将算法应用于磷酸生产中的不平衡数据,实现了该不平衡数据的准确分类。  相似文献   

6.
基于数据挖掘聚类技术的信用评分评级   总被引:7,自引:0,他引:7  
本文提出了一个基于数据挖掘聚类技术的信用评分评级方法。该方法使用数据挖掘的聚类算法,对传统信用评分模型进行了改进,本文给出了方法的理论证明,并在一个信用卡分析系统DMCA中实现了该方法,进行了详细的数据测试。理论证明及实验结果都表明,聚类技术在传统信用评分模型的DM/MTM,分界值,均方差,交叉验证等问题上取得了良好的效果。  相似文献   

7.
SMOTE和Biased-SVM相结合的不平衡数据分类方法   总被引:3,自引:0,他引:3  
针时不平衡数据集的分类问题,本文利用支持向量机推广能力强的优良特性,提出了SMOTE(Synthetic Minority Over-sampling Technique,SMOTE)和Biased-SVM(Biased SuIpport Vector Machine,Biased-SVM)相结合的方法.该方法首先对原始数据使用Biased-SVM方法,然后对求出的支持向量使用SMOTE向上采样方法进行采样,最后再使用Biased-SVM方法进行分类.实验结果表明,本文采用的SMOTE和Biased-SVM相结合的方法可提高不平衡数据集分类精度.  相似文献   

8.
针对现实信用评分业务中样本类别不平衡和代价敏感问题,以及金融机构更期望以得分的方式直观地认识贷款申请人的信用风险的实际需求,提出一种基于Ext-GBDT集成的类别不平衡信用评分模型。使用欠采样的方法从\"好\"客户(大类)中随机采样多份与全部\"坏\"客户(小类)等量的样本,分别与全部小类构成训练子集;用不同的训练子集及特征采样和参数扰动的方法训练得到多个差异化的Ext-GBDT子模型;然后使用简单平均法整合子模型的预测概率;最后将信用概率转换为信用评分。在UCI德国信用数据集上,以AUC和代价敏感错误率作为评价指标,与决策树、逻辑回归、朴素贝叶斯、支持向量机、随机森林及其集成模型等当前最为常用的信用评分模型进行对比,验证了该模型的有效性。  相似文献   

9.
为解决软件缺陷预测中的不平衡问题,提出一种基于聚类少数类的改进SMOTE算法。对训练集中的少数类样本进行K-means聚类后,通过关键特征权重及与簇心距离权重,计算每个样本的合成样本数量,采用改进的SMOTE算法实现过抽样。采用CART决策树作为基分类器,使用AdaBoost算法对平衡数据集训练,得到分类模型CSMOTE-AdaBoost。在7组NASA数据集上进行实验,验证分类模型中关键特征权重及与簇心距离权重的有效性,其结果优于传统分类算法,具有更好的分类效果。  相似文献   

10.
在互联网金融机构有很多信贷业务,部分新开展的业务由于客户数据较少,无法建立有效的信用评分模型.本文研究将迁移学习思想应用到该问题中,利用已有其他业务的客户数据帮助新开展的业务建立有效的信用评分模型.本文提出一种联合Triplet-Loss表征学习和领域适配的深度学习方法对已有业务数据进行重新编码,并将重新编码后所得的知识迁移到新开展业务的模型中,最后使用XGBoost做为分类器.针对上述问题,本文提出的模型相对传统机器学习方法在效果上有一定提升,在一定程度上解决了该问题.  相似文献   

11.
针对SMOTE(Synthetic Minority Over-sampling Technique)等传统过采样算法存在的忽略类内不平衡、扩展少数类的分类区域以及合成的新样本高度相似等问题,基于综合考虑类内不平衡和合成样本多样性的思想,提出了一种整合DBSCAN和改进SMOTE的过采样算法DB-MCSMOTE(DBSCAN and Midpoint Centroid Synthetic Minority Over-sampling Technique)。该算法对少数类样本进行DBSCAN聚类,根据提出的簇密度分布函数,计算各个簇的簇密度和采样权重,在各个簇中利用改进的SMOTE算法(MCSMOTE)在相距较远的少数类样本点之间的连线上进行过采样,提高合成样本的多样性,得到新的类间和类内综合平衡数据集。通过对一个二维合成数据集和九个UCI数据集的实验表明,DB-MCSMOTE可以有效提高分类器对少数类样本和整体数据集的分类性能。  相似文献   

12.
信用评分系统是在信用风险管理中比较重要的应用,可通过大数据分析技术构建评估分析模型来解决信用风险预测问题。具体而言:基于scikit-learn平台,利用平台中的特征选择方法构建有效模型,并将模型应用至实际数据集中得出信用评分,根据所得的评分结果向信用评估人员提供决策建议,从而降低最终风险。  相似文献   

13.
信用卡公司是一个服务性的金融企业,如何提高在服务过程中的服务质量,改进服务方法,使公司的决策更为准确及时,是信用卡公司追求的一个目标。本文介绍了神经网络方法及数据挖掘技术在信用卡公司对用户评分中的应用,对比分析了几种个人信用评分模型建模方法的特点,建立了一种决策树-神经网络个人信用评分模型,并针对该模型提出了一种近邻聚类算法,该算法在信用评分应用中可以得到较理想的结果。  相似文献   

14.
近年来不平衡分类问题受到广泛关注。SMOTE过采样通过添加生成的少数类样本改变不平衡数据集的数据分布,是改善不平衡数据分类模型性能的流行方法之一。本文首先阐述了SMOTE的原理、算法以及存在的问题,针对SMOTE存在的问题,分别介绍了其4种扩展方法和3种应用的相关研究,最后分析了SMOTE应用于大数据、流数据、少量标签数据以及其他类型数据的现有研究和面临的问题,旨在为SMOTE的研究和应用提供有价值的借鉴和参考。  相似文献   

15.
16.
基于改进SMOTE的非平衡数据集分类研究   总被引:1,自引:0,他引:1  
针对SMOTE(Synthetic Minority Over-sampling Technique)在合成少数类新样本时存在的不足,提出了一种改进的SMOTE算法(SSMOTE)。该算法的关键是将支持度概念和轮盘赌选择技术引入到SMOTE中,并充分利用了异类近邻的分布信息,实现了对少数类样本合成质量和数量的精细控制。将SSMOTE与KNN(K-Nearest Neighbor)算法结合来处理不平衡数据集的分类问题。通过在UCI数据集上与其他重要文献中的相关算法进行的大量对比实验表明,SSMOTE在新样本的整体合成效果上表现出色,有效提高了KNN在非平衡数据集上的分类性能。  相似文献   

17.
汤颖  钟南江  范菁 《计算机科学》2016,43(9):111-115
传统的好友推荐算法在计算好友相似度时通常仅仅考虑用户在社交网络的拓扑结构的相似性,而对用户的兴趣相似性考虑较少,因此推荐的结果往往不够精准。现有的很多社交网站(如豆瓣网)提供了用户评分功能,用户可以对某类物品(如电影)给出自己的评分。为了在推荐时计算用户的兴趣相似度,提出基于用户给出的对某类物品的评分来计算用户的兴趣相似度,从而在拓扑相似度的基础上结合兴趣相似度得到更精准的推荐结果。首先使用余弦相似度计算出用户间拓扑相似度;其次在计算基于评分的用户兴趣相似度时,通过建立概率模型得到用户聚类评分相似度矩阵,从该评分矩阵推导出用户间基于评分的兴趣相似度;最后,结合拓扑相似度和评分相似度得到最终的改进好友推荐算法,计算出相似度值最高的N个人推荐给当前用户。为了验证所提方法的有效性,用提出的方法对豆瓣网抓取的用户数据进行好友推荐,实验结果证明所提方法与传统的基于拓扑的好友推荐算法相比可以有效提高好友推荐的准确性。  相似文献   

18.
针对不平衡数据集的低分类准确性,提出基于改进合成少数类过采样技术(SMOTE)和AdaBoost算法相结合的不平衡数据分类算法(KSMOTE-AdaBoost)。首先,根据K近邻(KNN)的思想,提出噪声样本识别算法,通过样本的K个近邻中所包含的异类样本数目,对样本集中的噪声样本进行精确识别并予以滤除;其次,在过采样过程中基于聚类的思想将样本集划分为不同的子簇,根据子簇的簇心及其所包含的样本数目,在簇内样本与簇心之间进行新样本的合成操作。在样本合成过程中充分考虑类间和类内数据不平衡性,对样本及时修正以保证合成样本质量,平衡样本信息;最后,利用AdaBoost算法的优势,采用决策树作为基分类器,对平衡后的样本集进行训练,迭代多次直到满足终止条件,得到最终分类模型。选择G-mean、AUC作为评价指标,通过在6组KEEL数据集进行对比实验。实验结果表明,所提的过采样算法与经典的过采样算法SMOTE、自适应综合过采样技术(ADASYN)相比,G-means和AUC在4组中有3组最高;所提分类模型与现有的不平衡分类模型SMOTE-Boost,CUS-Boost,RUS-Boost相比,6组数据中:G-means均高于CUS-Boost和RUS-Boost,有3组低于SMOTE-Boost;AUC均高于SMOTE-Boost和RUS-Boost,有1组低于CUS-Boost。验证了所提的KSMOTE-AdaBoost具有更好的分类效果,且模型泛化性能更高。  相似文献   

19.
针对人体姿态估计模型OpenPose计算量大、检测速度慢等问题,提出了一种改进OpenPose模型,替换其主干网络为八度卷积与MobileNet融合而成的Oct-MobileNet,并优化缩减预测阶段的重复分支。实验表明,改进模型的计算量降低为原来的12%且检测速度提升300%。应用改进OpenPose模型提取标准视频与测试视频的姿态向量时间序列,其中姿态向量由关键点坐标经归一化处理后组合得到。采用姿态向量之间的余弦距离表征单帧动作相似度,通过动态时间规整算法计算标准序列与测试序列之间的累积距离作为序列整体相似度。该评分方法计算复杂度低且适用于视频时长不一致的情况,在八段锦健身动作评估中取得了较好应用效果,具有一定的推广应用价值。  相似文献   

20.
数据不平衡现象在现实生活中普遍存在。在处理不平衡数据时,传统的机器学习算法难以达到令人满意的效果。少数类样本合成上采样技术(Synthetic Minority Oversampling Technique,SMOTE)是一种有效的方法,但在多类不平衡数据中,边界点分布错乱和类别分布不连续变得更加复杂,导致合成的样本点会侵入其他类别区域,造成数据过泛化。鉴于基于海林格距离的决策树已被证明对不平衡数据具有不敏感性,文中结合海林格距离和SMOTE,提出了一种基于海林格距离和SMOTE的上采样算法(Based on Hellinger Distance and SMOTE Oversampling Algorithm,HDSMOTE)。首先,建立基于海林格距离的采样方向选择策略,通过比较少数类样本点的局部近邻域内的海林格距离的大小,来引导合成样本点的方向。其次,设计了基于海林格距离的采样质量评估策略,以免合成的样本点侵入其他类别的区域,降低过泛化的风险。最后,采用7种代表性的上采样算法和HDSMOTE算法对15个多类不平衡数据集进行预处理,使用决策树的分类器进行分类,以Precision,Recall,F-measure,G-mean和MAUC作为评价标准对各算法的性能进行评价。实验结果表明,相比于对比算法,HDSMOTE算法在以上评价标准上均有所提升:在Precision上最高提升了17.07%,在Recall上最高提升了21.74%,在F-measure上最高提升了19.63%,在G-mean上最高提升了16.37%,在MAUC上最高提升了8.51%。HDSMOTE相对于7种代表性的上采样方法,在处理多类不平衡数据时有更好的分类效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号