首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 0 毫秒
1.
    
Credit risk assessment has been a crucial issue as it forecasts whether an individual will default on loan or not. Classifying an applicant as good or bad debtor helps lender to make a wise decision. The modern data mining and machine learning techniques have been found to be very useful and accurate in credit risk predictive capability and correct decision making. Classification is one of the most widely used techniques in machine learning. To increase prediction accuracy of standalone classifiers while keeping overall cost to a minimum, feature selection techniques have been utilized, as feature selection removes redundant and irrelevant attributes from dataset. This paper initially introduces Bolasso (Bootstrap-Lasso) which selects consistent and relevant features from pool of features. The consistent feature selection is defined as robustness of selected features with respect to changes in dataset Bolasso generated shortlisted features are then applied to various classification algorithms like Random Forest (RF), Support Vector Machine (SVM), Naïve Bayes (NB) and K-Nearest Neighbors (K-NN) to test its predictive accuracy. It is observed that Bolasso enabled Random Forest algorithm (BS-RF) provides best results forcredit risk evaluation. The classifiers are built on training and test data partition (70:30) of three datasets (Lending Club’s peer to peer dataset, Kaggle’s Bank loan status dataset and German credit dataset obtained from UCI). The performance of Bolasso enabled various classification algorithms is then compared with that of other baseline feature selection methods like Chi Square, Gain Ratio, ReliefF and stand-alone classifiers (no feature selection method applied). The experimental results shows that Bolasso provides phenomenal stability of features when compared with stability of other algorithms. Jaccard Stability Measure (JSM) is used to assess stability of feature selection methods. Moreover BS-RF have good classification accuracy and is better than other methods in terms of AUC and Accuracy resulting in effectively improving the decision making process of lenders.  相似文献   

2.
不平衡数据分类研究综述   总被引:2,自引:1,他引:1  
赵楠  张小芳  张利军 《计算机科学》2018,45(Z6):22-27, 57
在很多应用领域中,数据的类别分布不平衡,如何对其正确分类是数据挖掘和机器学习领域中的研究热点。经典的数据分类算法未考虑数据类别的不平衡性,认为类别之间的误分类代价相同,导致不平衡数据分类的效果不理想。针对数据分类的各个步骤,相继提出了不同的不平衡数据分类处理方法。对多年来的相关研究成果进行归类分析,从特征选择、数据分布调整、分类算法、分类结果评估等几个方面系统地介绍了相关方法,并探讨了进一步的探索方向。  相似文献   

3.
针对细菌觅食优化(Bacterial Foraging Optimization,BFO)算法易陷入局部最优的缺点,提出了混合粒子群优化(Particle Swarm Optimization,PSO)算法与改进的细菌觅食优化(Improved BFO)算法应用于不平衡数据的分类.使用三个数据集测试所提算法的性能,其一...  相似文献   

4.
针对不平衡数据中的分类问题,提出一种基于旋转森林的改进模型——旋转平衡森林(rotation balanced forest,ROBF).以集成思想为核心,从数据层和算法层相结合的角度出发,针对Safe-Level-Smote方法中存在的模糊类边界问题采取两点改进:安全等级再划分机制;引入约束度不同的控制因子,经改进后...  相似文献   

5.
作为一种统一的概率推理结构,贝叶斯网络可以用来表示变量集之间概率的依赖性.文章从防范攻击的角度审视无线局域网安全评估问题,提出了基于贝叶斯网络方法的无线局域网安全风险评估,通过风险因素的识别,结合无线局域网的特点,提出了风险评估的具体办法.  相似文献   

6.
随着信息技术和网络的迅猛发展,支付业务、技术及工具不断创新,移动支付的发展在逐渐加快。移动支付给人们生活带来方便和快捷的同时,也存在着较高的潜在风险,容易遭受非法入侵和恶意攻击。就移动支付风险的分析及风险值的计算理论方面开展工作,在贝叶斯网络的基础上,针对移动支付的主要组成主体,提出移动支付风险评估模型,通过使用该模型进行移动支付风险评估不仅可以对目前移动支付的风险进行评估,还可以根据风险评估结果引导风险控制,对比风险控制前后的风险值判断风险控制的效果,通过案例分析,提出的移动支付风险评估模型可以很好地完成移动支付的风险评估要求。  相似文献   

7.
基于贝叶斯网络的软件项目风险评估模型   总被引:4,自引:0,他引:4  
针对软件项目面临失败风险的问题,提出一种新的软件风险评估模型,采用贝叶斯网络推理风险发生的概率,用模糊语言评估风险后果与损失的方法。实践证明,通过应用基于贝叶斯网络的软件风险评估模型,加强了软件企业风险管理的意识,降低了失败风险发生的概率,提高了软件开发的成功率。  相似文献   

8.
分析了两栖车辆海上航行相关风险,进行安全风险评估,并对可能发生的风险提出了一种可行的解决方案。基于贝叶斯点估计和贝叶斯学习估计与两栖车辆海上航行有关的交通事故,建立了两栖车辆海上航行交通系统(QRA)分析模型。通过贝叶斯网络来获取其相对风险的QRA。研究结果显示:使用该方法描述了两栖车辆海上航行的风险分布,并在QRA上显示了与各种特征相关结果,对两栖车辆航行构成相对风险综合分析,高风险区域的规模按降序排列如下:1)航道—引航—国内水道—航行;2)沿海地区—非引航区—国家水道—航行。该评估模型具有较好的应用价值,可为两栖车辆海上安全航行提供借鉴。  相似文献   

9.
对基于贝叶斯网络的多属性信息安全风险评估方法研究,结合历史上发生的安全事件资料,评估安全威胁和脆弱性的概率,计算出各安全要素的风险值。对信息系统风险评估进行量化,使评估结果更加科学和客观。  相似文献   

10.
提出一种新的软件项目风险管理方法,采用贝叶斯网络同时对风险发生概率和风险影响进行推理.该风险管理方法能够随着软件项目的进行持续地评估潜在风险,并采取适当的措施应对风险.实践证明,在软件开发过程中引入该风险管理方法能够有效地对风险进行管理,提高软件开发的成功率.  相似文献   

11.
针对非平衡数据集中类分布信息不对称现象,提出一种新的过采样算法DB_SMOTE(Distance-based Synthetic Minority Over-sampling Technique),通过合成少数类新样本解决样本不足问题。算法基于样本与类中心距离,结合类聚集程度提取种子样本。根据SMOTE(Synthetic Minority Over-sampling Technique)算法思想,在种子样本上实现少数类新样本合成。根据种子样本与少数类中心距离构造新样本分布函数。基于此采样算法并在多个数据集上进行分类实验,结果表明DB_SMOTE算法是可行的。  相似文献   

12.
 随着信息化时代的到来,信息安全问题变得日益复杂与多样,因此急需一种高性能的解决方法。本文在前人的研究基础上进一步改进贝叶斯网络模型在信息安全风险评估中的应用。首先分析信息系统风险元素种类,提出一种新的确定风险因素的方法,即建立因素之间常见关联关系;然后依据因素关联关系确定信息系统指标体系,并结合经验积累的条件概率,利用Matlab贝叶斯网络工具箱(BNT)构建完整的贝叶斯网络风险评估模型,其中包括对评估流程、方法使用及风险等级确定的分析;最后通过实例分析改进的贝叶斯评估模型,对实验数据推理出风险各等级概率。仿真结果与实际结论相一致,表明改进的贝叶斯评估模型能够准确反映信息系统安全风险等级,是一种有效且合理的评估方法。  相似文献   

13.
目前,我国电网企业对于识别停电投诉风险,开展用户停电敏感程度分析的研究工作还处在起步阶段.为了有效地分析停电用户的敏感程度,提出了一种基于改进随机森林算法的停电敏感用户分类算法.首先,对原始数据进行清洗、特征选择等预处理;接着,采用SMOTE算法增加少数敏感用户样本数据量,解决数据分布不均匀问题;然后,以Fisher比作为特征的重要性度量,按比例随机采样选取具有代表性的特征构成子特征空间;最后,利用随机森林算法识别停电敏感用户.通过在真实停电数据上的实验,验证了提出的方法不仅具有较好的准确性和时间性能,而且可以有效处理高维、冗余特征的数据.  相似文献   

14.
分析了建立电力企业安全生产风险管控系统的必要性和设计框架,并提出了基于贝叶斯网络的动态风险评估模型.通过对风险因素的识别和评估,构建了贝叶斯网络结构和参数,在此基础上对安全生产风险进行了风险评估、风险诊断.最后,依据分析得到的结果进行风险控制.该系统可以满足电力企业安全生产风险管控的需求.  相似文献   

15.
基于贝叶斯风险最小化的航空发动机状态评估   总被引:1,自引:0,他引:1  
为有效评估航空发动机所处运行状态,提出一种基于贝叶斯风险最小化原则的状态评估方法.利用模糊贝叶斯风险模型从发动机全寿命数据中挖掘得到最优特征子集及对应的权重,利用多属性决策集结运算结果和统计函数生成模糊规则,输出模糊语义形式的评估结果,从而实现逼近决策风险最小化的模糊状态评估.在数值试验中,以CMAPSS(Commer...  相似文献   

16.
使用医疗信息系统的数据进行睡眠呼吸暂停低通气综合征(OSAHS)预测和分析过程中,存在不平衡数据问题。为此,在现有临床研究的基础上,提出了一种基于ROSE(Random Over Sampling Examples)和C5.0算法的初筛模型。利用收集到的人体测量学指标数据,通过数据预处理,删除异常值并填补缺失值。然后采用ROSE算法对数据进行平衡,利用C5.0分类器对平衡后的数据构建筛查模型,通过十则交叉验证的方法检验模型的筛查效果。实验结果表明,使用该模型进行打鼾患者的OSAHS筛查,可以有效地提高筛查效率。  相似文献   

17.
不平衡数据集的分类方法研究   总被引:2,自引:0,他引:2  
传统的分类算法在处理不平衡数据分类问题时会倾向于多数类,而导致少数类的分类精度较低。针对不平衡数据的分类,首先介绍了现有不平衡数据分类的性能评价;然后介绍了现有常用的基于数据采样的方法及现有的分类方法;最后介绍了基于数据采样和分类方法结合的综合方法。  相似文献   

18.
传统的数据分类算法多是基于平衡的数据集创建,对不平衡数据分类时性能下降,而实践表明组合选择能有效提高算法在不平衡数据集上的分类性能。为此,从组合选择的角度考虑不平衡类学习问题,提出一种新的组合剪枝方法,用于提升组合分类器在不平衡数据上的分类性能。使用Bagging建立分类器库,直接用正类(少数类)实例作为剪枝集,并通过MBM指标和剪枝集,从分类器库中选择一个最优或次优子组合分类器作为目标分类器,用于预测待分类实例。在12个UCI数据集上的实验结果表明,与EasyEnsemble、Bagging和C4.5算法相比,该方法不但能大幅提升组合分类器在正类上的召回率,而且还能提升总体准确率。  相似文献   

19.
彭徵  王灵矫  郭华 《计算机科学》2018,45(12):148-152
文本分类是信息检索的核心技术。传统的文本分类系统由于单机的计算与存储能力有限,已经不适用于大数据时代。在Spark大数据平台上并行地运行算法对文本进行分类,以数据和任务的并行化来提高算法的效率具有现实性和紧迫性。文中提出了改进的不平衡数据随机森林算法,通过对训练样本的多数类进行欠取样且对少数类进行有放回取样从而形成新训练样本的方法来减少不平衡数据对随机森林的影响。实验结果表明,新算法在处理不平衡数据集上的少数类时提高了分类的正确率。  相似文献   

20.
研究通过对MODIS双星数据组合、线性插值和HANTS平滑方法来提升时序数据集质量,采用随机森林的方法分类,对分类结果精度评定以分析时序数据集构建质量对分类精度的影响.结果表明:双星数据有利于提高时序数据集的时间分辨率,精确刻划覆盖变化,为后续处理提供基础;线性插值可改善像元点的质量,降低云、雨因素影响;HANTS平滑...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号