共查询到20条相似文献,搜索用时 0 毫秒
1.
Credit risk assessment has been a crucial issue as it forecasts whether an individual will default on loan or not. Classifying an applicant as good or bad debtor helps lender to make a wise decision. The modern data mining and machine learning techniques have been found to be very useful and accurate in credit risk predictive capability and correct decision making. Classification is one of the most widely used techniques in machine learning. To increase prediction accuracy of standalone classifiers while keeping overall cost to a minimum, feature selection techniques have been utilized, as feature selection removes redundant and irrelevant attributes from dataset. This paper initially introduces Bolasso (Bootstrap-Lasso) which selects consistent and relevant features from pool of features. The consistent feature selection is defined as robustness of selected features with respect to changes in dataset Bolasso generated shortlisted features are then applied to various classification algorithms like Random Forest (RF), Support Vector Machine (SVM), Naïve Bayes (NB) and K-Nearest Neighbors (K-NN) to test its predictive accuracy. It is observed that Bolasso enabled Random Forest algorithm (BS-RF) provides best results forcredit risk evaluation. The classifiers are built on training and test data partition (70:30) of three datasets (Lending Club’s peer to peer dataset, Kaggle’s Bank loan status dataset and German credit dataset obtained from UCI). The performance of Bolasso enabled various classification algorithms is then compared with that of other baseline feature selection methods like Chi Square, Gain Ratio, ReliefF and stand-alone classifiers (no feature selection method applied). The experimental results shows that Bolasso provides phenomenal stability of features when compared with stability of other algorithms. Jaccard Stability Measure (JSM) is used to assess stability of feature selection methods. Moreover BS-RF have good classification accuracy and is better than other methods in terms of AUC and Accuracy resulting in effectively improving the decision making process of lenders. 相似文献
2.
3.
针对细菌觅食优化(Bacterial Foraging Optimization,BFO)算法易陷入局部最优的缺点,提出了混合粒子群优化(Particle Swarm Optimization,PSO)算法与改进的细菌觅食优化(Improved BFO)算法应用于不平衡数据的分类.使用三个数据集测试所提算法的性能,其一... 相似文献
4.
针对不平衡数据中的分类问题,提出一种基于旋转森林的改进模型——旋转平衡森林(rotation balanced forest,ROBF).以集成思想为核心,从数据层和算法层相结合的角度出发,针对Safe-Level-Smote方法中存在的模糊类边界问题采取两点改进:安全等级再划分机制;引入约束度不同的控制因子,经改进后... 相似文献
5.
作为一种统一的概率推理结构,贝叶斯网络可以用来表示变量集之间概率的依赖性.文章从防范攻击的角度审视无线局域网安全评估问题,提出了基于贝叶斯网络方法的无线局域网安全风险评估,通过风险因素的识别,结合无线局域网的特点,提出了风险评估的具体办法. 相似文献
6.
随着信息技术和网络的迅猛发展,支付业务、技术及工具不断创新,移动支付的发展在逐渐加快。移动支付给人们生活带来方便和快捷的同时,也存在着较高的潜在风险,容易遭受非法入侵和恶意攻击。就移动支付风险的分析及风险值的计算理论方面开展工作,在贝叶斯网络的基础上,针对移动支付的主要组成主体,提出移动支付风险评估模型,通过使用该模型进行移动支付风险评估不仅可以对目前移动支付的风险进行评估,还可以根据风险评估结果引导风险控制,对比风险控制前后的风险值判断风险控制的效果,通过案例分析,提出的移动支付风险评估模型可以很好地完成移动支付的风险评估要求。 相似文献
7.
基于贝叶斯网络的软件项目风险评估模型 总被引:4,自引:0,他引:4
针对软件项目面临失败风险的问题,提出一种新的软件风险评估模型,采用贝叶斯网络推理风险发生的概率,用模糊语言评估风险后果与损失的方法。实践证明,通过应用基于贝叶斯网络的软件风险评估模型,加强了软件企业风险管理的意识,降低了失败风险发生的概率,提高了软件开发的成功率。 相似文献
8.
分析了两栖车辆海上航行相关风险,进行安全风险评估,并对可能发生的风险提出了一种可行的解决方案。基于贝叶斯点估计和贝叶斯学习估计与两栖车辆海上航行有关的交通事故,建立了两栖车辆海上航行交通系统(QRA)分析模型。通过贝叶斯网络来获取其相对风险的QRA。研究结果显示:使用该方法描述了两栖车辆海上航行的风险分布,并在QRA上显示了与各种特征相关结果,对两栖车辆航行构成相对风险综合分析,高风险区域的规模按降序排列如下:1)航道—引航—国内水道—航行;2)沿海地区—非引航区—国家水道—航行。该评估模型具有较好的应用价值,可为两栖车辆海上安全航行提供借鉴。 相似文献
9.
10.
11.
针对非平衡数据集中类分布信息不对称现象,提出一种新的过采样算法DB_SMOTE(Distance-based Synthetic Minority Over-sampling Technique),通过合成少数类新样本解决样本不足问题。算法基于样本与类中心距离,结合类聚集程度提取种子样本。根据SMOTE(Synthetic Minority Over-sampling Technique)算法思想,在种子样本上实现少数类新样本合成。根据种子样本与少数类中心距离构造新样本分布函数。基于此采样算法并在多个数据集上进行分类实验,结果表明DB_SMOTE算法是可行的。 相似文献
12.
随着信息化时代的到来,信息安全问题变得日益复杂与多样,因此急需一种高性能的解决方法。本文在前人的研究基础上进一步改进贝叶斯网络模型在信息安全风险评估中的应用。首先分析信息系统风险元素种类,提出一种新的确定风险因素的方法,即建立因素之间常见关联关系;然后依据因素关联关系确定信息系统指标体系,并结合经验积累的条件概率,利用Matlab贝叶斯网络工具箱(BNT)构建完整的贝叶斯网络风险评估模型,其中包括对评估流程、方法使用及风险等级确定的分析;最后通过实例分析改进的贝叶斯评估模型,对实验数据推理出风险各等级概率。仿真结果与实际结论相一致,表明改进的贝叶斯评估模型能够准确反映信息系统安全风险等级,是一种有效且合理的评估方法。 相似文献
13.
目前,我国电网企业对于识别停电投诉风险,开展用户停电敏感程度分析的研究工作还处在起步阶段.为了有效地分析停电用户的敏感程度,提出了一种基于改进随机森林算法的停电敏感用户分类算法.首先,对原始数据进行清洗、特征选择等预处理;接着,采用SMOTE算法增加少数敏感用户样本数据量,解决数据分布不均匀问题;然后,以Fisher比作为特征的重要性度量,按比例随机采样选取具有代表性的特征构成子特征空间;最后,利用随机森林算法识别停电敏感用户.通过在真实停电数据上的实验,验证了提出的方法不仅具有较好的准确性和时间性能,而且可以有效处理高维、冗余特征的数据. 相似文献
14.
15.
16.
使用医疗信息系统的数据进行睡眠呼吸暂停低通气综合征(OSAHS)预测和分析过程中,存在不平衡数据问题。为此,在现有临床研究的基础上,提出了一种基于ROSE(Random Over Sampling Examples)和C5.0算法的初筛模型。利用收集到的人体测量学指标数据,通过数据预处理,删除异常值并填补缺失值。然后采用ROSE算法对数据进行平衡,利用C5.0分类器对平衡后的数据构建筛查模型,通过十则交叉验证的方法检验模型的筛查效果。实验结果表明,使用该模型进行打鼾患者的OSAHS筛查,可以有效地提高筛查效率。 相似文献
17.
18.
传统的数据分类算法多是基于平衡的数据集创建,对不平衡数据分类时性能下降,而实践表明组合选择能有效提高算法在不平衡数据集上的分类性能。为此,从组合选择的角度考虑不平衡类学习问题,提出一种新的组合剪枝方法,用于提升组合分类器在不平衡数据上的分类性能。使用Bagging建立分类器库,直接用正类(少数类)实例作为剪枝集,并通过MBM指标和剪枝集,从分类器库中选择一个最优或次优子组合分类器作为目标分类器,用于预测待分类实例。在12个UCI数据集上的实验结果表明,与EasyEnsemble、Bagging和C4.5算法相比,该方法不但能大幅提升组合分类器在正类上的召回率,而且还能提升总体准确率。 相似文献
19.
20.
研究通过对MODIS双星数据组合、线性插值和HANTS平滑方法来提升时序数据集质量,采用随机森林的方法分类,对分类结果精度评定以分析时序数据集构建质量对分类精度的影响.结果表明:双星数据有利于提高时序数据集的时间分辨率,精确刻划覆盖变化,为后续处理提供基础;线性插值可改善像元点的质量,降低云、雨因素影响;HANTS平滑... 相似文献