首页 | 本学科首页   官方微博 | 高级检索  
     

基于Spark框架的用于金融信贷风险控制的加权随机森林算法
作者姓名:胡婵娟  于莲芝  薛震
作者单位:上海理工大学光电信息与计算机工程学院
基金项目:国家自然科学基金项目(61603257)资助.
摘    要:为解决互联网时代线上贷款业务量庞大带来的困扰,优化快速迭代的数据模型,从线上贷款业务的特点出发,以Spark分布式计算引擎为核心设计并实现了能够并行处理非平衡数据的加权随机森林算法.该算法从特征切分点抽样统计、特征分箱、逐层训练三个角度对加权随机森林算法进行并行化优化.该算法有效提高了随机森林算法的分类准确率,同时有效降低了决策过程中出现的平局现象.对非平衡数据,该文章通过SMOTE算法对数据进行重构,较好的保留了原有数据集信息.实验表明,该算法能够有效提高放贷效率性与及时性,极大的提高了生产力.

关 键 词:大数据  Spark  并行化  随机森林  风险控制  
本文献已被 维普 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号