首页 | 本学科首页   官方微博 | 高级检索  
     

基于冗余性分析的改进ReliefF特征选择算法
作者姓名:李丽君  张海清  李代伟  向筱铭  于曦
作者单位:1.成都信息工程大学软件工程学院610225;2.四川省气象探测数据中心610072;3.成都大学斯特灵学院610106;4.四川省信息化应用支撑软件工程技术研究中心610255;
基金项目:欧盟项目(598649-EPP-1-2018-1-FR-EPPKA2-CBHE-JP);国家自然科学基金项目(61602064);四川省科技厅项目(2021YFH0107,2022YFS0544,2022NSFSC0571);成都信息工程大学科技创新能力提升计划项目,面向大规模医疗数据的疾病风险评估预测优化研究(KYQN202223)。
摘    要:为了解决ReliefF算法随机抽样会抽取到不具代表性的样本且未考虑特征间相关性的问题,提出基于冗余性分析的ReliefF特征选择算法。首先改进ReliefF的抽样策略,其次将特征权重序列划分为几个子集,分别利用最大信息系数及Pearson系数共同衡量特征相关性,设置相应采样比例剔除冗余特征。将改进算法与其他特征选择算法进行对比,结果表明相较于传统ReliefF,在LightGBM(Light Gradient Boosting Machine,轻量级梯度提升机器学习)上的分类准确率可提升0.63%~12.10%,在SVM(Support Vector Machine,支持向量机)上的分类准确率可提升0.92%~9.06%,改进算法的分类准确率明显优于其他几种特征选择算法,在考虑特征与标签相关性的同时,能有效剔除冗余信息。

关 键 词:特征选择  ReliefF算法  最大信息系数  冗余性分析
本文献已被 维普 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号