基于集成混合采样的软件缺陷预测研究 |
| |
作者姓名: | 戴翔 毛宇光 |
| |
作者单位: | 1. 南京航空航天大学计算机科学与技术学院,江苏南京,210016 2. 南京航空航天大学计算机科学与技术学院,江苏南京210016;南京大学计算机软件新技术国家重点实验室,江苏南京210093 |
| |
基金项目: | 国家自然科学基金资助项目(41301407) |
| |
摘 要: | 对软件缺陷预测的不平衡问题进行了研究,提出了一种处理不平衡数据的采样方法,用来解决分类器因为样本集中的样本类别不平衡而造成分类器性能下降的问题。为了避免随机采样的盲目性,利用启发性的混合采样方法来平衡数据,针对少数类采用SMOTE过采样,对多数类采用K-Means聚类降采样,然后综合利用多个单分类器来进行投票集成预测分类。实验结果表明,混合采样与集成学习相结合的软件缺陷预测方法具有较好的分类效果,在获得较高的查全率的同时还能显著降低误报率。
|
关 键 词: | 不平衡数据 SMOTE K-Means 投票 集成学习 |
收稿时间: | 2014-04-10 |
修稿时间: | 2014-05-26 |
本文献已被 万方数据 等数据库收录! |
| 点击此处可从《计算机工程与科学》浏览原始摘要信息 |
|
点击此处可从《计算机工程与科学》下载全文 |
|