基于弱相关化特征子空间选择的离散化随机森林并行分类算法 |
| |
作者姓名: | 陈旻骋 袁景凌 王啸岩 朱赛 |
| |
作者单位: | 武汉理工大学计算机科学与技术学院 武汉430070,武汉理工大学计算机科学与技术学院 武汉430070,武汉理工大学计算机科学与技术学院 武汉430070,武汉理工大学计算机科学与技术学院 武汉430070 |
| |
基金项目: | 本文受国家自然科学基金(61303029),湖北省自然科学基金(2014CFB836),教育部留学回国人员科研启动基金([2012]1707)资助 |
| |
摘 要: | 随着大数据时代的到来,数据信息呈几何倍数增长。传统的分类算法将面临着极大的挑战。为了提高分类算法的效率,提出了一种基于弱相关化特征子空间选择的离散化随机森林并行分类算法。该算法在数据预处理阶段对数据集中的连续属性进行离散化。在随机森林抽取特征子空间阶段,利用属性向量空间模型计算属性间的相关性,构造弱相关化特征子空间,使所构建的决策树之间相关性降低,从而提高随机森林的分类效果;并通过研究随机森林的并行化策略,结合MapReduce框架,改进并实现了随机森林模型构建过程的双重并行化,进一步改善了算法的计算效率。
|
关 键 词: | 随机森林 离散化 弱相关化特征子空间 并行分类 |
收稿时间: | 2015-07-13 |
修稿时间: | 2015-09-01 |
|
|