基于决策树生成及剪枝的数据集优化及其应用 |
| |
引用本文: | 李国和,王峰,郑阳,吴卫江,洪云峰,周晓明. 基于决策树生成及剪枝的数据集优化及其应用[J]. 计算机工程与设计, 2018, 0(1): 205-211 |
| |
作者姓名: | 李国和 王峰 郑阳 吴卫江 洪云峰 周晓明 |
| |
作者单位: | 中国石油大学(北京)地球物理与信息工程学院;中国石油大学(北京)油气数据挖掘北京市重点实验室;北京兆信信息技术股份有限公司石大兆信数字身份管理与物联网技术研究院 |
| |
基金项目: | 国家863高技术研究发展计划基金项目(2009AA062802);国家自然科学基金项目(60473125);中国石油(CNPC)石油科技中青年创新基金项目(05E7013);国家重大专项子课题基金项目(G5800-08-ZS-WX);中国石油大学(北京)克拉玛依校区科研启动基金项目(RCYJ2016B-03-001) |
| |
摘 要: | 为提高智能模型的识别精度,增强其泛化能力,需要对用于智能建模的数据集中的对象类别异常进行检测和修正。在进行数据集和决策树形式化描述的基础上,将基尼指数增益率作为确定连续条件属性最优二分原则,采用递归算法生成叶节点中对象为同一类别的二叉决策树。利用信息熵评价决策树剪除叶节点中对象的类别分布效果,实现数据集类别异常的类别修正。决策树的生成和剪枝本质上是完成基于基尼指数和信息熵的连续条件属性数据空间分割和合并类别修正。实验和实际应用验证了决策树生成和剪枝是数据集类别优化的有效方法。
|
关 键 词: | 信息熵 基尼指数 决策树 剪枝 数据优化 |
Optimization of data set and its application based on construction and pruning of decision tree |
| |
Abstract: | |
| |
Keywords: | information entropy Gini index decision tree tree pruning data optimization |
本文献已被 维普 等数据库收录! |
|