首页 | 本学科首页   官方微博 | 高级检索  
     

属性频率划分和信息熵离散化的决策树算法
引用本文:李春贵,王萌,孙自广,王晓荣,张增芳.属性频率划分和信息熵离散化的决策树算法[J].计算机工程与应用,2009,45(12):153-156.
作者姓名:李春贵  王萌  孙自广  王晓荣  张增芳
作者单位:广西工学院 计算机工程系,广西 柳州 545006
基金项目:广西自治区自然科学基金,广西省教育厅科研基金 
摘    要:决策树是数据挖掘任务中分类的常用方法。在构造决策树的过程中,节点划分属性选择的度量直接影响决策树分类的效果。基于粗糙集的属性频率函数方法度量属性重要性,并用于分枝划分属性的选择和决策树的预剪枝,提出一种决策树学习算法。同时,为了能处理数值型属性,利用数据集的统计性质为启发式知识,提出了一种改进的数值型属性信息熵离散化算法。实验结果表明,新的离散化方法计算效率有明显提高,新的决策树算法与基于信息熵的决策树算法相比较,结构简单,且能有效提高分类效果。

关 键 词:决策树  粗糙集  属性频率  信息熵  离散化
收稿时间:2008-3-27
修稿时间:2008-6-19  

Decision tree algorithm using attribute frequency splitting and information entropy discretization
LI Chun-gui,WANG Meng,SUN Zi-guang,WANG Xiao-rong,ZHANG Zeng-fang.Decision tree algorithm using attribute frequency splitting and information entropy discretization[J].Computer Engineering and Applications,2009,45(12):153-156.
Authors:LI Chun-gui  WANG Meng  SUN Zi-guang  WANG Xiao-rong  ZHANG Zeng-fang
Affiliation:Department of Computer Engineering,Guangxi University of Technology,Liuzhou,Guangxi 545006,China
Abstract:Decision tree is a usual method of classification in data mining.In the process of constructing a decision tree,the criteria of selecting partition attributes will influence the efficiency of classification.Based on the concept of attributes importance metric that is measured by a function of attribute frequency in Rough Set theory,and which is used to select the partition at-tribute and pre-prune the decision tree,a new decision tree algorithm is proposed.In addition,using the heuristics information of dat...
Keywords:decision tree  rough set  attribute frequency  information entropy  discretization
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《计算机工程与应用》浏览原始摘要信息
点击此处可从《计算机工程与应用》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号