首页 | 官方网站   微博 | 高级检索  
     

基于样本分布与熵的数值型属性离散化
引用本文:林永民,吕震宇,赵爽,朱卫东.基于样本分布与熵的数值型属性离散化[J].计算机工程与应用,2008,44(1):159-161.
作者姓名:林永民  吕震宇  赵爽  朱卫东
作者单位:1. 河北理工大学,经济管理学院,河北,唐山,063009
2. 北京交通大学,计算机与信息技术学院,北京,100044
基金项目:国家自然科学基金 , 河北省唐山市重点实验室基金
摘    要:连续属性的离散化是数据预处理的重要工作。论文分析了基于熵的离散化方法的不足,从估计训练样本的概率分布的角度出发,提出基于样本分布与熵相结合的处理数值型属性的方法。基于UCI数据的实验结果表明,该方法不仅具有比较好的判决精度,而且具有更快的计算速度。

关 键 词:数值型属性    样本分布  离散化
文章编号:1002-8331(2008)01-0159-03
收稿时间:2007-09
修稿时间:2007年9月1日

Discretization of numeric attribute based on example distribution and entropy
LIN Yong-min,LU Zhen-yu,ZHAO Shuang,ZHU Wei-dong.Discretization of numeric attribute based on example distribution and entropy[J].Computer Engineering and Applications,2008,44(1):159-161.
Authors:LIN Yong-min  LU Zhen-yu  ZHAO Shuang  ZHU Wei-dong
Affiliation:1.College of Economics and Management,Hebei Polytechnic University,Tangshan,Hebei 063009,China 2.School of Computer and Information Technology,Beijing Jiaotong University,Beijing 100044,China
Abstract:Discretization of numeric attribute is an important role of data preprocessing.A heavy analysis about discretization method based on entropy is given.By the method of estimating the probability distribution of training examples,a new and simple method of dealing with numeric attribute based on example distribution and entropy is turned out.Experimental results of UCI data sets show that the proposed method has good performance on accuracy issue and the computational speed is heightened greatly.
Keywords:numeric attribute  entropy  distribution of training examples  discretization
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《计算机工程与应用》浏览原始摘要信息
点击此处可从《计算机工程与应用》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号