首页 | 本学科首页   官方微博 | 高级检索  
     

基于类别相关性和优化的ID3特征选择
引用本文:史岳鹏,朱颢东.基于类别相关性和优化的ID3特征选择[J].数据采集与处理,2011,26(2).
作者姓名:史岳鹏  朱颢东
作者单位:1. 郑州牧业工程高等专科学校信息工程系,郑州,450011
2. 郑州轻工业学院计算机与通信工程学院,郑州,450002
基金项目:河南省基础与前沿技术研究计划(102300410266)资助项目
摘    要:简单分析了词频方法和文档频方法,在总结其不足的基础上,提出了一个类别相关性方法,随后分析了ID 3中信息增益的缺点并引进属性依赖度来加以改进,并进一步根据其中信息增益的计算特点,利用凸函数的性质来进行简化,减少了信息增益的计算量,提高了信息增益的计算效率;最后将此优化的ID 3同类别相关性方法结合起来,提出了一个综合的特征选择方法。该综合方法首先使用类别相关性方法进行特征初选以降低文本向量的稀疏性,然后再使用优化的ID 3来进一步选择特征,从而获得较具代表性的特征子集。实验结果表明该方法性能良好。

关 键 词:文本分类  信息增益  属性依赖度  

Feature Selection Based on Category Correlation and Improved ID3
Shi Yuepeng,Zhu Haodong.Feature Selection Based on Category Correlation and Improved ID3[J].Journal of Data Acquisition & Processing,2011,26(2).
Authors:Shi Yuepeng  Zhu Haodong
Affiliation:Shi Yuepeng1,Zhu Haodong2(1.Department of Information Engineering,Zhengzhou College of Animal Husbandry Engineering,Zhengzhou,450011,China,2.School of Computer and Communication Engineering,Zhengzhou University of Light Industry,450002,China)
Abstract:Word frequency and document frequency are analyzed,and their deficiencies are summarized.The category correlation method is presented.Subsequently,it analyzes the shortcomings of information gain in ID3 and introduces attribute dependence to improve information gain.According to the characteristic of information gain,it simplifies information gain to reduce computing complexity by convex function.Finally,it combines the improved ID3 with the category correlation method and proposes a comprehensive feature s...
Keywords:text categorization  information gain  attribute dependence  
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号