首页 | 官方网站   微博 | 高级检索  
     

基于信息熵的改进TFIDF特征选择算法
引用本文:周炎涛,唐剑波,王家琴.基于信息熵的改进TFIDF特征选择算法[J].计算机工程与应用,2007,43(35):156-158.
作者姓名:周炎涛  唐剑波  王家琴
作者单位:1.湖南大学 电气与信息工程学院,长沙 410082 2.海军工程大学 信息与电气学院,武汉 430033
摘    要:特征的选择对文本分类的精确性有着非常重要的影响。针对传统的TFIDF没有考虑特征词条在各个类之间的分布的不足,对TFIDF特征选择算法进行了深入的分析,并结合信息熵的概念提出了一种新的TFIDF特征选择算法。实验结果表明,改进后的算法可以有效地提高文本分类的精确度。

关 键 词:词条信息熵  特征选择  TFIDF  数据挖掘  
文章编号:1002-8331(2007)35-0156-03
修稿时间:2007年5月1日

Improved TFIDF feature selection algorithm based on information entropy
ZHOU Yan-tao,TANG Jian-bo,WANG Jia-qin.Improved TFIDF feature selection algorithm based on information entropy[J].Computer Engineering and Applications,2007,43(35):156-158.
Authors:ZHOU Yan-tao  TANG Jian-bo  WANG Jia-qin
Affiliation:1.College of Electrical and Information Engineering,Hunan University,Changsha 410082,China 2.Information and Electrical Engineering College,Naval Engineering University,Wuhan 430033,China
Abstract:The quality of text feature selection affects the accuracy of text categorization greatly. Due to the deficiency of traditional TFIDF without considering the distribution of feature words among classes,the paper analyzed the TFIDF feature selection algorithm,and proposed a new TFIDF feature selection method with concept of information entropy. Experimental results show the method is valid in improving the accuracy of text categorization.
Keywords:words information entropy  feature selection  TFIDF  data mining
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《计算机工程与应用》浏览原始摘要信息
点击此处可从《计算机工程与应用》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号