首页 | 本学科首页   官方微博 | 高级检索  
     

基于词频差异的特征选取及改进的TF-IDF公式
引用本文:罗欣,夏德麟,晏蒲柳.基于词频差异的特征选取及改进的TF-IDF公式[J].计算机应用,2005,25(9):2031-2033.
作者姓名:罗欣  夏德麟  晏蒲柳
作者单位:武汉大学电子信息学院
摘    要:文档向量化的质量对于文本分类的速度和准确度有着很大的影响。对文档向量化中常用的TF-IDF公式,互信息量公式以及信息增益公式进行了分析。提出一种基于词频差异的特征选取方法和改进的TF-IDF公式,以提高特征选取质量和文本分类的速度及准确度。

关 键 词:特征选取  向量空间模型  文本分类  TF-IDF  信息增益  互信息量
文章编号:1001-9081(2005)09-2031-03
收稿时间:2005-03-21
修稿时间:2005-03-21

Improved feature selection method and TF-IDF formula based on word frequency differentia
LUO Xin,XIA De-lin,Yan Pu-liu.Improved feature selection method and TF-IDF formula based on word frequency differentia[J].journal of Computer Applications,2005,25(9):2031-2033.
Authors:LUO Xin  XIA De-lin  Yan Pu-liu
Affiliation:School of Electronics & Information,Wuhan University,Hubei Wuhan 430079,China
Abstract:The vectorization of documents affects the speed and accuracy of text categorization greatly.The most common used formulas: TF-IDF,MI,and IG were analyzed.The method of feature selection based on word frequency differentia was proposed and TF-IDF formula was modified to improve the quality of feature selection,the speed and accuracy of categorization.
Keywords:feature selection  VSM  text categorization  TF-IDF  IG  MI
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《计算机应用》浏览原始摘要信息
点击此处可从《计算机应用》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号