首页 | 本学科首页   官方微博 | 高级检索  
     

文本分类中基于CHI改进的特征选择方法
作者单位:;1.江南大学数字媒体学院
摘    要:针对传统卡方统计量(CHI)方法在全局范围内进行特征选择时忽略词频信息问题,提出了一种改进的文本特征选择方法。通过引入特征分布相关性系数,选择局部出现的强相关性特征,并利用修正因子解决CHI方法的负相关困扰,从而提升语料集的分类指标。对网易新闻语料库和复旦大学中文语料库进行实验时,利用以上方法进行特征选择,使用改进后的词频—逆文本频率(TF-IDF)权重计算公式加权,分类器选择支持向量机(SVM)和朴素贝叶斯法。结果表明:改进的方法不仅在分类效果上有明显的提高,而且性能更加稳定。

关 键 词:特征选择  卡方统计量  文本分类  词频—逆文本频率

Improved feature selection method based on CHI for text categorization
Abstract:
Keywords:
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号