首页 | 本学科首页   官方微博 | 高级检索  
     

改进的χ~2统计文本特征选择方法
引用本文:肖婷,唐雁.改进的χ~2统计文本特征选择方法[J].计算机工程与应用,2009,45(14):136-137.
作者姓名:肖婷  唐雁
作者单位:西南大学,计算机与信息科学学院,重庆,400715
摘    要:特征选择是当今研究领域的一个热点,尤其是文本分类领域中的热点。针对χ2统计方法的两个缺陷:降低了低频词的权重和提高了很少在指定类中出现但普遍存在于其他类的特征在该类中的权重,对χ2统计方法进行改进,并通过做模拟和对比实验,对比改进前后的方法对文本分类的影响。在模拟和对比实验中,改进后方法的分类效果要好于传统的方法。

关 键 词:文本分类  特征选择  χ2统计
收稿时间:2008-11-20
修稿时间:2009-2-13  

Improved X2 statistics method for text feature selection
XIAO Ting,TANG Yan.Improved X2 statistics method for text feature selection[J].Computer Engineering and Applications,2009,45(14):136-137.
Authors:XIAO Ting  TANG Yan
Affiliation:XIAO Ting,TANG Yan School of Computer & Information Science,Southwest University,Chongqing 400715,China
Abstract:Feature selection is a hot topic in current search field,especially in the field of text categorization.In this paper,χ2 statistical method has two defects.One is reducing the weight of the low-frequency words.The other is increasing the weight of the characteristics in the designated class.The characteristics little appear in designated class but other classes.Through simulation and comparison experiment,the result is better than before.
Keywords:text categorization  feature selection  χ2 statistics
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《计算机工程与应用》浏览原始摘要信息
点击此处可从《计算机工程与应用》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号