首页
|
本学科首页
官方微博
|
高级检索
全部学科
医药、卫生
生物科学
工业技术
交通运输
航空、航天
环境科学、安全科学
自然科学总论
数理科学和化学
天文学、地球科学
农业科学
哲学、宗教
社会科学总论
政治、法律
军事
经济
历史、地理
语言、文字
文学
艺术
文化、科学、教育、体育
马列毛邓
全部专业
中文标题
英文标题
中文关键词
英文关键词
中文摘要
英文摘要
作者中文名
作者英文名
单位中文名
单位英文名
基金中文名
基金英文名
杂志中文名
杂志英文名
栏目中文名
栏目英文名
DOI
责任编辑
分类号
杂志ISSN号
文本分类中基于CHI改进的特征选择方法
作者单位:
;1.江南大学数字媒体学院
摘 要:
针对传统卡方统计量(CHI)方法在全局范围内进行特征选择时忽略词频信息问题,提出了一种改进的文本特征选择方法。通过引入特征分布相关性系数,选择局部出现的强相关性特征,并利用修正因子解决CHI方法的负相关困扰,从而提升语料集的分类指标。对网易新闻语料库和复旦大学中文语料库进行实验时,利用以上方法进行特征选择,使用改进后的词频—逆文本频率(TF-IDF)权重计算公式加权,分类器选择支持向量机(SVM)和朴素贝叶斯法。结果表明:改进的方法不仅在分类效果上有明显的提高,而且性能更加稳定。
关 键 词:
特征选择
卡方统计量
文本分类
词频—逆文本频率
Improved feature selection method based on CHI for text categorization
Abstract:
Keywords:
设为首页
|
免责声明
|
关于勤云
|
加入收藏
Copyright
©
北京勤云科技发展有限公司
京ICP备09084417号