首页 | 本学科首页   官方微博 | 高级检索  
     

基于多特征选择的中文文本分类
引用本文:董梅,胡学钢.基于多特征选择的中文文本分类[J].微机发展,2007,17(7):117-119.
作者姓名:董梅  胡学钢
作者单位:合肥工业大学计算机与信息学院 安徽合肥230009
基金项目:安徽省自然科学基金资助项目(050420207)
摘    要:自动文本分类就是在给定的分类体系下,让计算机根据文本的内容确定与它相关联的类别。特征选择作为文本分类中的关键,困难之一是特征空间的高维性,因此寻求一种有效的特征选择方法,降低特征空间的维数,成为文本分类中的重要问题。在分析已有的文本分类特征选择方法的基础上,实现了一种组合不同特征选择方法的多特征选择方法,应用于KNN文本分类算法,实验表明,多特征选择方法分类效果比单一的特征选择方法分类效果有明显的提高。

关 键 词:文本分类  特征选择  多特征选择
文章编号:1673-629X(2007)07-0117-03
修稿时间:2006年9月11日

Text Categorization Based on Multiple Features Selection
DONG Mei,HU Xue-gang.Text Categorization Based on Multiple Features Selection[J].Microcomputer Development,2007,17(7):117-119.
Authors:DONG Mei  HU Xue-gang
Abstract:Automatic text categorization is the assigning of pre-defined category to a new text based on its content.Feature selection is the key of text categorization.Feature space's hight dimension is one of diffculties of it.So to find an effective feature selection method and to reduce feature space's dimension has become the important problem of text categorization.Based on analyzing most known text categorization's feature selection methods and a new multiple feature selection method that combined different feature selection methods was given.Experiments were done using KNN algorithm.The results show that the new multiple features selection method had better efficiency than single feature selection method.
Keywords:text categorization  feature selection  multiple features selection
本文献已被 CNKI 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号