首页 | 本学科首页   官方微博 | 高级检索  
     

新的CDF文本分类特征提取方法
引用本文:熊忠阳,蒋健,张玉芳. 新的CDF文本分类特征提取方法[J]. 计算机应用, 2009, 29(7)
作者姓名:熊忠阳  蒋健  张玉芳
作者单位:重庆大学计算机学院,重庆,400044
基金项目:中国博士后科学基金资助项目,重庆市科委自然科学基金计划资助项目 
摘    要:对高维的特征集进行降维是文本分类过程中的一个重要环节.在研究了现有的特征降维技术的基础上.对部分常用的特征提取方法做了简要的分析,之后结合类间集中度、类内分散度和类内平均频度,提出了一个新的特征提取方法,即CDF方法.实验采用K-最近邻分类算法(KNN)来考查CDF方法的有效性.结果表明该方法简单有效,能够取得比传统特征提取方法更优的降维效果.

关 键 词:文本分类  降维  特征提取  K-最近邻分类算法  评价函数

New feature selection approach(CDF) for text categorization
XIONG Zhong-yang,JIANG Jian,ZHANG Yu-fang. New feature selection approach(CDF) for text categorization[J]. Journal of Computer Applications, 2009, 29(7)
Authors:XIONG Zhong-yang  JIANG Jian  ZHANG Yu-fang
Affiliation:College of Computer;Chongqing University;Chongqing 400044;China
Abstract:Reducing the high dimension of feature vectors is an essential part of text categorization.After studying current dimension reduction technique and analyzing some normal methods of feature selection,a new approach,named CDF,for feature selection was proposed by comprehensively taking account of concentration among classes,distribution in class and average frequency in class.Experiment takes K-Nearest Neighbor(KNN) as the evaluation classifier.Experimental results prove that CDF approach is simple and effect...
Keywords:
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号