首页 | 本学科首页   官方微博 | 高级检索  
     

一种基于PCA的组合特征提取文本分类方法
引用本文:李建林.一种基于PCA的组合特征提取文本分类方法[J].计算机应用研究,2013,30(8):2398-2401.
作者姓名:李建林
作者单位:南京信息职业技术学院 计算机与软件学院,南京 210023;里贾纳大学 计算机科学系,加拿大 里贾纳 S4S0A2
基金项目:江苏省2010年度青蓝工程骨干教师资助项目(苏教2010-16)
摘    要:为了获得更好的文本分类准确率和更快的执行效率, 研究了多种Web文本的特征提取方法, 通过对互信息(MI)、文档频率(DF)、信息增益(IG)和χ2统计(CHI)算法的研究, 利用其各自的优势互补, 提出一种基于主成分分析(PCA)的多重组合特征提取算法(PCA-CFEA)。通过PCA算法的正交变换快速地将文本特征空间降维, 再通过多重组合特征提取算法在降维后的特征空间中快速提取出更具代表性的特征项, 过滤掉一些代表性较弱的特征项, 最后使用SVM分类器对文本进行分类。实验结果表明, PCA-CFEA能有效地提高文本分类的正确率和执行效率。

关 键 词:基于PCA的组合特征提取算法(PCA-CFEA)  主成分分析  特征提取  文本分类

Combination of feature extraction in text classification algorithm based on PCA
LI Jian-lin.Combination of feature extraction in text classification algorithm based on PCA[J].Application Research of Computers,2013,30(8):2398-2401.
Authors:LI Jian-lin
Affiliation:1. School of Computer & Software, Nanjing College of Information Technology, Nanjing 210023, China; 2. Dept. of Computer Science, University of Regina, Regina S4S0A2, Canada
Abstract:In order to obtain a better text classification accuracy and faster execution efficiency, this paper studied a variety of Web text feature extraction method, based on the MI, DF, IG and CHI algorithm, through using of their complementary advantages, proposed a combinations of feature extraction algorithm based on PCA-CFEA. First, it used the orthogonal transformation of the PCA algorithm to faster dimensionality reduction of the text feature space. Then through the multiple combination feature extraction algorithm in the lower dimension of feature space fast extract more representative of the feature, it filtered out some representative weak feature items. Finally, it used the SVM classifier to classify the text. The experimental results show that PCA-CFEA algorithm can effectively improve text classification accuracy and running efficiency.
Keywords:combined feature extraction algorithm based on PCA(PCA-CFEA)  principal component analysis(PCA)  feature extraction  text classification
本文献已被 万方数据 等数据库收录!
点击此处可从《计算机应用研究》浏览原始摘要信息
点击此处可从《计算机应用研究》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号