首页 | 本学科首页   官方微博 | 高级检索  
     

基于DF与LSA相结合的降维法的文本分类系统的研究
引用本文:张元虹,郭剑毅,龚华明,薛征山.基于DF与LSA相结合的降维法的文本分类系统的研究[J].山西电子技术,2008(4).
作者姓名:张元虹  郭剑毅  龚华明  薛征山
作者单位:昆明理工大学信息与自动化学院,云南昆明650051
基金项目:国家自然科学资金项目(60663004)资助
摘    要:介绍了中文文本分类系统的原理,在特征提取上采用了文档频率法(DF)与潜在语义分析法(K认)相结合的方法,先采用DF法过滤掉DF值低的词条,降低文本矩阵的稀疏性,然后使用LSA法进行词语间的语义分析,消除同义词和多义词的影响,提高文本分类的速度与精确度。实验结果表明使用此种降维方法取得了良好的效果。

关 键 词:文本分类  潜在语义分析  文档频率法  支持向量机

Study on Text Classification Based on DF and LSA
Zhang Yuan-hong Guo Jian-yi Gong Hua-ming Xue Zheng-shan.Study on Text Classification Based on DF and LSA[J].Shanxi Electronic Technology,2008(4).
Authors:Zhang Yuan-hong Guo Jian-yi Gong Hua-ming Xue Zheng-shan
Affiliation:Zhang Yuan-hong Guo Jian-yi Gong Hua-ming Xue Zheng-shan (Faculty of Information Engineering , Automation,KunMing University of Science , Technology,Kunming Yunnan 650051,China)
Abstract:This paper introduces the principle of Chinese text classification systems.The combined method of document frequency(DF) and latent semantic analysis(LSA) is used in the feature extraction.Firstly,the DF method is used to filter out low-value terms and to reduce the sparse matrix of text,then the LSA method is used to analyze semanteme among the words and to eliminate the influence of synonyms and polysemous words,the combined method raises the speed and accuracy of text classification.The experimental resu...
Keywords:text classification  latent semantic analysis  document frequency  SVM  
本文献已被 CNKI 维普 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号