首页 | 本学科首页   官方微博 | 高级检索  
     

组合降维技术在中文网页分类中的应用
引用本文:李新福. 组合降维技术在中文网页分类中的应用[J]. 计算机工程与应用, 2007, 43(24): 169-171
作者姓名:李新福
作者单位:河北大学,数学与计算机学院,河北,保定,071002
基金项目:河北省自然科学基金 , 河北省教育厅科研项目 , 河北大学校科研和教改项目
摘    要:基于向量空间模型的文本分类中特征向量是极度稀疏的高维向量,只有降低向量空间维数才能提高分类效率。在利用统计方法选择文本分类特征降低特征空间维数的基础上,采用隐含语义分析技术,挖掘文档特征间的语义信息,利用矩阵奇异值分解理论进一步降低了特征空间维数。实验结果表明分类结果宏平均F1约提高了5%,验证了该方法的有效性。

关 键 词:网页分类  隐含语义分析  特征选择  KNN
文章编号:1002-8331(2007)24-0169-03
修稿时间:2007-05-01

Web page categorization based on LSA and features selection
LI Xin-fu. Web page categorization based on LSA and features selection[J]. Computer Engineering and Applications, 2007, 43(24): 169-171
Authors:LI Xin-fu
Affiliation:College of Mathematics and Computer,Hebei University,Baoding,Hebei 071002,China
Abstract:The feature vector of Chinese Web page is high dimension and very sparse for text categorization.How to reduce the dimensionality of feature space is a very key problem for practical text classification.In this paper a new method is described.The approach is to take advantage of latent semantic analysis and feature selection that use statistical methods.The K-Nearest Neighbor method is selected as the evaluating classifiers.The experimental result shows that the proposed method for Chinese Web page categorization to be promising.
Keywords:Web Page categorization  latent semantic analysis  feature selection  KNN
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《计算机工程与应用》浏览原始摘要信息
点击此处可从《计算机工程与应用》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号