首页 | 本学科首页   官方微博 | 高级检索  
     

基于改进LSA的文档聚类算法
引用本文:俞辉.基于改进LSA的文档聚类算法[J].小型微型计算机系统,2009,30(5).
作者姓名:俞辉
作者单位:中国石油大学,计算机与通信工程学院,山东,东营,257061
摘    要:提出一种基于改进潜在语义分析MLSA(Modified Latent Semantic Analysis)的文档聚类算法.采用新的特征提取方法构建词-文档矩阵,利用潜在语义分析对词-文档矩阵进行奇异值分解以达到垃圾信息过滤的目的,同时使得向量空间模型中文本的高维表示变成在潜在语义空间中的低维表示,缩小了问题的规模.然后将共现数据对转换成概率统计模型来计算,提高了聚类质量.实验表明,本文提出的方法是有效的.

关 键 词:文档聚类  潜在语义分析  奇异值分解

Document Clustering Algorithm Based on Modified Latent Semantic Analysis
YU Hui.Document Clustering Algorithm Based on Modified Latent Semantic Analysis[J].Mini-micro Systems,2009,30(5).
Authors:YU Hui
Abstract:
Keywords:
本文献已被 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号