首页 | 本学科首页   官方微博 | 高级检索  
     

TCBLSA:一种中文文本聚类新方法
引用本文:王国勇,徐建锁. TCBLSA:一种中文文本聚类新方法[J]. 计算机工程, 2004, 30(5): 21-22,37
作者姓名:王国勇  徐建锁
作者单位:天津大学系统工程研究所,天津,300072;天津大学系统工程研究所,天津,300072
基金项目:国家自然科学基金资助项目(60275020)
摘    要:
根据隐含语义分析(LSA)理论,提出了一种文本聚类的新方法。该方法应用LSA理论来构建文本集的向量空间模型,在词条的权重中引入了语义关系,消减了原词条矩阵中包含的“噪声”因素,从而更加突出了词和文本之间的语义关系。通过奇异值分解(SVD),有效地降低了向量空间的维数,从而提高了文本聚类的精度和速度。

关 键 词:文本聚类  隐含语义分析  奇异值分解  向量空间模型
文章编号:1000-3428(2004)05-0021-02

TCBLSA:A New Method of Chinese Text Clustering
WANG Guoyong,XU Jiansuo. TCBLSA:A New Method of Chinese Text Clustering[J]. Computer Engineering, 2004, 30(5): 21-22,37
Authors:WANG Guoyong  XU Jiansuo
Abstract:
This paper presents a new method of text clustering by latent semantic analysis. This method establishes vector space model of term weight by the theory of latent semantic analysis, and eliminates disadvantageous factors. This method decreases the number of vector, and advances the speed and precision of text clustering.
Keywords:Text clustering  Latent semantic analysis  Singular value decomposition  Vector space model
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号