首页 | 本学科首页   官方微博 | 高级检索  
     

基于模糊C均值和改进的LSA的文档聚类研究
引用本文:胡永丽,龚沛曾.基于模糊C均值和改进的LSA的文档聚类研究[J].计算机技术与发展,2010,20(12).
作者姓名:胡永丽  龚沛曾
作者单位:同济大学,电子与信息工程学院,计算机科学与技术系,上海,201804
摘    要:文中研究的是文档聚类的方法,即将给定文档集合中的文档进行分类,以达到准确聚类的目的.提出了一种将模糊C均值(FCM)和改进的LSA(Latent Semantic Analysis)相结合进行文档聚类的方法.采用改进的词语特征提取方法构建词-文档矩阵,对该词-文档矩阵进行奇异值分解,从传统的VSM向量空间中提取文本的潜在语义空间,进而将高维的文档向量映射为低维空间的语义向量,文档之间相似度的计算采用文档语义向量的余弦表示.然后采用模糊C均值根据上述计算文档相似度的结果对文档进行聚类.针对校园论坛中的文档数据进行聚类,该方法降低了处理的复杂度同时提高了相似度计算的准确性.实验结果表明该方法对目标文档的聚类有较好的效果,聚类准确性较高.

关 键 词:模糊C均值  LSA  文档聚类

Document Clustering Research Based on Fuzzy C-Means and Improved Latent Semantic Analysis
HU Yong-li,GONG Pei-zeng.Document Clustering Research Based on Fuzzy C-Means and Improved Latent Semantic Analysis[J].Computer Technology and Development,2010,20(12).
Authors:HU Yong-li  GONG Pei-zeng
Abstract:
Keywords:
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号