首页 | 本学科首页   官方微博 | 高级检索  
     

基于向量空间模型的文本聚类算法
引用本文:姚清耘,刘功申,李翔.基于向量空间模型的文本聚类算法[J].计算机工程,2008,34(18):39-41.
作者姓名:姚清耘  刘功申  李翔
作者单位:上海交通大学信息安全工程学院,上海,200240
基金项目:国家自然科学基金,教育部跨世纪优秀人才培养计划
摘    要:文本聚类是聚类的一个重要研究分支,是聚类方法在文本处理领域的应用。该文探讨了基于向量空间模型的文本聚类方法,提出了一种文本聚类的改进算法——LP算法。同时,基于语料库的实际聚类效果,就维度确定、特征选择等方面提出优化方案。实验证明,LP算法有效地减少了聚类所消耗的时间,实用性和灵活性都较高。

关 键 词:向量空间模型  文本聚类  语料库
修稿时间: 

VSM-based Text Clustering Algorithm
YAO Qing-yun,LIU Gong-shen,LI Xiang.VSM-based Text Clustering Algorithm[J].Computer Engineering,2008,34(18):39-41.
Authors:YAO Qing-yun  LIU Gong-shen  LI Xiang
Affiliation:(School of Information Security Engineering, Shanghai Jiaotong University, Shanghai 200240)
Abstract:Text clustering, one of the most important research braches of clustering, is the application of clustering algorithm in text processing. This paper discusses different Vector Space Model(VSM)-based clustering algorithms and presents an improved text clustering algorithm——Level-Panel(LP) algorithm. In addition, according to the effects of clustering for the corpus, it presents optimizations of clustering algorithm, including dimension determining, feature selection, etc. It is proved that LP algorithm can effectively reduce the time spending in clustering process. It is high in practicability and flexibility.
Keywords:Vector Space Model(VSM)  text clustering  corpus
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《计算机工程》浏览原始摘要信息
点击此处可从《计算机工程》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号