首页 | 本学科首页   官方微博 | 高级检索  
     

文本聚类算法的设计与实现
引用本文:石晓敬,韩燮.文本聚类算法的设计与实现[J].计算机工程与设计,2010,31(9).
作者姓名:石晓敬  韩燮
作者单位:中北大学,电子与计算机科学技术学院,山西,太原,030051
摘    要:为了有效地提高丈本聚类的质量和效率,在对已有的层次聚类和K-means算法分析和研究的基础上,针对互联网信息处理量大、实时性高的特点,设计并实现了一种用于高维稀疏相似矩阵的文本聚类算法.该算法结合了层次聚类和K-means聚类的思想,根据一个阈值来控制聚类算法的选取和新簇的建立,并通过文本特征提取和文档相似度矩阵计算实现文本聚类.实验结果表明,该算法的召回率和正确率更高.

关 键 词:中文文本  文本分类  聚类算法  层次聚类

Research and implementation of text clustering algorithm
SHI Xiao-jing,HAN Xie.Research and implementation of text clustering algorithm[J].Computer Engineering and Design,2010,31(9).
Authors:SHI Xiao-jing  HAN Xie
Affiliation:SHI Xiao-jing,HAN Xie (College of Electronics , Computer Science , Technology,North University of China,Taiyuan 030051,China)
Abstract:To improve the quality and efficiency of text clustering effectively, based on the analysis and research of the hierarchical clustering and k-means algorithms, a kind of text clustering algorithm for a higher-dimensional sparse matrix is designed and implemented for the characteristic of large quantity of internet information and high real-time. The algorithm combines the ideas of the hierarchical clustering and K-means clustering, which controls the selection of clustering algorithm and the establishment o...
Keywords:K-means  Chinese texts  text classification  clustering algorithm  hierarchical clustering  K-means
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号