基于聚类特性的大规模文本聚类算法研究 |
| |
引用本文: | 唐春生 金以慧. 基于聚类特性的大规模文本聚类算法研究[J]. 计算机科学, 2002, 29(9): 13-15 |
| |
作者姓名: | 唐春生 金以慧 |
| |
作者单位: | 清华大学自动化系,北京,100084 |
| |
摘 要: | 一、引言随着Internet的飞速发展,人们能从网上得到更多的信息,但过多的信息常常会导致信息迷失。将信息进行分类是帮助信息利用的有效方法,聚类则是文本类别划分时常用的技术,其特点是不需训练集即可从给定的文本集合中找到聚类划分。已有的聚类方法大多是针对小规模数据的,当计算资源和时间受到限制时,原有的大部分方法已不能满足要求,需要能够处理大规模数据的算法。标准k均值方法是比较基本也是很常用的一种聚类方法,其计算复杂度与模式数量成线性关系,这使其具有处理大规模数据的可能。k均值方法本质上是一种选代的方法,当数据不能一次全部读入内存时,则需和磁盘进行多次数据交换,并且这种交换相应于迭代次数要反复多次,这无疑需要花费大量的I/O时间。
|
关 键 词: | 信息处理 聚类特性 大规模文本聚类算法 计算机 |
The Research on a Large-Scale Text Clustering Algorithm based on Clustering Features |
| |
Abstract: | |
| |
Keywords: | |
本文献已被 CNKI 维普 万方数据 等数据库收录! |
|
点击此处可从《计算机科学》下载全文 |
|