首页 | 本学科首页   官方微博 | 高级检索  
     

基于聚类特性的大规模文本聚类算法研究
引用本文:唐春生,金以慧.基于聚类特性的大规模文本聚类算法研究[J].计算机科学,2002,29(9):13-15.
作者姓名:唐春生  金以慧
作者单位:清华大学自动化系,北京,100084
摘    要:一、引言随着Internet的飞速发展,人们能从网上得到更多的信息,但过多的信息常常会导致信息迷失。将信息进行分类是帮助信息利用的有效方法,聚类则是文本类别划分时常用的技术,其特点是不需训练集即可从给定的文本集合中找到聚类划分。已有的聚类方法大多是针对小规模数据的,当计算资源和时间受到限制时,原有的大部分方法已不能满足要求,需要能够处理大规模数据的算法。标准k均值方法是比较基本也是很常用的一种聚类方法,其计算复杂度与模式数量成线性关系,这使其具有处理大规模数据的可能。k均值方法本质上是一种选代的方法,当数据不能一次全部读入内存时,则需和磁盘进行多次数据交换,并且这种交换相应于迭代次数要反复多次,这无疑需要花费大量的I/O时间。

关 键 词:信息处理  聚类特性  大规模文本聚类算法  计算机

The Research on a Large-Scale Text Clustering Algorithm based on Clustering Features
Abstract:
Keywords:
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《计算机科学》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号