首页 | 本学科首页   官方微博 | 高级检索  
     

一种优化初始中心点的K平均文本聚类算法
引用本文:赵万磊,王永吉,张学杰,李娟. 一种优化初始中心点的K平均文本聚类算法[J]. 计算机应用, 2005, 25(9): 2037-2040. DOI: 10.3724/SP.J.1087.2005.02037
作者姓名:赵万磊  王永吉  张学杰  李娟
作者单位:云南大学,信息学院,云南,昆明,650091;中国科学院,软件研究所,北京,100080;中国科学院,软件研究所,北京,100080;云南大学,信息学院,云南,昆明,650091
基金项目:国家863计划资助项目(200lAA113180:2002AAll6080)
摘    要:文本聚类在信息过滤,网页分类中有着很好的应用。但它面临数据量大,特征维度高的难点。由于K平均算法易于实现,对数据依赖度底,在文本聚类中得到应用。然而,传统K平均以及它的变种会产生有较大波动的聚类结果。因此对K平均算法进行了改进,通过优化聚类初始中心的选择,得到一种适合对文本数据聚类分析的改进算法。大量实验显示,该算法可以生成质量较高而且聚类质量波动性较小的结果。

关 键 词:优化  文本聚类  K平均
文章编号:1001-9081(2005)09-2037-04
收稿时间:2005-03-14
修稿时间:2005-03-142005-07-04

Variant of K-means algorithm for document clustering: optimization initial centers
ZHAO Wan-lei,WANG Yong-ji,ZHANG Xue-jie,LI Juan. Variant of K-means algorithm for document clustering: optimization initial centers[J]. Journal of Computer Applications, 2005, 25(9): 2037-2040. DOI: 10.3724/SP.J.1087.2005.02037
Authors:ZHAO Wan-lei  WANG Yong-ji  ZHANG Xue-jie  LI Juan
Affiliation:1.Institute of Information,Yunnan University,Kunming 650091,China;2.Institute of Software,Chinese Academy of Sciences,Beijing 100080,China
Abstract:Document clustering had been employed in information filtering, web page classification and so on. K-means is one of the widely used clustering techniques because of its simplicity and high scalability. Owing to its random selection of initial centers, unstable results were often got when using traditional K-means and its variants. Here a technique of optimization initial centers of clustering was proposed. Combined with incremental iteration, it can produce clustering results with high purity, low entropy as well as good stableness.
Keywords:optimize   document clustering   K-means
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《计算机应用》浏览原始摘要信息
点击此处可从《计算机应用》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号