优化初始值的K均值中文文本聚类 |
| |
引用本文: | 焦慧,刘迁,王玉英,贾惠波.优化初始值的K均值中文文本聚类[J].微计算机信息,2009,25(21). |
| |
作者姓名: | 焦慧 刘迁 王玉英 贾惠波 |
| |
作者单位: | 北京清华大学精密仪器与机械学系,100084 |
| |
摘 要: | 文本聚类是中文文本挖掘中的一种重要分析方法.K均值聚类算法是目前最为常用的文本聚类算法之一.但此算法在处理高维、稀疏数据集等问题时存在一些不足,且对初始聚类中心敏感.本文针时这些不足,提出了用特征词向量空间模型来降低向量的维数;并提出一种新的优化初始聚类中心的算法,即根据文章的特征词选择有代表性的初始聚类中心.实验表明特征词向量空间模型和优化初始聚类中心的算法能降低计算复杂度,增强结果的稳定性,并产生质量较高的聚类结果.
|
关 键 词: | 文本聚类 K均值 初始值优化 |
K-means Chinese Document Clustering with Optimized Initial Centers |
| |
Abstract: | |
| |
Keywords: | |
本文献已被 万方数据 等数据库收录! |
|