优化初始值的K均值中文文本聚类 K-means Chinese Document Clustering with Optimized Initial Centers期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

优化初始值的K均值中文文本聚类

引用本文：	焦慧,刘迁,王玉英,贾惠波.优化初始值的K均值中文文本聚类[J].微计算机信息,2009,25(21).

作者姓名：	焦慧刘迁王玉英贾惠波

作者单位：	北京清华大学精密仪器与机械学系,100084

摘要：	文本聚类是中文文本挖掘中的一种重要分析方法.K均值聚类算法是目前最为常用的文本聚类算法之一.但此算法在处理高维、稀疏数据集等问题时存在一些不足,且对初始聚类中心敏感.本文针时这些不足,提出了用特征词向量空间模型来降低向量的维数;并提出一种新的优化初始聚类中心的算法,即根据文章的特征词选择有代表性的初始聚类中心.实验表明特征词向量空间模型和优化初始聚类中心的算法能降低计算复杂度,增强结果的稳定性,并产生质量较高的聚类结果.
关键词：	文本聚类 K均值初始值优化
K-means Chinese Document Clustering with Optimized Initial Centers

Abstract:

Keywords:
本文献已被万方数据等数据库收录！