基于MapReduce的改进k-means文本聚类算法 |
| |
作者单位: | ;1.江苏科技大学计算机科学与工程学院 |
| |
摘 要: | 针对传统k-means文本聚类算法在处理大规模文本数据时扩展性不足的问题,提出了基于MapReduce编程模型的并行k-means文本聚类算法。通过删除离群点和采用高效的初始质心选择策略提高k-means聚类效果,并设计基于MapReduce框架的大规模文本并行聚类模型提高算法的可扩展性。实验证明,该算法在大规模文本聚类中具有良好的聚类效果和可扩展性。
|
关 键 词: | k-means算法 文本聚类 MapReduce |
Improved k-means algorithm of text based on MapReduce |
| |
Abstract: | |
| |
Keywords: | |
|
|