首页 | 本学科首页   官方微博 | 高级检索  
     

基于频繁词集和k-Means的Web文本聚类混合算法
引用本文:王乐,田李,贾焰,韩伟红. 基于频繁词集和k-Means的Web文本聚类混合算法[J]. 计算机工程与科学, 2008, 30(8): 92-96
作者姓名:王乐  田李  贾焰  韩伟红
作者单位:国防科技大学计算机学院,湖南,长沙,410073
基金项目:国家高技术研究发展计划(863计划)
摘    要:当前,Web文本聚类主要存在三个挑战:数据规模海量性、高雏空间处理复杂性和聚类结果的可理解性。针对上述挑战,本文提出了一个基于top-k频繁词集和k-means的混合聚类算法topHDC。该算法在生成初始聚簇时避免了高维空间向量处理,k个频繁词集对聚类结果提供了可理解的解释。topHDC避免了已有算法中聚类结果受文档长度干扰的问题。在两个公共数据集上的实验证明,topHDC算法在聚类质量和运行效率上明显优于另外两个具有代表性的聚类算法。

关 键 词:文本挖掘 聚类 频繁词集 k-means

A Hybrid Algorithm for Web Document Clustering Based on Frequent Term Sets and k-Means
WANG Le,TIAN Li,JIA Yan,HAN Wei-hong. A Hybrid Algorithm for Web Document Clustering Based on Frequent Term Sets and k-Means[J]. Computer Engineering & Science, 2008, 30(8): 92-96
Authors:WANG Le  TIAN Li  JIA Yan  HAN Wei-hong
Abstract:
Keywords:k-means
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《计算机工程与科学》浏览原始摘要信息
点击此处可从《计算机工程与科学》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号