基于频繁词集和k-Means的Web文本聚类混合算法 A Hybrid Algorithm for Web Document Clustering Based on Frequent Term Sets and k-Means期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于频繁词集和k-Means的Web文本聚类混合算法

引用本文：	王乐,田李,贾焰,韩伟红. 基于频繁词集和k-Means的Web文本聚类混合算法[J]. 计算机工程与科学, 2008, 30(8): 92-96

作者姓名：	王乐田李贾焰韩伟红

作者单位：	国防科技大学计算机学院,湖南,长沙,410073

基金项目：	国家高技术研究发展计划(863计划)

摘要：	当前，Web文本聚类主要存在三个挑战：数据规模海量性、高雏空间处理复杂性和聚类结果的可理解性。针对上述挑战，本文提出了一个基于top-k频繁词集和k-means的混合聚类算法topHDC。该算法在生成初始聚簇时避免了高维空间向量处理，k个频繁词集对聚类结果提供了可理解的解释。topHDC避免了已有算法中聚类结果受文档长度干扰的问题。在两个公共数据集上的实验证明，topHDC算法在聚类质量和运行效率上明显优于另外两个具有代表性的聚类算法。
关键词：	文本挖掘聚类频繁词集 k-means
A Hybrid Algorithm for Web Document Clustering Based on Frequent Term Sets and k-Means

WANG Le,TIAN Li,JIA Yan,HAN Wei-hong. A Hybrid Algorithm for Web Document Clustering Based on Frequent Term Sets and k-Means[J]. Computer Engineering & Science, 2008, 30(8): 92-96

Authors:	WANG Le TIAN Li JIA Yan HAN Wei-hong

Abstract:

Keywords:	k-means
本文献已被 CNKI 维普万方数据等数据库收录！
	点击此处可从《计算机工程与科学》浏览原始摘要信息
	点击此处可从《计算机工程与科学》下载免费的PDF全文

设为首页 | 免责声明 | 关于勤云 | 加入收藏