首页 | 本学科首页   官方微博 | 高级检索  
     

基于Laplacian图谱的短文本聚类算法
引用本文:孟海宁,冯锴,朱磊,张贝贝,童新宇,黑新宏. 基于Laplacian图谱的短文本聚类算法[J]. 电子学报, 2021, 49(9): 1716-1723. DOI: 10.12263/DZXB.20201266
作者姓名:孟海宁  冯锴  朱磊  张贝贝  童新宇  黑新宏
作者单位:西安理工大学计算机科学与工程学院,陕西西安710048;陕西省网络计算与安全技术重点实验室,陕西西安710048;西安理工大学计算机科学与工程学院,陕西西安710048
摘    要:提出基于词频处理的Laplacian图谱聚类算法,以解决短文本数据维数高、特征稀疏等问题.首先采用词频-逆文本频率指数TF-IDF(Term Frequency-Inverse Document Frequency)方法,将短文本数据集映射到文本向量空间得到词频权值矩阵;其次利用Laplacian矩阵的图谱聚类特性,对词频权值矩阵进行数据降维处理;然后依据Laplacian矩阵的特征值表示文本相似度的特点,选择前K个特征值对应的特征向量作为初始聚类中心,以减少聚类过程的迭代次数.在SSC、20 News Group及Microblog PCU数据集上进行相关实验,结果表明Laplacian图谱聚类算法比传统聚类算法,不仅具有更优的聚类结果与更快的收敛速度,而且受噪声点影响较小,有很好的鲁棒性.

关 键 词:Laplacian图谱  词频-逆文本频率指数  短文本聚类  向量空间模型  数据降维  特征权值

Short-Text Clustering Algorithm Based on Laplacian Graph
MENG Hai-ning,FENG Kai,ZHU Lei,ZHANG Bei-bei,TONG Xin-yu,HEI Xin-hong. Short-Text Clustering Algorithm Based on Laplacian Graph[J]. Acta Electronica Sinica, 2021, 49(9): 1716-1723. DOI: 10.12263/DZXB.20201266
Authors:MENG Hai-ning  FENG Kai  ZHU Lei  ZHANG Bei-bei  TONG Xin-yu  HEI Xin-hong
Abstract:
Keywords:
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号