首页 | 本学科首页   官方微博 | 高级检索  
     

基于概率主题模型的文档聚类
引用本文:王李冬,魏宝刚,袁杰. 基于概率主题模型的文档聚类[J]. 电子学报, 2012, 40(11): 2346-2350. DOI: 10.3969/j.issn.0372-2112.2012.11.033
作者姓名:王李冬  魏宝刚  袁杰
作者单位:1. 浙江大学计算机科学与技术学院,浙江杭州310027;杭州师范大学,浙江杭州310012
2. 浙江大学计算机科学与技术学院,浙江杭州,310027
基金项目:国家自然科学青年基金,浙江省公益性技术应用研究计划
摘    要: 为了实现普通文本语料库和数字图书语料库的有效聚类,分别提出基于传统LDA(Latent Dirichlet Allocation)模型和TC_LDA模型的聚类算法.TC_LDA模型在LDA模型基础上进行扩展,通过对图书文档的目录和正文信息联合进行主题建模.和传统方法不同,基于主题模型的聚类算法能将具备同一主题的文档聚为一类.实验结果表明从主题分析角度出发实现的聚类算法优于传统的聚类算法.

关 键 词:主题模型  LDA模型  TC_LDA模型  文档聚类
收稿时间:2011-01-18

Document Clustering Based on Probabilistic Topic Model
WANG Li-dong , WEI Bao-gang , YUAN Jie. Document Clustering Based on Probabilistic Topic Model[J]. Acta Electronica Sinica, 2012, 40(11): 2346-2350. DOI: 10.3969/j.issn.0372-2112.2012.11.033
Authors:WANG Li-dong    WEI Bao-gang    YUAN Jie
Affiliation:1. College of Computer Science and Technology,Zhejiang University,Hangzhou,Zhejiang 310027,China;2. Hangzhou Normal University,Hangzhou,Zhejiang 310012,China
Abstract:To effectively cluster corpus of ordinary documents and digital books,the clustering algorithms based on LDA model and TC_LDA were proposed,respectively.The topic model named TC_LDA,the extension of LDA,is proposed for digital books corpus for jointly topic modeling from both of Texts and Contents.Unlike traditional clustering methods,topic model based methods cluster documents in a group if they share one or more common topics.Empirical evaluation demonstrates that our approach based on topic analysis can substantially improve the clustering results as compared to related methods.
Keywords:topic model  LDA model  TC_LDA model  document clustering
本文献已被 万方数据 等数据库收录!
点击此处可从《电子学报》浏览原始摘要信息
点击此处可从《电子学报》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号