首页 | 本学科首页   官方微博 | 高级检索  
     

基于 MB-HDP 模型的微博主题挖掘
引用本文:刘少鹏,印鉴,欧阳佳,黄云,杨晓颖. 基于 MB-HDP 模型的微博主题挖掘[J]. 计算机学报, 2015, 0(7)
作者姓名:刘少鹏  印鉴  欧阳佳  黄云  杨晓颖
作者单位:中山大学信息科学与技术学院计算机科学系 广州 510006
基金项目:国家自然科学基金,广东省自然科学基金,广东省科技计划项目(2011B040200007,2011B031700004,2012A010701013)资助This work is supported by the National Natural Science Foundation of China,Natural Science Foundation of Guangdong Province,Research Foundation of Science and Technology Plan Project in Guangdong Province (Nos.2011B040200007,2011B031700004,2012A010701013).
摘    要:主题模型是挖掘微博潜在主题的重要工具.然而,现有的主题模型多由 Latent Dirichlet Allocation (LDA)派生,它需要用户预先指定主题数目.为了自动挖掘微博主题,作者提出了一个基于分层 Dirichlet 过程(Hierarchical Dirichlet Process,HDP)的非参数贝叶斯模型 MB-HDP.首先,针对微博应用场景,假设消息是不可交换的;接着,利用微博的时间信息、用户兴趣以及话题标签,聚合主题相关的消息以解决微博短文本的数据稀疏问题;然后,扩展Chinese Restaurant Franchise (CRF)对微博数据进行主题建模;最后,设计一个相应的 Markov Chain Monte Carlo (MCMC)采样方法,推导 MB-HDP 模型的分布参数.实验表明,在生成主题质量、内容困惑度和模型复杂度等指标上,MB-HDP 模型明显优于 LDA 和 HDP 两种模型.

关 键 词:主题挖掘  微博  分层Dirichlet过程  MB-HDP

Topic Mining from Microblogs Based on MB-HDP Model
LIU Shao-Peng,YIN Jian,OUYANG Jia,HUANG Yun,YANG Xiao-Ying. Topic Mining from Microblogs Based on MB-HDP Model[J]. Chinese Journal of Computers, 2015, 0(7)
Authors:LIU Shao-Peng  YIN Jian  OUYANG Jia  HUANG Yun  YANG Xiao-Ying
Abstract:
Keywords:topic mining  microblog  hierarchical Dirichlet process  MB-HDP
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号