首页 | 本学科首页   官方微博 | 高级检索  
     

基于MB-LDA模型的微博主题挖掘
引用本文:张晨逸,孙建伶,丁轶群.基于MB-LDA模型的微博主题挖掘[J].计算机研究与发展,2011,48(10).
作者姓名:张晨逸  孙建伶  丁轶群
作者单位:1. 浙江大学计算机科学与技术学院 杭州 310027
2. 浙江大学工业技术研究院 杭州 310027
基金项目:“核高基”国家科技重大专项基金项目(2010ZX01042-002-003)
摘    要:随着微博的日趋流行,Twitter等微博网站已成为海量信息的发布体,对微博的研究也需要从单一的用户关系分析向微博本身内容的挖掘进行转变.在数据挖掘领域,尽管传统文本的主题挖掘已经得到了广泛的研究,但对于微博这种特殊的文本,因其本身带有一些结构化的社会网络方面的信息,传统的文本挖掘算法不能很好地对它进行建模.提出了一个基于LDA的微博生成模型MB-LDA,综合考虑了微博的联系人关联关系和文本关联关系,来辅助进行微博的主题挖掘.采用吉布斯抽样法对模型进行推导,不仅能挖掘出微博的主题,还能挖掘出联系人关注的主题.此外,模型还能推广到许多带有社交网络性质的文本中.在真实数据集上的实验表明,MB-LDA模型能有效地对微博进行主题挖掘.

关 键 词:微博  主题挖掘  LDA  概率生成模型  社交网络  

Topic Mining for Microblog Based on MB-LDA Model
Zhang Chenyi,Sun Jianling,Ding Yiqun.Topic Mining for Microblog Based on MB-LDA Model[J].Journal of Computer Research and Development,2011,48(10).
Authors:Zhang Chenyi  Sun Jianling  Ding Yiqun
Affiliation:Zhang Chenyi1,Sun Jianling1 and Ding Yiqun2 1(College of Computer Science and Technology,Zhejiang University,Hangzhou 310027) 2(Industrial Technology Research Institute of Zhejiang University,Hangzhou 310027)
Abstract:As microblog grows more popular,services like Twitter have become information providers on a web scale.Early work on microblog focused more on its user relationship and community structure,without considering the value of content.So the research on microblog requires a change from solely user's relationship analysis to its content mining.Although traditional text mining methods have been studied well,no algorithm is designed specially for microblog data,which contain structured information on social network...
Keywords:microblog  topic mining  LDA  probabilistic generative model  social network  
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号