基于MRT-LDA模型的微博文本分类 |
| |
引用本文: | 庞雄文,万本帅,王盼.基于MRT-LDA模型的微博文本分类[J].计算机科学,2017,44(8):236-241, 259. |
| |
作者姓名: | 庞雄文 万本帅 王盼 |
| |
作者单位: | 华南师范大学计算机学院 广州510631,华南师范大学计算机学院 广州510631,华南师范大学计算机学院 广州510631 |
| |
基金项目: | 本文受国家科技部项目(2015BAK36B06)资助 |
| |
摘 要: | 微博的广泛使用产生了大量微博数据,这些数据中包含有大量有价值的信息。然而由于微博信息的文本内容简短且其本身带有一些结构化的社会网络方面的信息,传统的主题模型建模方法并不能十分有效地处理微博信息。根据微博信息的特点,提出一个基于Latent Dirichlet Allocation(LDA)的微博生成模型MRT-LDA,利用微博之间的转发、对话、支持(赞)和评论等关系来计算微博之间的相关性,综合考虑微博之间的相关性和同一用户微博信息间的关系,来辅助对微博的主题进行挖掘。采用吉布斯抽样法对模型进行推导,结果表明该模型能有效地对微博数据进行文本挖掘。
|
关 键 词: | 微博 主题挖掘 LDA MRT-LDA 概率生成模型 社交网络 |
收稿时间: | 2016/7/4 0:00:00 |
修稿时间: | 2016/10/19 0:00:00 |
|
|
点击此处可从《计算机科学》下载全文 |
|