基于LDA模型的新闻话题分类研究 |
| |
引用本文: | 谈成访,汪材印.基于LDA模型的新闻话题分类研究[J].数字社区&智能家居,2014(16):3795-3797,3823. |
| |
作者姓名: | 谈成访 汪材印 |
| |
作者单位: | 宿州学院信息工程学院;宿州学院智能信息处理实验室; |
| |
基金项目: | 安徽省高校省级自然科学研究重点项目(NO.KJ2014A250);宿州学院校级科研平台开放课题项目(NO.2013YKF14);安徽省大学生创新创业训练计划项目(NO.AH201310379082) |
| |
摘 要: | 针对部分网站中新闻话题没有分类或者分类不清等问题,将LDA模型应用到新闻话题的分类中。首先对新闻数据集进行LDA主题建模,根据贝叶斯标准方法选择最佳主题数,采用Gibbs抽样间接计算出模型参数,得到数据集的主题概率分布;然后根据JS距离计算文档之间的语义相似度,得到相似度矩阵;最后利用增量文本聚类算法对新闻文档聚类,将新闻话题分成若干个不同结构的子话题。实验结果显示表明该方法能有效地实现对新闻话题的划分。
|
关 键 词: | LDA 文本聚类 新闻话题 分类 主题 |
本文献已被 CNKI 等数据库收录! |
|