首页 | 本学科首页   官方微博 | 高级检索  
     

基于LDA模型的新闻话题分类研究
引用本文:谈成访,汪材印.基于LDA模型的新闻话题分类研究[J].数字社区&智能家居,2014(16):3795-3797,3823.
作者姓名:谈成访  汪材印
作者单位:宿州学院信息工程学院;宿州学院智能信息处理实验室;
基金项目:安徽省高校省级自然科学研究重点项目(NO.KJ2014A250);宿州学院校级科研平台开放课题项目(NO.2013YKF14);安徽省大学生创新创业训练计划项目(NO.AH201310379082)
摘    要:针对部分网站中新闻话题没有分类或者分类不清等问题,将LDA模型应用到新闻话题的分类中。首先对新闻数据集进行LDA主题建模,根据贝叶斯标准方法选择最佳主题数,采用Gibbs抽样间接计算出模型参数,得到数据集的主题概率分布;然后根据JS距离计算文档之间的语义相似度,得到相似度矩阵;最后利用增量文本聚类算法对新闻文档聚类,将新闻话题分成若干个不同结构的子话题。实验结果显示表明该方法能有效地实现对新闻话题的划分。

关 键 词:LDA  文本聚类  新闻话题  分类  主题
本文献已被 CNKI 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号