首页 | 本学科首页   官方微博 | 高级检索  
     

基于LDA模型的新闻话题分类研究
引用本文:谈成访,;汪材印.基于LDA模型的新闻话题分类研究[J].数字社区&智能家居,2014(6):3795-3797.
作者姓名:谈成访  ;汪材印
作者单位:[1]宿州学院信息工程学院,安徽宿州234000; [2]宿州学院智能信息处理实验室,安徽宿州234000
基金项目:安徽省高校省级自然科学研究重点项目(NO.KJ2014A250);宿州学院校级科研平台开放课题项目(NO.2013YKF14);安徽省大学生创新创业训练计划项目(NO.AH201310379082)
摘    要:针对部分网站中新闻话题没有分类或者分类不清等问题,将LDA模型应用到新闻话题的分类中。首先对新闻数据集进行LDA主题建模,根据贝叶斯标准方法选择最佳主题数,采用Gibbs抽样间接计算出模型参数,得到数据集的主题概率分布;然后根据JS距离计算文档之间的语义相似度,得到相似度矩阵;最后利用增量文本聚类算法对新闻文档聚类,将新闻话题分成若干个不同结构的子话题。实验结果显示表明该方法能有效地实现对新闻话题的划分。

关 键 词:LDA  文本聚类  新闻话题  分类  主题

Study on Classification of News Topic Based on LDA Model
Affiliation:TAN Cheng-fang, WANG Cai-yin (1. School of Information Engineering, Suzhou 234000, China; 2. Intelligent Information Processing Lab, Suzhou 234000, China)
Abstract:The LDA model is applied to the classification of news topic on the website because of its no classification or unclear classification. Firstly, news dataset is modeled by LDA modeling, the optimal number of topic is chosen according to Bias standard method, and get the topic probability distribution of dataset by using Gibbs sampling to calculate the model parameters;and then similarity matrix is obtained based on the semantic similarity between documents by computing JS distance;finally, the incremen-tal clustering algorithm is used to cluster news document, and the topic is divided into a number of different structure of the sub topic. The experimental results show that this method can realize the division of news topic effectively.
Keywords:Latent Dirichlet Allocation  Text Clustering  News Topic  Classification  Topic
本文献已被 维普 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号