首页 | 本学科首页   官方微博 | 高级检索  
     

基于语义分布相似度的主题模型
引用本文:居亚亚,杨璐,严建峰. 基于语义分布相似度的主题模型[J]. 计算机应用研究, 2019, 36(12)
作者姓名:居亚亚  杨璐  严建峰
作者单位:苏州大学计算机科学与技术学院,江苏苏州215006;苏州大学计算机科学与技术学院,江苏苏州215006;苏州大学计算机科学与技术学院,江苏苏州215006
基金项目:国家自然科学基金资助项目(61572339,61272449);江苏省科技支撑计划重点项目(BE2014005)
摘    要:潜在狄利克雷分布(LDA)以词袋(bag of words,BOW)模型为基础,简化了建模的复杂度,但使得主题的语义连贯性较差,文档表征能力不强。为解决此问题,提出了一种基于语义分布相似度的主题模型。该模型在EM(expectation maximization)算法框架下,使用GPU(generalized Pólya urn)模型加入单词—单词和文档—主题语义分布相似度来引导主题建模,从语义关联层面上削弱了词袋假设对主题产生的影响。在四个公开数据集上的实验表明,基于语义分布相似度的主题模型在主题语义连贯性、文本分类准确率方面相对于目前流行的主题建模算法表现得更加优越,同时该模型提高了收敛速度和模型精度。

关 键 词:潜在狄利克雷分布  语义分布相似度  主题模型  GPU模型
收稿时间:2018-07-23
修稿时间:2019-10-30

Semantic distribution similarity based topic model
Ju Yay,Yang Lu and Yan Jianfeng. Semantic distribution similarity based topic model[J]. Application Research of Computers, 2019, 36(12)
Authors:Ju Yay  Yang Lu  Yan Jianfeng
Affiliation:School of Computer Science &Technology, Soochow University,,
Abstract:LDA is based on the bag-of-words, which simplifies the complexity of modeling, but makes the semantic coherence of topics poor, and text representation ability is not strong. To solve this problem, this paper proposed the semantic distribution similarity based topic model. This model used GPU(generalized Pólya urn) model to add word-word and document-topic semantic distribution similarity to guide topic modeling under the framework of EM(expectation maximization) algorithm, which weakened the effect of bag-of-words hypothesis on topics from the semantic association level. Experiments on four public datasets show that the semantic distribution similarity based topic model is superior to the currently popular topic modeling algorithms in terms of topic semantic coherence and text classification accuracy, and the model improves the convergence speed and topic accuracy.
Keywords:latent Dirichlet allocation   semantic distribution similarity   topic model   GPU model
本文献已被 万方数据 等数据库收录!
点击此处可从《计算机应用研究》浏览原始摘要信息
点击此处可从《计算机应用研究》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号