首页 | 本学科首页   官方微博 | 高级检索  
     

融合词向量特征的双词主题模型
引用本文:刘良选,黄梦醒. 融合词向量特征的双词主题模型[J]. 计算机应用研究, 2017, 34(7)
作者姓名:刘良选  黄梦醒
作者单位:海南大学信息科学技术学院,海南大学信息科学技术学院
基金项目:国家自然科学基金资助项目
摘    要:针对短文本中固有的文本内容稀疏和上下文信息匮乏等问题,在BTM的基础上提出一种融合词向量特征的双词主题模型LF-BTM。该模型引入潜在特征模型以利用丰富的词向量信息弥补内容稀疏,在改进的生成过程中每个双词的词汇的生成受到主题-词汇多项分布和潜在特征模型的共同影响。模型中的参数通过吉布斯采样算法进行估计。在真实的短文本数据集上的实验结果表明,该模型能结合外部通用的大规模语料库上已训练好的词向量挖掘出语义一致性显著提升的主题。

关 键 词:主题模型;潜在狄利克雷分配;短文本;双词主题模型;词向量;吉布斯采样
收稿时间:2016-05-18
修稿时间:2017-05-19

A Biterm Topic Model with Word Vector Features
Liu Liangxuan and Huang Mengxing. A Biterm Topic Model with Word Vector Features[J]. Application Research of Computers, 2017, 34(7)
Authors:Liu Liangxuan and Huang Mengxing
Affiliation:College of Information Science,
Abstract:To solve the problem of content sparsity and lack of context information existing inherently in short texts, this paper proposed a biterm topic model incorporating word vector features LF-BTM based on BTM. Latent feature model that utilizes abundant word vector information was introduced to offset the data sparsity, and generation of words in each biterm is influenced jointly by topic-word multinomial distribution and latent features model in the improved generative process. Parameters in the model could be learned by employing methods of Gibbs sampling. Experimental results on real-world short texts datasets demonstrate that the model can integrate word vectors trained from external general large-scale corpora to produce significant improvements on topic coherence.
Keywords:topic model   latent Dirichlet allocation   short texts   biterm topic model   word vector   Gibbs sampling
点击此处可从《计算机应用研究》浏览原始摘要信息
点击此处可从《计算机应用研究》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号