首页 | 本学科首页   官方微博 | 高级检索  
     

基于中心词的上下文主题模型
引用本文:常东亚,严建峰,杨璐. 基于中心词的上下文主题模型[J]. 计算机应用研究, 2018, 35(4)
作者姓名:常东亚  严建峰  杨璐
作者单位:苏州大学,苏州大学,苏州大学
基金项目:国家自然科学基金(61373092、61572339、61272449);江苏省科技支持计划重点项目(BE2014005);
摘    要:潜在狄利克雷分配(LDA)主题模型是处理非结构化文档的有效工具。但是它是建立在词袋模型假设上的(BOW,bag of word),这种假设把每一篇文档看成是单词的组合,既不考虑文档与文档之间的顺序关系,也不考虑单词与单词之间的顺序关系。同时针对现有的模型精度不高,我们提出了基于中心词的上下文主题模型,这种模型的思想是一篇文档中单词的主题与其附近若干单词的主题关系更为紧密。在计算每个单词的主题分布时,以这个词为中心,前后各扩展若干个单词作为窗口,然后对每个窗口进行计算。这种方法就会形成窗口与窗口之间的顺序,从而形成了单词之间也是局部有序,同时由于每个单词的上下文信息不同,所以每个单词的主题分布与其所在文档中的位置有关。通过实验表明,基于中心词的上下文主题模型在未知数据集上具有更高的精度和收敛速度。

关 键 词:潜在狄利克雷分配   主题模型  上下文信息
收稿时间:2016-12-15
修稿时间:2018-03-01

Centroid-word based context topic model
Chang Dongy,Yang Jianfeng and Yang Lu. Centroid-word based context topic model[J]. Application Research of Computers, 2018, 35(4)
Authors:Chang Dongy  Yang Jianfeng  Yang Lu
Affiliation:Soochow University,,
Abstract:
Keywords:latent dirichlet allocation  topic model   context information
点击此处可从《计算机应用研究》浏览原始摘要信息
点击此处可从《计算机应用研究》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号