首页 | 本学科首页   官方微博 | 高级检索  
     

面向复杂主题建模的流式层次狄里克雷过程
引用本文:韩忠明,张梦玫,李梦琪,段大高,陈谊.面向复杂主题建模的流式层次狄里克雷过程[J].计算机学报,2019,42(7):1539-1552.
作者姓名:韩忠明  张梦玫  李梦琪  段大高  陈谊
作者单位:北京工商大学计算机与信息工程学院 北京 100048;食品安全大数据技术北京市重点实验室 北京 100048;北京工商大学计算机与信息工程学院 北京 100048
基金项目:国家自然科学基金;北京市自然科学基金;北京市科技计划
摘    要:互联网已经成为真实事件信息的主要来源.针对互联网海量新闻语料的主题挖掘是新闻事件的组织和追踪任务中关键的一环.主题模型已被广泛应用于挖掘和分析新闻等文本语料,LDA(Latent Dirichlet Allocation)是最常见的主题模型,然而现有基于LDA的方法没有考虑到主题之间的层次关系,且需要预先提供主题个数.作为LDA模型的扩展,层次狄里克雷过程(Hierarchical Dirichlet Process,HDP)是非参数贝叶斯主题模型,HDP能够自动确定主题个数.对于具有层次等特性的复杂主题,HDP难以挖掘出隐式层次结构,且容易产生噪音主题.为了解决这个问题,该文提出了基于HDP改进的非参数贝叶斯模型:流式层次狄里利克雷过程(Flow Hierarchical Dirichlet Process,FHDP),FHDP通过在HDP模型中加入流动操作,加强了对主题之间的同属领域信息的利用,以便于更好的对主题进行层次分析.利用加入了流动操作的中国连锁餐馆模型(Chinese Restaurant Franchise,CRF)对数据进行建模,设计相应的马尔可夫链蒙特卡罗(Markov Chain Monte Carlo,MCMC)采样方法,以推导FHDP模型的分布参数分布.FHDP的主要贡献在于:(1)对含有层次关系的主题建模时,减少了无意义信息.解决了HDP得到主题不明确的问题,扩大了HDP的应用领域;(2)由于在FHDP中加强了对主题隐含领域信息的利用,主题的层次关系变得更加明确.为了客观衡量FHDP和HDP的性能差异,利用模拟和真实数据进行了大量实验.实验表明,在轮廓系数、主题覆盖度、单字对数似然等指标上,FHDP模型明显优于HDP模型。

关 键 词:层次狄里克雷过程  主题模型  非参数贝叶斯模型  马尔可夫蒙特卡罗  流式层次狄里克雷过程

Flow Hierarchical Dirichlet Process for Complex Topic Modeling
HAN Zhong-Ming,ZHANG Meng-Mei,LI Meng-Qi,DUAN Da-Gao,CHEN Yi.Flow Hierarchical Dirichlet Process for Complex Topic Modeling[J].Chinese Journal of Computers,2019,42(7):1539-1552.
Authors:HAN Zhong-Ming  ZHANG Meng-Mei  LI Meng-Qi  DUAN Da-Gao  CHEN Yi
Affiliation:(School of Computer and Information Engineering, Beijing Technology and Business University, Beijing 100048;Beijing Key Laboratory of Big Data Technology for Food Safety, Beijing 100048)
Abstract:HAN Zhong-Ming;ZHANG Meng-Mei;LI Meng-Qi;DUAN Da-Gao;CHEN Yi(School of Computer and Information Engineering, Beijing Technology and Business University, Beijing 100048;Beijing Key Laboratory of Big Data Technology for Food Safety, Beijing 100048)
Keywords:hierarchical Dirichlet process  topic model  Bayesian nonparametric model  Markov chain Monte Carlo  flow hierarchical Dirichlet process
本文献已被 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号