首页 | 本学科首页   官方微博 | 高级检索  
     

一种长文本辅助短文本的文本理解方法
引用本文:闫盈盈,黄瑞章,王瑞,马灿,刘博伟,黄庭.一种长文本辅助短文本的文本理解方法[J].山东大学学报(工学版),2018,48(3):67-74.
作者姓名:闫盈盈  黄瑞章  王瑞  马灿  刘博伟  黄庭
作者单位:1. 贵州大学计算机科学与技术学院, 贵州 贵阳 550025;2. 贵州省公共大数据重点实验室, 贵州 贵阳 550025
基金项目:国家自然科学基金资助项目(61462011,61540050);贵州大学引进人才科研资助项目(2011015);贵州省重大应用基础研究资助项目(JZ20142001)
摘    要:在狄利克雷多项回归(dirichlet-multinomial regression, DMR)模型的基础上,提出一个长文本辅助短文本理解的二元狄利克雷多项回归(dual dirichlet-multinomial regression, DDMR)模型。来自不同数据源的长短文本共享一个主题集合,并采用不同的狄利克雷先验产生长短文本的主题分配,使得长文本的主题知识能够迁移到短文本中,改善短文本的理解。试验表明,DDMR模型在短文本的主题发现效果上具有较大的提升作用。

关 键 词:短文本理解  主题模型  二元狄利克雷多项回归模型  
收稿时间:2017-08-23

A document understanding method for short texts by auxiliary long documents
YAN Yingying,HUANG Ruizhang,WANG Rui,MA Can,LIU Bowei,HUANG Ting.A document understanding method for short texts by auxiliary long documents[J].Journal of Shandong University of Technology,2018,48(3):67-74.
Authors:YAN Yingying  HUANG Ruizhang  WANG Rui  MA Can  LIU Bowei  HUANG Ting
Affiliation:1. School of Computer Science and Technology, Guizhou University, Guiyang 550025, Guizhou, China;2. Guizhou Provincial Key Laboratory of Public Big Data, Guiyang 550025, Guizhou, China
Abstract:Based on the dirichlet-multinomial regression(DMR)model, a dual dirichlet-multinomial regression(DDMR)model that short texts were understood by auxiliary long documents was proposed. A topic set was shared by long documents and short texts which came from different data sources, and two dirichlet priors were used to generate the topic allocation of long documents and short texts, which enabled the topic knowledge of long documents to be transferred to short texts and improved understanding of the short text. The experiments showed that the DDMR model had a great effect on the topical discovery of short texts.
Keywords:short text understanding  dual dirichlet-multinomial regression model  topic model  
本文献已被 CNKI 等数据库收录!
点击此处可从《山东大学学报(工学版)》浏览原始摘要信息
点击此处可从《山东大学学报(工学版)》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号