首页 | 本学科首页   官方微博 | 高级检索  
     

主题模型LDA的多文档自动文摘
引用本文:杨潇,马军,杨同峰,杜言琦,邵海敏.主题模型LDA的多文档自动文摘[J].智能系统学报,2010,5(2):169-176.
作者姓名:杨潇  马军  杨同峰  杜言琦  邵海敏
作者单位:1. 山东经济学院,信息管理学院,山东,济南,250014
2. 山东大学,计算机科学与技术学院,山东,济南,250101
基金项目:国家自然科学基金,山东省自然科学基金,山东省科技计划 
摘    要:近年来使用概率主题模型表示多文档文摘问题受到研究者的关注.LDA (latent dirichlet allocation)是主题模型中具有代表性的概率生成性模型之一.提出了一种基于LDA的文摘方法,该方法以混乱度确定LDA模型的主题数目,以Gibbs抽样获得模型中句子的主题概率分布和主题的词汇概率分布,以句子中主题权重的加和确定各个主题的重要程度,并根据LDA模型中主题的概率分布和句子的概率分布提出了2种不同的句子权重计算模型.实验中使用ROUGE评测标准,与代表最新水平的SumBasic方法和其他2种基于LDA的多文档自动文摘方法在通用型多文档摘要测试集DUC2002上的评测数据进行比较,结果表明提出的基于LDA的多文档自动文摘方法在ROUGE的各个评测标准上均优于SumBasic方法,与其他基于LDA模型的文摘相比也具有优势.

关 键 词:多文档自动  句子分值计算  主题模型  主题数目

Automatic multi-document summarization based on the latent Dirichlet topic allocation model
YANG Xiao,MA Jun,YANG Tong-feng,DU Yan-qi,SHAO Hai-min.Automatic multi-document summarization based on the latent Dirichlet topic allocation model[J].CAAL Transactions on Intelligent Systems,2010,5(2):169-176.
Authors:YANG Xiao  MA Jun  YANG Tong-feng  DU Yan-qi  SHAO Hai-min
Abstract:The representative problem of multi-document summarization using probabilistic topic models has begun receiving considerable attention.A multi-document summarization method was proposed based on the latent dirichlet allocation (LDA) model,itself a model representative of probabilistic generative topic models.In this method,the number of topics in the LDA model was determined by model perplexity,and the probabilistic sentence distribution on topics and the probabilistic topic distribution on words were obtai...
Keywords:LDA
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号