首页 | 本学科首页   官方微博 | 高级检索  
     

基于LDA主题特征的自动文摘方法
引用本文:张明慧,王红玲,周国栋. 基于LDA主题特征的自动文摘方法[J]. 计算机应用与软件, 2011, 0(10)
作者姓名:张明慧  王红玲  周国栋
作者单位:苏州大学计算机科学与技术学院;江苏省计算机信息处理技术重点实验室;
基金项目:国家自然科学基金(60673041,60873150); 江苏省高校自然科学重大基础研究项目(08KJA520002)
摘    要:近年来概率主题模型受到了研究者的广泛关注,LDA(Latent Dirichlet Allocation)模型是主题模型中具有代表性的概率生成模型之一,它能够检测文本的隐含主题。提出一个基于LDA模型的主题特征,该特征计算文档的主题分布与句子主题分布的距离。结合传统多文档自动文摘中的常用特征,计算句子权重,最终根据句子的分值抽取句子形成摘要。实验结果证明,加入LDA模型的主题特征后,自动文摘的性能得到了显著的提高。

关 键 词:自动文摘  LDA  主题模型  多文档  

AN AUTOMATIC SUMMARIZATION APPROACH BASED ON LDA TOPIC FEATURE
Zhang Minghui Wang Hongling Zhou Guodong. AN AUTOMATIC SUMMARIZATION APPROACH BASED ON LDA TOPIC FEATURE[J]. Computer Applications and Software, 2011, 0(10)
Authors:Zhang Minghui Wang Hongling Zhou Guodong
Affiliation:Zhang Minghui Wang Hongling Zhou Guodong(School of Computer Science and Technology,Soochow University,Suzhou 215006,Jiangsu,China)(Jiangsu Provincial Key Laboratory of Computer Information Processing Technology,China)
Abstract:Probabilistic topic models have received considerable attentions in recent years.LDA model,as a topic model,is one representative among probabilistic generative models,which is used to detect latent topics from documents.In this paper,an LDA-model-based topic feature is proposed.The feature is applied to calculating the distance between distributed document topics and distributed sentence topics.By combining common features in conventional multi-document automatic summarizations,sentences are ranked,and the...
Keywords:Automatic document summarization Latent dirichlet allocation(LDA) Topic model Multi-document  
本文献已被 CNKI 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号