首页 | 本学科首页   官方微博 | 高级检索  
     

结合LDA和谱聚类的多文档摘要
引用本文:付玲,张晖.结合LDA和谱聚类的多文档摘要[J].计算机工程与应用,2013(16).
作者姓名:付玲  张晖
作者单位:西南科技大学 计算机科学与技术学院,四川 绵阳,621000
基金项目:国家高技术研究发展计划项目(863)(No.2007AA01Z151)。
摘    要:自动文摘技术的目标是致力于将冗长的文档内容压缩成较为简短的几段话,将信息全面、简洁地呈现给用户,提高用户获取信息的效率和准确率。所提出的方法在LDA(LatentDirichletAllocation)的基础上,使用Gibbs抽样估计主题在单词上的概率分布和句子在主题上的概率分布,结合LDA参数和谱聚类算法提取多文档。该方法使用线性公式来整合句子权重,提取出字数为400字的多文档。使用ROUGE自动评测工具包对DUC2002数据集评测质量,结果表明,该方法能有效地提高的质量。

关 键 词:Latent  Dirichlet  Allocation(LDA)  Gibbs抽样  谱聚类  多文档摘要

Multi-document summary using LDA and spectral clustering
FU Ling , ZHANG Hui.Multi-document summary using LDA and spectral clustering[J].Computer Engineering and Applications,2013(16).
Authors:FU Ling  ZHANG Hui
Abstract:
Keywords:Latent Dirichlet Allocation(LDA)  Gibbs sampling  spectral clustering  multi-document summary
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号