首页 | 本学科首页   官方微博 | 高级检索  
     

一种基于演化算法进行句子抽取的多文档自动摘要系统SBGA
引用本文:刘德喜,何炎祥,姬东鸿,杨华.一种基于演化算法进行句子抽取的多文档自动摘要系统SBGA[J].中文信息学报,2006,20(6):48-55.
作者姓名:刘德喜  何炎祥  姬东鸿  杨华
作者单位:1.襄樊学院2.武汉大学计算机学院3.武汉大学语言与信息研究中心
基金项目:国家自然科学基金重大研究计划资助项目(90104005)
摘    要:SBGA系统将多文档自动摘要过程视为一个从源文档集中抽取句子的组合优化过程,并用演化算法来求得近似最优解。与基于聚类的句子抽取方法相比,基于演化算法进行句子抽取的方法是面向摘要整体的,因此能获得更好的近似最优摘要。演化算法的评价函数中考虑了衡量摘要的4个标准:长度符合用户要求、信息覆盖率高、更多地保留原文传递的重要信息、无冗余。另外,为了提高词频计算的精度, SBGA采用了一种改进的词频计算方法TFS,将加权后词的同义词频率加到了原词频中。在DUC2004测试数据集上的实验结果表明,基于演化算法进行句子抽取的方法有很好的性能,其ROUGE-1分值比DUC2004最优参赛系统仅低0.55%。改进的词频计算方法TFS对提高文档质量也起到了良好的作用。

关 键 词:计算机应用  中文信息处理  多文档自动摘要  演化算法  句子抽取  评价函数  TFS  
文章编号:1003-0077(2006)06-0046-08
收稿时间:2005-10-17
修稿时间:2005年10月17

SBGA:A Multi-Document Summarizer Using Genetic Algorithm-Based Sentence Extraction
LIU De-xi,HE Yan-xiang,JI Dong-hong,YNAG Hua.SBGA:A Multi-Document Summarizer Using Genetic Algorithm-Based Sentence Extraction[J].Journal of Chinese Information Processing,2006,20(6):48-55.
Authors:LIU De-xi  HE Yan-xiang  JI Dong-hong  YNAG Hua
Affiliation:1.Xiangfan University2.School of Computer , Wuhan University3.Center for Study of Language and Information , Wuhan University
Abstract:The multi-document summarizer using genetic algorithm-based sentence extraction(SBGA) regards summarization process as an optimization problem where the optimal summary is chosen among a set of summaries formed by the conjunction of the original articles sentences.To solve the NP hard optimization problem,SBGA adopts genetic algorithm,which can choose the optimal summary on global aspect.The evaluation function employs four features according to the criteria of a good summary: satisfied length,high coverage,high informativeness and low redundancy.To improve the accuracy of term frequency,SBGA employs a new method TFS,which takes word sense into account while calculating term frequency.The experiments on the data in DUC04 show thau our strategy is effective and the ROUGE-1 score is only 0.55% lower than the best participant in DUC04.
Keywords:computer application  Chinese information processing  multi-document summarization  genetic algorithm  sentence extraction  evaluation function  TFS
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号