首页 | 本学科首页   官方微博 | 高级检索  
     

基于文档语义图的中文多文档摘要生成机制
引用本文:宋锐,林鸿飞.基于文档语义图的中文多文档摘要生成机制[J].中文信息学报,2009,23(3):110-116.
作者姓名:宋锐  林鸿飞
作者单位:大连理工大学 计算机科学与工程系,辽宁 大连116024
基金项目:国家自然科学基金,国家高技术研究发展计划(863计划) 
摘    要:从文档集合的语义结构理解文档集合可以提高多文档摘要的质量。本文通过抽取中文多文档摘要文档集中的主-述-宾三元组结构构建文档语义图,再对语义图中的节点利用编辑距离进行语义聚类,并应用Page-Rank排序算法对语义图进行权重计算后,选取包含权重较高的节点及链接关系的三元组生成文档集合的多文档摘要。在摘要的评测阶段,将基于句子抽取的多文档摘要结果和基于文档语义图生成的多文档摘要分别与由评测员人工生成的摘要进行ROUGE相关度评测,并对利用编辑距离对语义图进行语义聚类前后的结果进行了比较。实验结果表明,基于文档语义图生成的多文档摘要与人工生成的摘要结果重叠度更高,而利用编辑距离对语义图进行聚类则进一步改进了摘要的质量。

关 键 词:计算机应用  中文信息处理  文档语义图  编辑距离  PageRank  ROUGE  中文多文档摘要
  

Document Semantic Graph Based Chinese Multi-Document Summarization
SONG Rui,LIN Hongfei.Document Semantic Graph Based Chinese Multi-Document Summarization[J].Journal of Chinese Information Processing,2009,23(3):110-116.
Authors:SONG Rui  LIN Hongfei
Affiliation:Department of Computer Science and Engineering, Dalian University of Technology, Dalian, Liaoning 116024, China
Abstract:Proper processing of the document set based on its semantic structure helps bring about better multi-document summaries.In this paper,subject-object-predicate triples are firstly extracted from document set to construct document semantic graph.Then the edit distance-based clustering and PageRank algorithm are applied to optimize the graph structure and to assign weights to the vertices and links,respectively.Finally,triples with more weighted vertices and links are collected as the summary.Evaluated against...
Keywords:PageRank  ROUGE
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号