首页 | 本学科首页   官方微博 | 高级检索  
     

基于层次结构的生成式自动文摘
引用本文:吴仁守,张宜飞,王红玲,张迎.基于层次结构的生成式自动文摘[J].中文信息学报,2019,33(10):90-98.
作者姓名:吴仁守  张宜飞  王红玲  张迎
作者单位:苏州大学 计算机科学与技术学院,江苏 苏州 215006
基金项目:国家自然科学基金(61402314)
摘    要:基于编码器—解码器架构的序列到序列学习模型是近年来主流的生成式文摘方法。但是,传统的编码器尚不能有效地对长文档进行语义编码,并且只能学习线性链结构的信息, 忽视了文档具有的层次结构。而文档的层次结构(字—句—文档)有助于自动文摘系统更加准确地判断文档内不同结构单元的语义信息和重要程度。为了使编码器能够获取文档的层次结构信息,该文根据文档的层次结构对文档进行编码: 首先构建字级语义表示,然后由字级语义表示构建句级语义表示。另外,该文还提出了一种语义融合单元来对输入文档不同层次的语义信息进行融合,作为最终的文档表示提供给编码器生成摘要。实验结果表明,在加入该文提出的层次文档阅读器与语义融合单元后,系统性能在 ROUGE 评价指标上有显著提高。

关 键 词:文档层次结构  自动文摘  自然语言生成  

Abstractive Summarization Based on Hierarchical Structure
WU Renshou,ZHANG Yifei,WANG Hongling,ZHANG Ying.Abstractive Summarization Based on Hierarchical Structure[J].Journal of Chinese Information Processing,2019,33(10):90-98.
Authors:WU Renshou  ZHANG Yifei  WANG Hongling  ZHANG Ying
Affiliation:School of Computer Science and Technology, Soochow University, Suzhou, Jiangsu 215006, China
Abstract:Sequence-to-sequence model based on encoder-decoder architecture is the mainstream of generative summarization method at present. However, the traditional encoder cannot effectively encode long document semantically, and ignores the hierarchical structure information of document. To deal with this issue, this paper propose to hierarchically encode the document: firstly, the word-level semantic representation is constructed, and then the sentence-level semantic representation is constructed from the word-level semantic representation. In addition, a semantic fusion unit is proposed to fuse the different levels of representation information as the final document-level representation. The experimental results show that the system performance is significantly improved according to ROUGE evaluation.
Keywords:document hierarchical structure  automatic text summarization  natural language generation  
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号