首页 | 本学科首页   官方微博 | 高级检索  
     

文本摘要常用数据集和方法研究综述
引用本文:侯圣峦,张书涵,费超群.文本摘要常用数据集和方法研究综述[J].中文信息学报,2019,33(5):1-16.
作者姓名:侯圣峦  张书涵  费超群
作者单位:1.中国科学院 计算技术研究所 智能信息处理重点实验室,北京 100190;
2.中国科学院大学,北京 100049
基金项目:国家重点研发计划项目(2016YFB1000902);国家自然科学基金(61232015,21472412,61621003)
摘    要:成为人们从互联网上海量文本信息中便捷获取知识的重要手段。现有方法都是在特定数据集上进行训练和效果评价,包括一些公用数据集和作者自建数据集。已有综述文献对现有方法进行全面细致的总结,但大多都是对方法进行总结,而缺少对数据集的详细描述。该文从调研数据集的角度出发,对文本摘要常用数据集及在该数据集上的经典和最新方法进行综述。对公用数据集的综述包括数据来源、语言及获取方式等,对自建数据集的总结包括数据规模、获取和标注方式等。对于每一种公用数据集,给出了文本摘要问题的形式化定义。同时,对经典和最新方法在特定数据集上的实验效果进行了分析。最后,总结了已有常用数据集和方法的现状,并指出存在的一些问题。

关 键 词:文本摘要  自然语言处理  机器学习  人工智能

A Survey to Text Summarization: Popular Datasets and Methods
HOU Shengluan,ZHANG Shuhan,FEI Chaoqun.A Survey to Text Summarization: Popular Datasets and Methods[J].Journal of Chinese Information Processing,2019,33(5):1-16.
Authors:HOU Shengluan  ZHANG Shuhan  FEI Chaoqun
Affiliation:1.Key Laboratory of Intelligent Information Processing, Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190, China;
2.University of Chinese Academy of Sciences, Beijing 100049, China
Abstract:Text summarization has become an essential way of knowledge acquisition from mass text documents on the Internet. The existing surveys to text summarization are mostly focused on methods, without reviewing on the experimental datasets. This survey concentrates on evaluation datasets and summarizes the public and private datasets together with corresponding approaches. The public datasets are recorded for the data source, language and the way of access, and the private dataset are recorded with the scale, access and annotation methods. In addition, the formal definition of text summarization by each public dataset are provided. We analyze the experimental results of classical and latest text summarization methods on one specific dataset. We conclude with the present situation of existing datasets and methods, and some issues concerning them.
Keywords:text summarization  natural language processing  machine learning  artificial intelligence  
本文献已被 维普 等数据库收录!
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号