首页 | 本学科首页   官方微博 | 高级检索  
     

文本自动综述系统的研究与实现
引用本文:郑义,黄萱菁,吴立德.文本自动综述系统的研究与实现[J].计算机研究与发展,2003,40(11):1606-1611.
作者姓名:郑义  黄萱菁  吴立德
作者单位:复旦大学计算机科学与工程系,上海,200433
基金项目:国家自然科学基金(69873011,69935010,60103014),国家“八六三”高技术研究发展计划项目(2001AA114120,2002AA142090),上海市科学技术发展基金(995115005)
摘    要:文本自动综述是自动文摘在多文档上的推广.提出了一种基于统计的文本自动综述方法,并描述了它的实现过程.该方法利用文档内和文档之间段落的语义相关性,实现多文档的自动综述.首先对文本进行分段实现信息分割;再对文本段进行聚类实现信息凝聚;最后抽取代表段产生综述结果实现信息压缩.实验结果表明,该方法是有效的,具有一定的实用价值.

关 键 词:文本自动综述  文本分段  文本聚类  向量空间模型

Research and Implementation of Automatic Multi-Document Summarization System
ZHENG Yi,HUANG Xuan-Jing,and WU Li-De.Research and Implementation of Automatic Multi-Document Summarization System[J].Journal of Computer Research and Development,2003,40(11):1606-1611.
Authors:ZHENG Yi  HUANG Xuan-Jing  and WU Li-De
Abstract:Automatic multi-document summarization is an outgrowth of single document summarization. A statistical approach to multi-document summarization is presented. It utilizes the semantic relevance between segments of documents. Text-tiling algorithm is implemented to break documents into semantic relevant segments. These segments are merged into some topic classes according to the semantic similarity by using clustering algorithm. The representative segments are extracted from topic classes to form the summarization result. By using real Chinese corpus, experimental results show the system' s effectiveness and suitability.
Keywords:multi-document summarization  text segmentation  text clustering  VSM
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号