首页 | 本学科首页   官方微博 | 高级检索  
     

基于概念统计和语义层次分析的英文自动文摘研究
引用本文:季姮,罗振声,万敏,高小云.基于概念统计和语义层次分析的英文自动文摘研究[J].中文信息学报,2003,17(2):15-21.
作者姓名:季姮  罗振声  万敏  高小云
作者单位:清华大学人文学院计算语言学研究室
基金项目:国家自然科学基金资助项目 (6 9972 0 2 5 )
摘    要:传统的自动文摘方法基于词语统计抽取文摘句,未进行文本的语义分析,导致文摘精度不高。为了克服传统方法的缺点,本文提出了一种基于主题概念的自动文摘方法,以概念统计和层次分析为基础设计并实现了一个英文自动文摘系统。系统利用WordNet以概念统计代替传统的词频统计,基于主题概念构建向量空间模型,计算句子重要度。并且根据主题概念在概念层次树上的分布进行文本结构分析划分意义块,以意义块为单元抽取文摘,初步解决了多主题文章的文摘结构不平衡问题。本文主要介绍了概念层次树的构造,主题概念的抽取步骤,基于主题概念的句子重要度的计算和意义块的划分算法。测试表明,通过概念统计和语义层次分析的方法,我们设计了更理想的向量空间模型,系统生成的文摘精度较高,并更全面地反映了原文的主要内容。

关 键 词:计算机应用  中文信息处理  概念统计  主题概念  向量空间模型  句子重要度  意义块划分  
文章编号:1003-0077(2003)02-0014-07
修稿时间:2002年7月5日

Research on Automatic Summarization Based on Concept Counting and Semantic Hierarchy Analysis for English Texts
JI Heng,LUO Zhen sheng,WAN Min,GAO Xiao yun.Research on Automatic Summarization Based on Concept Counting and Semantic Hierarchy Analysis for English Texts[J].Journal of Chinese Information Processing,2003,17(2):15-21.
Authors:JI Heng  LUO Zhen sheng  WAN Min  GAO Xiao yun
Affiliation:Computational Linguistics Lab ,School of Humanism and Sociology ,Tsinghua University
Abstract:Most of the previous summarizing methods are based on word counting,which misses deep semantic analysis of texts,so the generated abstract is unsatisfying.This paper puts forward a new summarizing method based on concept counting and semantic hierarchy analysis. Based on the extracted topic concepts,an effective English Text Summarizing system is developed. This system uses topic concepts to construct Vector Space Model.The abstract is generated in addition with discourse analysis and readability improvement.This paper proposes the parameters of evaluating topic concepts,and mainly describes the detailed algorithm of building concept hierarchy tree,extracting topic concepts and the applying topic concepts to generate abstracts.The experiment result shows that compared to word counting,this new method has enhanced both the recall rate and the precision rate of the system,and it helps to solve the abstract unbalanced distribution problem of multi topic texts.
Keywords:computer application  Chinese information processing  concept counting  topic concept  vector space model  sentence significance
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号