首页 | 本学科首页   官方微博 | 高级检索  
     

一种面向自动文本摘要特征评价的新方法
引用本文:王大亮,孙建涛,陆玉昌,夏克俭.一种面向自动文本摘要特征评价的新方法[J].计算机工程与应用,2004,40(33):176-178,183.
作者姓名:王大亮  孙建涛  陆玉昌  夏克俭
作者单位:清华大学国家智能技术与系统实验室,北京,100084
基金项目:国家自然科学基金重大项目(编号:79990584),国家973基础研究规划项目(编号:G1998030414)资助
摘    要:自动文本的特征评价方法的研究一直未受到研究者们的重视。以往只是简单地将面向文本集的TF.IDF特征评价方法应用于针对单文本的自动文摘领域,该方法无法排除低频词噪音的影响,特征评价存在明显误差,致使不能准确计算文本特征。文章引入信息熵,提出了针对单文本的特征评价方法TF.IDF.H。实验表明,新的特征评价方法能够准确获得文章主题特征,更好地改善文摘质量。

关 键 词:自动文摘  文本挖掘  特征评价  信息熵
文章编号:1002-8331-(2004)33-0176-03

A New Feature Evaluation Method for Automatic Text Summarization
Wang Daliang Sun Jiantao Lu Yuchang Xia Kejian.A New Feature Evaluation Method for Automatic Text Summarization[J].Computer Engineering and Applications,2004,40(33):176-178,183.
Authors:Wang Daliang Sun Jiantao Lu Yuchang Xia Kejian
Abstract:Most researchers have not paid enough attention to the study of feature extraction in automatic text summarization.Before,the TF.IDF method is directly applied for text summarization,which isn't able to dispose of the noise impact of low-frequency word and results in obvious errors.In this paper,information entropy is introduced for feature evaluation and a new method(TF.IDF.H)is proposed to evaluate the features for single-document summarization.Experiments results indicate that the approaches proposed are able to evaluate exactly relevant features and lead to summarization quality improvements.
Keywords:automatic text summarization  text mining  feature evaluation  information entropy
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号