首页 | 本学科首页   官方微博 | 高级检索  
     

基于非平衡数据分类的单文档自动文摘方法
引用本文:倪维健,刘彤,曾庆田,赵华,汤建渝.基于非平衡数据分类的单文档自动文摘方法[J].计算机工程与科学,2012,34(4):162-166.
作者姓名:倪维健  刘彤  曾庆田  赵华  汤建渝
作者单位:山东科技大学信息科学与工程学院,山东青岛,266510
基金项目:国家自然科学基金资助项目(61170079);山东省统计科研重点课题资助项目(KT11017);山东科技大学春蕾计划资助项目(2010AZZ179);山东科技大学杰出青年基金资助项目(2010KYJQ101);山东省优秀中青年科学家奖励基金资助项目(BS2009DX004);青岛市公共领域科技支撑计划资助项目(10-3-3-32-nsh);中国博士后基金资助项目(2011M501155)
摘    要:自动文摘是自然语言处理领域的一个重要研究话题,基于机器学习的自动文摘方法则是该项研究中的一个热点。然而,自动文摘问题中的数据分布有一个重要现象,即文摘句子与非文摘句子的数量相差非常悬殊,该现象将给传统机器学习算法的应用效果带来负面影响。为此,本文针对自动文摘中句子类别分布严重不平衡这一现象,以支持向量机算法为基础,设计了两种有效的处理非平衡自动文摘数据的分类方法。在第一种方法中,将传统支持向量机中正负类平衡的分类间隔转换为不平衡的分类间隔;在第二种方法中,通过将数据集进行切分,设计了一种支持向量机集成学习算法。通过在DUC2001数据集上的实验证明,本文设计的两种基于非平衡数据分类的单文档自动文摘方法显著优于基于传统分类算法的自动文摘方法。

关 键 词:非平衡数据分类  自动摘要  支持向量机  分类间隔  分类器集成

Imbalanced Classification Approaches to Automatic Single-Document Summarization
NI Wei-jian , LIU Tong , ZENG Qing-tian , ZHAO Hua , TANG Jian-yu.Imbalanced Classification Approaches to Automatic Single-Document Summarization[J].Computer Engineering & Science,2012,34(4):162-166.
Authors:NI Wei-jian  LIU Tong  ZENG Qing-tian  ZHAO Hua  TANG Jian-yu
Affiliation:(School of Information Science and Engineering,Shandong University of Science and Technology,Qingdao 266510,China)
Abstract:Machine learning based automatic document summarization approaches have drawn increasing attentions in the natural language processing literature.However,neither of them takes the imbalanced class distribution in automatic document summarization into account,i.e.,the number of the sentences in summary is much fewer than that of in the whole document.It is obvious that the highly imbalanced data distribution will degrade the effectiveness of the conventional machine learning algorithms.This paper addresses the problem of automatic document summarization from a perspective of imbalanced classification and proposes two learning strategies to deal with the highly imbalanced distributed data in automatic single-document summarization effectively.The experimental results on the DUC 2001 data set show the significant performance improvements of our approaches in terms of F1 and ROUGH-2.
Keywords:imbalanced classification  automatic document summarization  SVM  margin  b agging
本文献已被 CNKI 万方数据 等数据库收录!
点击此处可从《计算机工程与科学》浏览原始摘要信息
点击此处可从《计算机工程与科学》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号