首页 | 本学科首页   官方微博 | 高级检索  
     

一种文本分类的在线SVM学习算法
引用本文:代六玲,黄河燕,陈肇雄. 一种文本分类的在线SVM学习算法[J]. 中文信息学报, 2005, 19(5): 13-15,23
作者姓名:代六玲  黄河燕  陈肇雄
作者单位:1. 北京理工大学软件学院,北京 100081 ; 2. 中国科学院计算机语言信息工程研究中心,北京 100083
摘    要:本文提出了一种用于文本分类的RBF 支持向量机在线学习算法。利用RBF 核函数的局部性,该算法仅对新训练样本的某一大小邻域内且位于“可能带”中的训练样本集进行重新训练,以实现对现有SVM的更新。为高效的实现该邻域大小的自适应确定,使用ξa 泛化错误估计在所有现有训练样本集上对当前SVM的泛化错误进行定性估计。同时引入泛化能力进化因子,使得结果SVM在分类效果上具有自动调整能力,并防止分类能力的退化。在TREC - 5 真实语料上的对比测试结果表明,该算法显著地加速了增量学习的过程而同时保证结果SVM的分类效果。

关 键 词:计算机应用  中文信息处理:文本分类  在线学习  增量学习  支持向量机  SMO  
文章编号:1003-0077(2005)05-0011-05
收稿时间:2004-07-06
修稿时间:2004-07-062005-04-27

An On-line Learning Algorithm for Text Categorization with Support Vector Machines
DAI Liu-ling,HUANG He-yan,CHEN Zhao-xiong. An On-line Learning Algorithm for Text Categorization with Support Vector Machines[J]. Journal of Chinese Information Processing, 2005, 19(5): 13-15,23
Authors:DAI Liu-ling  HUANG He-yan  CHEN Zhao-xiong
Affiliation:1.Software Institute , BIT, Beijing 100081 , China ;2.Language Information Engineering , CAS , Beijing 100083 , China
Abstract:This paper suggests an on-line incremental learning algorithm based on RBF SVMs for text categorization problem. By exploiting the locality of RBF kennels , our algorithm updates current SVM using a subset of possible support candidates both in certain neighborhood of the new coming document and in a possible band. The size of subset is decided adaptively and efficiently by using ofξa generation error estimator on all the available training samples to qualitatively estimate the generation error rate. We also use an evolutionary factor of generation ability to make resulting SVMs adaptive on classifying precision and guarantee the generation ability of them. Comparative experiments on real-life TREC - 5 corpus show that our algorithm can remarkably accelerate the process of incremental learning while retains the classifying precision.
Keywords:SMO
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号