首页 | 本学科首页   官方微博 | 高级检索  
     

基于支持向量机的Web文本分类方法
引用本文:牛强,王志晓,陈岱,夏士雄. 基于支持向量机的Web文本分类方法[J]. 微电子学与计算机, 2006, 23(9): 102-104
作者姓名:牛强  王志晓  陈岱  夏士雄
作者单位:中国矿业大学计算机科学与技术学院,江苏,徐州,221008
基金项目:中国矿业大学校科研和教改项目
摘    要:Web文本分类技术是数据挖掘中一个研究热点领域,而支持向量机又是一种高效的分类识别方法,在解决高维模式识别问题中表现出许多特有的优势。文章通过分析Web文本的特点,研究了向量空间模型(VSM)的分类方法和核函数的选取,在此基础上结合决策树方法提出了一种基于决策树支持向量机的Web文本分类模型。并给出具体的算法。通过实验测试表明,该方法训练数据规模大大减少,训练效率较高,同时具有较好的精确率(90.11%)和召回率(89.38%)。

关 键 词:支持向量机  特征提取  Web文本  文本分类
文章编号:1000-7180(2006)09-0102-03
收稿时间:2006-04-22

Web Document Classification Based on SVM
NIU Qiang,WANG Zhi-xiao,CHEN Dai,XIA Shi-xiong. Web Document Classification Based on SVM[J]. Microelectronics & Computer, 2006, 23(9): 102-104
Authors:NIU Qiang  WANG Zhi-xiao  CHEN Dai  XIA Shi-xiong
Abstract:Web document classification has been considered as a hot research area in data mining.SVM is an effective method for learning the classification knowledge from massive data,especially in the situation of high cost in getting labeled classical examples.In this paper,based on the analyses of features of Web documents,this paper does research the approach of classification in Vector Space Model and select of Kernel function.Furthermore,a Web page classification model and algorithm that is based on Decision Tree SVM is presented.The experiments show that it not only reduces the size of train set,but also has very high training efficiency.Its precision(90.11%)and recall(89.38%)are also very good.
Keywords:Support vector machine   Feature selection   Web documents   Text classification
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号