首页 | 本学科首页   官方微博 | 高级检索  
     

一种基于C4.5决策树的Web页面分类算法
引用本文:曹薇,张乃洲.一种基于C4.5决策树的Web页面分类算法[J].计算机系统应用,2010,19(10):195-198.
作者姓名:曹薇  张乃洲
作者单位:1. 武汉职业技术学院,计算机学院,湖北,武汉,430074
2. 湖北大学,知行学院,湖北,武汉,430011
摘    要:WEB文本自动分类在很多方面都有着重要的应用,如信息检索,新闻分类等。决策树算法是一种简单并且广泛使用的分类方法,具有很多优点如:分类精度高,分类速度快等。主要研究了运用C4.5决策树构建Web页面分类器的基本方法和过程,并提出了一个基于C4.5决策树的Web页面分类器的框架。在此基础上实现了一个运用于网络爬虫的Web页面分类器,实验结果表明该算法是非常有效的。

关 键 词:WEB文本分类  C4.5决策树  信息论  信息增益率  网络爬虫
收稿时间:3/7/2010 12:00:00 AM
修稿时间:4/9/2010 12:00:00 AM

A C4.5 Decision Tree Based Algorithm for Web Pages Categorization
CAO Wei and ZHANG Nai-Zhou.A C4.5 Decision Tree Based Algorithm for Web Pages Categorization[J].Computer Systems& Applications,2010,19(10):195-198.
Authors:CAO Wei and ZHANG Nai-Zhou
Affiliation:1.Computer College, Wuhan Institute of Technology, Wuhan 430074, China; 2. Zhixing College, Hubei University, Wuhan 430011, China)
Abstract:Web text categorization can be applied to many domains such as information retrieval, news categorization, etc. Decision tree algorithm is a simple method for categorization and has been used extensively. This paper investigates the basic method and process to build a web classifier by means of C4.5 decision tree, which has various merits such as high categorization precision, high categorization speed, etc. Moreover, this paper proposes a C4.5 decision tree based frame of web pages classifier, and implements it on a web crawler. The experimental results show that this algorithm is highly effective.
Keywords:web text categorization  C4  5 decision tree  information theory  information gain ratio  web crawler
本文献已被 维普 万方数据 等数据库收录!
点击此处可从《计算机系统应用》浏览原始摘要信息
点击此处可从《计算机系统应用》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号