首页 | 本学科首页   官方微博 | 高级检索  
     

基于投影寻踪的中文网页分类算法
引用本文:万中英,王明文,廖海波.基于投影寻踪的中文网页分类算法[J].中文信息学报,2005,19(4):61-68.
作者姓名:万中英  王明文  廖海波
作者单位:1. 江西师范大学 物理与通信电子学院,江西南昌 330027 ;2. 江西师范大学 计算机信息工程学院,江西南昌 330027
基金项目:教育部科学技术研究项目,江西省自然科学基金,江西师范大学校科研和教改项目
摘    要:随着Web 信息迅猛发展,网络用户对网页自动分类器的需求日益增长。为了提高分类精度,本文提出了一种新的基于投影寻踪(Projection Pursuit , 简称PP) 的中文网页分类算法。我们首先利用遗传算法找到一个最好的投影方向,然后将已被表示成为n 维向量的网页投影到一维空间。最后采用KNN 分类算法对其进行分类。此方法能解决“维数灾难”问题。实验结果表明,我们提出的算法是可行而且是有效的。

关 键 词:计算机应用  中文信息处理  投影寻踪  网页分类  遗传算法  KNN  算法  
文章编号:1003-0077(2005)04-0060-08
修稿时间:2004年7月4日

Chinese Web-page Classification Based on Projection Pursuit
WAN Zhong-ying,WANG Ming-wen,LIAO Hai-bo.Chinese Web-page Classification Based on Projection Pursuit[J].Journal of Chinese Information Processing,2005,19(4):61-68.
Authors:WAN Zhong-ying  WANG Ming-wen  LIAO Hai-bo
Affiliation:1.School of Physics and Communication Electron , Jiangxi Normal University ,Nanchang ,Jiangxi 330027 ,China ;2. School of Computer Information Engineering , Jiangxi Normal University ,Nanchang ,Jiangxi 330027 ,China
Abstract:With the rapid growth of the World Wide Web (www), there is an increasing need to provide automated classifier to Web users for Web page classification and categorization. In this paper, we propose a new Web-page classification algorithm based on projection pursuit for improving the accuracy. We first seek the best projection direction using the genetic algorithm, and the Web-document (represent by n-dimension vector) is projected to One-dimension space. Then classify the Web-document using classical KNN (k-nearest neighbor) algorithm. This method can overcome the curse of dimensionality. Experimental results show that our proposed algorithm is feasibility and effectiveness.
Keywords:computer application  Chinese information processing  projection pursuit  Webpages classification  genetic algorithm  KNN algorithm
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号