首页 | 本学科首页   官方微博 | 高级检索  
     

一种改进的KNN Web文本分类方法
引用本文:吴春颖,王士同. 一种改进的KNN Web文本分类方法[J]. 计算机应用研究, 2008, 25(11): 3275-3277
作者姓名:吴春颖  王士同
作者单位:江南大学,信息工程学院,江苏,无锡,214122;江南大学,信息工程学院,江苏,无锡,214122
基金项目:国家自然科学基金资助项目(60773206)
摘    要:KNN方法存在两个不足:a)计算量巨大,它要求计算未知文本与所有训练样本间的相似度进而得到k个最近邻样本;b)当类别间有较多共性,即训练样本间有较多特征交叉现象时,KNN分类的精度将下降。针对这两个问题,提出了一种改进的KNN方法,该方法先通过Rocchio分类快速得到k0个最有可能的候选类别;然后在k0个类别训练文档中抽取部分代表样本采用KNN算法;最后由一种改进的相似度计算方法决定最终的文本所属类别。实验表明,改进的KNN方法在Web文本分类中能够获得较好的分类效果。

关 键 词:Web文本分类  K最近邻  快速分类

Improved KNN Web text classification method
WU Chun ying,WANG Shi tong. Improved KNN Web text classification method[J]. Application Research of Computers, 2008, 25(11): 3275-3277
Authors:WU Chun ying  WANG Shi tong
Affiliation:School of Information Engineering;Jiangnan University;Wuxi Jiangsu 214122;China
Abstract:KNN method not only has large computational demands,because it must compute the similarity between unlabeled text and all training texts;but also may decrease the precision of classification because of the commonness of classes.This paper presented an improved KNN method,which solved two problems mentioned above.It firstly got the most k0 classes fast by Rocchio method,and then used KNN arithmetic in some representative training texts of the classes,at last assigned class by an improved similar arithmetic i...
Keywords:Web text classification   KNN(K nearest neighbor)   fast classification
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《计算机应用研究》浏览原始摘要信息
点击此处可从《计算机应用研究》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号