首页 | 本学科首页   官方微博 | 高级检索  
     

基于聚类算法的KNN文本分类算法研究
引用本文:江涛,陈小莉,张玉芳,熊忠阳.基于聚类算法的KNN文本分类算法研究[J].计算机工程与应用,2009,45(7):153-155.
作者姓名:江涛  陈小莉  张玉芳  熊忠阳
作者单位: 
摘    要:KNN算法是一种在人工智能领域如专家系统、数据挖掘、模式识别等方面广泛应用的算法。该算法简单有效,易于实现。但是KNN算法在决定测试样本的类别时,是把所求的该测试样本的K个最近邻是等同看待的,即不考虑这K个最近邻能表达所属类别的程度。由于训练样本的分布是不均匀的,每个样本对分类的贡献也就不一样,因此有必要有区别的对待训练样本集合中的每个样本。利用聚类算法,求出训练样本集合中每个训练样本的隶属度,利用隶属度来区别对待测试样本的K个最近邻。通过实验证明,改进后的KNN算法较好的精确性。

关 键 词:K近邻  隶属度  文本分类
收稿时间:2008-1-21
修稿时间:2008-4-23  

Improved KNN using clustering algorithm
JIANG Tao,CHEN Xiao-li,ZHANG Yu-fang,XIONG Zhong-yang.Improved KNN using clustering algorithm[J].Computer Engineering and Applications,2009,45(7):153-155.
Authors:JIANG Tao  CHEN Xiao-li  ZHANG Yu-fang  XIONG Zhong-yang
Abstract:KNN is of the best text categorization algorithm and is used widely.The uneven distribution in training set will affect categorization result negatively.This paper prsents an improved KNN method and verifies its effectiveness by the experiments.The classification performance is promoted.
Keywords:K-Nearest Neighbour(KNN)  membership degree  text classification
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《计算机工程与应用》浏览原始摘要信息
点击此处可从《计算机工程与应用》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号