一种优化的k-NN文本分类算法 Optimized k-NN Text Categorization Approach期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

一种优化的k-NN文本分类算法

引用本文：	闫鹏,郑雪峰,朱建勇,肖赞泓. 一种优化的k-NN文本分类算法[J]. 计算机科学, 2009, 36(10): 217-221

作者姓名：	闫鹏郑雪峰朱建勇肖赞泓

作者单位：	1. 北京科技大学信息工程学院,北京,100083;国家信息中心,北京100045 2. 北京科技大学信息工程学院,北京,100083 3. 国家信息中心,北京,100045

摘要：	k-NN是经典的文本分类算法之一,在解决概念漂移问题上尤其具有优势,但其运行速度低下的缺点也非常严重,为此它通常借助特征选择降维方法来避免维度灾难、提高运行效率。但特征选择又会引起信息丢失等问题,不利于分类系统整体性能的提高。从文本向量的稀疏性特点出发,对传统的k-NN算法进行了诸多优化。优化算法简化了欧氏距离分类模型,大大降低了系统的运算开销,使运行效率有了质的提高。此外,优化算法还舍弃了特征选择预处理过程,从而可以完全避免因特征选择而引起的诸多不利问题,其分类性能也远远超出了普通k-NN。实验显示,优化算法在性能与效率双方面都有非常优秀的表现,它为传统的k-NN算法注入了新的活力,并可以在解决概念漂移等问题上发挥更大的作用。
关键词：	文本分类特征选择 k-NN分类法概念漂移
收稿时间：	2008-11-06
修稿时间：	2009-07-24
Optimized k-NN Text Categorization Approach

YAN Peng,ZHENG Xue-feng,ZHU Jian-yong,XIAO Yun-hong. Optimized k-NN Text Categorization Approach[J]. Computer Science, 2009, 36(10): 217-221

Authors:	YAN Peng ZHENG Xue-feng ZHU Jian-yong XIAO Yun-hong

Affiliation:	School of Information Engineering;University of Science and Technology Beijing;Beijing 100083;China;The State Information Center;Beijing 100045;China

Abstract:	As one of the most classical TC approaches,k-NN is advantaged in tackling concept drift.However,to avoid curse of dimensionality,it has to employ FS(feature selection)method to reduce dimensionality of feature space and improve operation efficiency.But FS process will generally cause information losing and thus has some side-effects on the whole performance of approach.According to sparsity of text vectors,an optimized k-NN approach was presented in paper.This optimized approach greatly simplified euclidean...

Keywords:	Text categorization Feature selection k-NN Concept drift
本文献已被 CNKI 万方数据等数据库收录！
	点击此处可从《计算机科学》浏览原始摘要信息
	点击此处可从《计算机科学》下载全文

设为首页 | 免责声明 | 关于勤云 | 加入收藏