首页 | 本学科首页   官方微博 | 高级检索  
     

一种改进的K近邻算法在网页分类中的应用
引用本文:刘锋,白凡.一种改进的K近邻算法在网页分类中的应用[J].电子技术,2010,47(7):30-31.
作者姓名:刘锋  白凡
作者单位:安徽大学计算机科学与技术学院
基金项目:安徽省自然基金项目"无可信第三方的安全电子投票协议",安徽高校省级重点自然科学研究项目(KJ2007A43)"基于安全多方计算的电子投票研究" 
摘    要:K近邻(k-Nearest Neighbor)算法是进行分类时最常用的文本分类算法,基本的K近邻算法是基于余弦向量距离计算相似度,由于特证词权值的计算采用的是TF-IDF方法,使得该算法在文本分类中对于噪声特征非常敏感,本文针对这一问题,提出在网页分类的领域中,根据网页文章的特性,考虑特征词出现不同位置,改进相似度的计算公式,实验证明,提高了分类的准确性。

关 键 词:K近邻  网页分类  相似度

Application of an Improved K-Nearest Neighbor Algorithm in Web Page Classification
Liu Feng,Bai Fan.Application of an Improved K-Nearest Neighbor Algorithm in Web Page Classification[J].Electronic Technology,2010,47(7):30-31.
Authors:Liu Feng  Bai Fan
Affiliation:Liu Feng Bai Fan (Institute of Computer Science and Technology,Anhui University)
Abstract:K neighbors (k-Nearest Neighbor) algorithm is the most commonly used text classification algorithm, the basic K-nearest neighbor algorithm is to calculate the similarity based on the cosine vector distance, since the calculation of testimony weight uses the TF-IDF method, which makes the algorithm is very sensitive to the noise characteristics in text classification. Aiming at this issue this article proposes that on the field of the web page classification, according to the characteristics of the web page ...
Keywords:K-nearest neighbor  web page classification  similarity  
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号