首页 | 本学科首页   官方微博 | 高级检索  
     

基于K-最近距离的自动文本分类的研究
引用本文:孙健,王伟,钟义信.基于K-最近距离的自动文本分类的研究[J].北京邮电大学学报,2001,24(1):42-46.
作者姓名:孙健  王伟  钟义信
作者单位:北京邮电大学信息工程学院, 北京 100876
基金项目:国家自然科学基金资助项目(69982001)
摘    要:提出并实现了利用统计词频信息和语言信息相结合的方法选择特征,计算特征的权重值时不仅考虑词频,还利用了特征的集中度、分散度.经过训练和统计对每一类文本形成特征的权重向量,利用K-最近距离的方法对测试集进行分类.对英文文本的测试结果表明,该算法提高了文本分类的准确率.

关 键 词:自然语言理解    向量空间模型    K-最近距离    自动文本分类  
文章编号:1007-5321(2001)01-0042-05
收稿时间:2000-09-14
修稿时间:2000年9月14日

Automatic Text Categorization Based on K-Nearest Neighbor
SUN Jian,WANG Wei,ZHONG Yi xin.Automatic Text Categorization Based on K-Nearest Neighbor[J].Journal of Beijing University of Posts and Telecommunications,2001,24(1):42-46.
Authors:SUN Jian  WANG Wei  ZHONG Yi xin
Affiliation:Information Engineering School, Beijing University of Posts and Telecommunications, Beijing 100876, China
Abstract:A method that integrates language information and statisticalinformation from the training corpus is put forward. The weight of these characters is computed from three parameters: word frequency, centralized degree, decentralized degree. After training, we get the vector space model of the text categorization. The classification of the input text is decided by K -nearest-neighbor.The result shows that the method improves the accuracy of the categorization.
Keywords:natural language understanding  vector space model  K-nearest-neighbor  automatic text categorization  
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《北京邮电大学学报》浏览原始摘要信息
点击此处可从《北京邮电大学学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号