首页 | 本学科首页   官方微博 | 高级检索  
     

基于向量空间模型的文本分类系统的研究与实现
引用本文:陈治纲,何丕廉,孙越恒,郑小慎.基于向量空间模型的文本分类系统的研究与实现[J].中文信息学报,2005,19(1):37-42.
作者姓名:陈治纲  何丕廉  孙越恒  郑小慎
作者单位:天津大学电子信息工程学院,天津 300072
摘    要:文本分类是信息处理的一个重要的研究课题,它可以有效的解决信息杂乱的现象并有助于定位所需的信息。本文综合考虑了频度、分散度和集中度等几项测试指标,提出了一种新的特征抽取算法,克服了传统的从单一或片面的测试指标进行特征抽取所造成的特征“过度拟合”问题,并基于此实现了二级分类模式的文本分类系统。和类中心分类法相比,实验结果表明二级分类模式具有较高的精度和召回率。

关 键 词:计算机应用  中文信息处理  文本分类  测试指标  特征抽取  二级分类模式  
文章编号:1003-0077(2005)01-0036-06
修稿时间:2004年5月21日

Research and Implementation of Text Classification System Based on VSP
CHEN Zhi-gang,HE Pi-lian,SUN Yue-heng,ZHENG Xiao-shen.Research and Implementation of Text Classification System Based on VSP[J].Journal of Chinese Information Processing,2005,19(1):37-42.
Authors:CHEN Zhi-gang  HE Pi-lian  SUN Yue-heng  ZHENG Xiao-shen
Affiliation:School of Electronic Information Engineering ,Tianjin University ,Tianjin 300072 ,China
Abstract:Text classification is an important research task of natural language processing , which can efficiently resolve the issue of information chaos and help to locate the required information. The traditional approaches of text classification commonly extract feature terms from a single test criterion , which will lead to the problemof“over fitting”. This paper comprehensively takes test criterions such as frequency , distribution and concentration into account and proposes a new arithmetic of feature extraction and implements text classification systemwith two-level mode. The experimental results show that two-level classification mode has higher classification precision and recall compared with center classification method.
Keywords:computer application  Chinese information processing  text classification  test criterion  feature extraction  two-level classification mode
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号