首页 | 本学科首页   官方微博 | 高级检索  
     

基于HowNet的VSM模型扩展在文本分类中的应用研究
引用本文:孙宏纲,陆余良,刘金红,龚笔宏.基于HowNet的VSM模型扩展在文本分类中的应用研究[J].中文信息学报,2007,21(6):101-108.
作者姓名:孙宏纲  陆余良  刘金红  龚笔宏
作者单位:1. 合肥电子工程学院604教研室,安徽 合肥 230037;
2. 北京大学 网络与分布式实验室,北京 100871
摘    要:在采用VSM模型进行文本分类时,如果特征向量维数相差悬殊,会给分类结果产生很大负面影响。为了解决这一问题,本文引入了特征向量扩展的思想,同时定义了有效原始信息浓度的概念。特征向量扩展以HowNet语义词典为依据,对高维和低维特征向量采用不同的扩展策略,从而减小了不同类别语料间有效原始信息浓度的差值,进而改善复杂语料的分类结果。实验表明该方法在复杂语料情况下,通过对特征向量进行HowNet语义扩展,可以较好的改善分类结果。

关 键 词:计算机应用  中文信息处理  HowNet    VSM模型    文本分类  
文章编号:1003-0077(2007)06-0101-08
收稿时间:2007-04-24
修稿时间:2007-06-28

A Study of the Application of VSM Expansion in Text Categorization Based on HowNet
SUN Hong-gang,LU Yu-liang,LIU Jin-hong,GONG Bi-hong.A Study of the Application of VSM Expansion in Text Categorization Based on HowNet[J].Journal of Chinese Information Processing,2007,21(6):101-108.
Authors:SUN Hong-gang  LU Yu-liang  LIU Jin-hong  GONG Bi-hong
Affiliation:1. Dept. of Network Engineering, PLA Electronic Engineering Institute, Hefei,Anhui 230037;
   2. Computer Network and Distributed System Laboratory, Peking University, Beijing 100871
Abstract:The disproportion of dimensions of class vectors brings troubles to text categorization by VSM,so we introduce the idea of vector expansion and define the Concentration of Effective Original Information(CEOInfo)to resolve the problem.Based on HowNet,which is a semantic dictionary,we use different expanding strategies for vectors of high dimensions and low dimensions.This method reduces the margin of CEOInfo among different classes.The experiment shows that the precision of categorization is enhanced by VSM expansion based on HowNet under the condition of the disproportion of dimensions of class vectors.
Keywords:HowNet
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号