首页 | 本学科首页   官方微博 | 高级检索  
     

一种基于向量空间模型的文本分类方法
引用本文:李雪蕾,张冬茉.一种基于向量空间模型的文本分类方法[J].计算机工程,2003,29(17):90-92.
作者姓名:李雪蕾  张冬茉
作者单位:上海交通大学计算机系,上海,200030
摘    要:介绍的文本分类是指在给定分类体系下,根据文本的内容自动确定文本类别的过程。通过分析网页的特点及因特网用户感兴趣的查询信息,提出了一种基于机器学习的、独立于语种的文本分类模型。这一模型的关键算法主要利用字间的相关信息、词频、页面的标记信息以及对用户的查询信息的浅层语义分析,提取网页特征,并计算可调的词频加权参数和增加特征词的可分性信息,然后通过本类和非本类训练,建立预定义类的特征向量空间,进一步对文本进行分类。这种分类方法在相似文本分类中具有明显的优势。

关 键 词:文本分类  超文本描述语言  可分性判据  层次分类
文章编号:1000-3428(2003)17-0090-03
修稿时间:2002年9月16日

A Text Categorization Method Based on VSM
LI Xuelei,ZHANG Dongmo.A Text Categorization Method Based on VSM[J].Computer Engineering,2003,29(17):90-92.
Authors:LI Xuelei  ZHANG Dongmo
Abstract:In this paper, text categorization is defined as the task of assigning pre-defined category labels to new document. Through analysis of the characteristics of home pages on the Internet and questions of the Internet users, a language-independent text categorization model based on machine learning is proposed. This method correlates the text characters, the term frequency, the hypertext markup language tag information in the home pages, and semantic analysis for the question sentences to calculate an adjustable term frequency weighting parameter and to increase the separability of feature words vector. A vector space is built using both in-set and out-set sample training and a new document is categorized based on this. This method has obvious advantages especially in similar text categorization.
Keywords:Text categorization  Hypertext markup language (HTML)  Separable criterion  Hierarchically categorization
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号