首页 | 本学科首页   官方微博 | 高级检索  
     

基于向量空间模型的多主题Web文本分类方法*
引用本文:周炎涛,唐剑波,吴正国.基于向量空间模型的多主题Web文本分类方法*[J].计算机应用研究,2008,25(1):142-144.
作者姓名:周炎涛  唐剑波  吴正国
作者单位:1. 湖南大学,计算机与通信学院,长沙,410082;海军工程大学,信息与电气学院,武汉,430033
2. 湖南大学,计算机与通信学院,长沙,410082
3. 海军工程大学,信息与电气学院,武汉,430033
摘    要:对给定的网页,提取其特征向量,计算网页特征向量与分类特征向量的相似度,使用K-means聚类方法寻找归属类得到动态阈值,提出了一种基于动态阈值的向量空间模型多主题Web文本分类方法.该方法通过网页与每个类的相似度和动态阈值的比较,实现了将包含多个主题的网页划分到相应的多个类中.实验证明,这种方法具有较好的精确度和召回率.

关 键 词:向量空间模型  文本分类  多主题  数据挖掘
文章编号:1001-3695(2008)01-0142-03
收稿时间:2006-10-30
修稿时间:2006-12-31

Method of multi topic Web text classification based on VSM
ZHOU Yan tao,TANG Jian bo,WU Zheng guo.Method of multi topic Web text classification based on VSM[J].Application Research of Computers,2008,25(1):142-144.
Authors:ZHOU Yan tao  TANG Jian bo  WU Zheng guo
Abstract:Withdrawing characteristic vectors for a given Web page,calculating the similarities of the page characteristic vectors with classification characteristic vectors, getting dynamic thresholds through using K-means clustered methods and looking for result classifications, this paper proposed a multi-topic Web text classification method of vector space model based on dynamic threshold. Through comparing the value of every classification similarity with dynamic threshold, classifyed the multitopic texts of a Web page to several different text classifications. The simulating experiments verify the good accuracy and better recalling with this method.
Keywords:VSM  text classification  multi-topic  data mining
本文献已被 维普 万方数据 等数据库收录!
点击此处可从《计算机应用研究》浏览原始摘要信息
点击此处可从《计算机应用研究》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号