首页 | 本学科首页   官方微博 | 高级检索  
     

一种基于粗糙集的Web文本分类方法
引用本文:阚言东,倪茂树,刘国庆. 一种基于粗糙集的Web文本分类方法[J]. 计算机应用与软件, 2009, 26(8): 153-155,170
作者姓名:阚言东  倪茂树  刘国庆
作者单位:1. 南京工业大学信息科学与工程学院,江苏,南京,210009
2. 大连理工大学计算机科学与工程系,辽宁,大连,116024
3. 南京工业大学理学院,江苏,南京,210009
摘    要:随着Web信息容量迅速膨胀,对Web文本分类已经是目前研究的热点.传统的Web文本分类对网页的预处理基本上没有考虑网页中的大量噪音,因此对分类结果有一定的影响;另一方面,文本的向量空间模型维数过高,对分类效果也存在很大的影响.提出一种基于粗糙集理论的Web文本分类方法,首先对网页进行去噪,然后对向量空间模型进行属性约简,之后构造分类器,实验表明,此方法不仅降低了维数,还提高了分类结果.

关 键 词:文本分类  噪音  向量空间模型  粗糙集

ON WEB TEXT CATEGORIZATION BASED ON ROUGH SET THEORY
Kan Yandong,Ni Maoshu,Liu Guoqing. ON WEB TEXT CATEGORIZATION BASED ON ROUGH SET THEORY[J]. Computer Applications and Software, 2009, 26(8): 153-155,170
Authors:Kan Yandong  Ni Maoshu  Liu Guoqing
Affiliation:College of Information Science and Engineering;Nanjing University of Technology;Nanjing 210090;Jiangsu;China;Department of Computer Science and Engineering;Dalian University of Technology;Dalian 116024;Liaoning;China;College of Sciences;Nanjing 210009;China
Abstract:Along with the quick expanding of the capacities of web information,nowadays web text categorization has been a heating topic.Traditional web text categorization does not consider eliminating huge noises in web pages basically when preprocessing,which impacts the categorization result to some extent.And on the other hand,too high dimensions in the vector space of text affect the categorization result a lot as well.This paper presents a method of web text categorization based on rough set theory.First,the we...
Keywords:Text categorization Noise Vector space model Rough set  
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号