首页 | 本学科首页   官方微博 | 高级检索  
     

基于交叉覆盖算法的中文文本分类
引用本文:刘政怡,龚建成,吴建国. 基于交叉覆盖算法的中文文本分类[J]. 计算机工程, 2006, 32(19): 183-184
作者姓名:刘政怡  龚建成  吴建国
作者单位:1. 安徽大学计算智能与信号处理教育部重点实验室,合肥,230039
2. 安徽工程科技学院机械工程系,芜湖,241000
基金项目:安徽省高校青年教师科研项目
摘    要:基于向量空间模型的文本分类过程中遇到的最大问题就是以词为特征项的向量维数太大,需要进行特征选取,而交叉覆盖算法的输入集是n维欧式空间的点集,可以忽略维数的大小,从而最大程度上精确地表示文本,然后再进行分类,能够大大提高正确率。将交叉覆盖算法作为一种分类算法来进行中文文本分类,取得了不错的效果,在封闭测试中的准确率达到98.32%。

关 键 词:文本分类  交叉覆盖算法  中文信息处理
文章编号:1000-3428(2006)19-0183-02
收稿时间:2005-11-20
修稿时间:2005-11-20

Chinese Text Categorization Based on Alternative Covering Algorithm
LIU Zhengyi,GONG Jiancheng,WU Jianguo. Chinese Text Categorization Based on Alternative Covering Algorithm[J]. Computer Engineering, 2006, 32(19): 183-184
Authors:LIU Zhengyi  GONG Jiancheng  WU Jianguo
Affiliation:(1. Key Laboratory of Intelligent Computing & Signal Processing, Ministry of Education, Anhui University, Hefei 230039; 2. Department of Mechanical Engineering, Anhui University of Technology and Science, Wuhu 241000)
Abstract:During text categorization based on VSM, too large vector dimension becomes the most important problem, this vector regard word as feature selection vector. As the input of alternative covering algorithm is point sets distributed in the n-dimension space, it can ignore the size of dimension, express text in the most precision and improve precision of text categorization. This paper introduces alternative covering algorithm to categorize Chinese texts, good effects are obtained and exactness reaches 98.32% in close tests.
Keywords:Text categorization   Alternative covering algorithm   Chinese information processing
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《计算机工程》浏览原始摘要信息
点击此处可从《计算机工程》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号