首页 | 本学科首页   官方微博 | 高级检索  
     

基于分类规则树的频繁模式文本分类
引用本文:陈晓云,陈袆,王雷,李荣陆,胡运发.基于分类规则树的频繁模式文本分类[J].软件学报,2006,17(5):1017-1025.
作者姓名:陈晓云  陈袆  王雷  李荣陆  胡运发
作者单位:1. 复旦大学,计算机与信息技术系,上海,200433;福州大学,数学与计算机科学学院,福建,福州,350002
2. 复旦大学,计算机与信息技术系,上海,200433
基金项目:中国科学院资助项目;福建省教育厅科研项目
摘    要:基于频繁模式的关联分类是近年来出现的一种分类方法,该方法利用各类别频繁出现的模式构造分类规则,并对新文本进行分类.但现有关联分类方法应用于文本分类时存在两方面不足:一方面,用以构造分类规则的频繁模式仅考虑特征词在文本中出现与否,从而忽视了出现频度;另一方面,当产生的规则数量较多时,为提高分类效率需要进行规则修剪,修剪后的分类准确性明显降低.为此,提出了基于分类规则树的带词频的频繁模式文本分类方法.研究结果表明,词频的引入可以提高关联分类的准确率;而采用分类规则树可使分类时间明显加快又确保不降低分类质量.这两方面的措施弥补了现有关联分类应用于文本分类的不足.与3种典型文本分类方法比较后发现,在低维特征空间中,关联分类的性能优于Bayes,kNN(k nearest neighbor)和SVM(support vectormachines),因此是一种很有应用前景的文本分类方法.

关 键 词:频繁模式  文本分类  词频  关联规则  分类规则
收稿时间:2004-04-15
修稿时间:5/8/2005 12:00:00 AM

Text Categorization Based on Classification Rules Tree by Frequent Patterns
CHEN Xiao-Yun,CHEN Yi,WANG Lei,LI Rong-Lu and HU Yun-Fa.Text Categorization Based on Classification Rules Tree by Frequent Patterns[J].Journal of Software,2006,17(5):1017-1025.
Authors:CHEN Xiao-Yun  CHEN Yi  WANG Lei  LI Rong-Lu and HU Yun-Fa
Affiliation:1.Department of Computer and Information Technology, Fudan University, Shanghai 200433, China; 2.School of Mathematics and Computer Science, Fuzhou University, Fuzhou 350002, China
Abstract:
Keywords:frequent pattern  text categorization  term frequency  association rule  classification rule
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《软件学报》浏览原始摘要信息
点击此处可从《软件学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号