首页 | 本学科首页   官方微博 | 高级检索  
     

基于信息增益的中文文本关联分类
引用本文:陈志雄,陈健,闵华清.基于信息增益的中文文本关联分类[J].中文信息学报,2007,21(3):61-68.
作者姓名:陈志雄  陈健  闵华清
作者单位:1. 华南理工大学 计算机软件学院, 广东 广州 510006;
2. 嘉应学院 电子信息工程系, 广东 梅州 514015
基金项目:国家自然科学基金;国家科技计划专项;广东省自然科学基金;广东省科技计划;高等学校博士学科点专项科研项目;华南理工大学校科研和教改项目;学生研究计划
摘    要:关联分类是一种通过挖掘训练集中的关联规则,并利用这些规则预测新数据类属性的分类技术。最近的研究表明,关联分类取得了比传统的分类方法如C4.5更高的准确率。现有的基于支持度-置信度架构的关联分类方法仅仅是选择频繁文字构建分类规则,忽略了文字的分类有效性。本文提出一种新的ACIG算法,结合信息增益与FoilGain在中文文本中选择规则的文字,以提高文字的分类有效性。实验结果表明,ACIG算法比其他关联分类算法(CPAR)有更高的准确率。

关 键 词:计算机应用  中文信息处理  信息增益  关联分类  文本分类  
文章编号:1003-0077(2007)03-0061-08
收稿时间:2006-09-29
修稿时间:2007-01-09

Chinese Text Based on Information Gain by Associative Classification
CHEN Zhi-xiong,CHEN Jian,MIN Hua-qing.Chinese Text Based on Information Gain by Associative Classification[J].Journal of Chinese Information Processing,2007,21(3):61-68.
Authors:CHEN Zhi-xiong  CHEN Jian  MIN Hua-qing
Affiliation:1. School of Software Engineering, South China University of Technology, Guangzhou, Guangdong 510006, China;
2. Department of Electronic and Information Engineering, Jiaying University, Meizhou, Guangdong 514015, China
Abstract:Associative classification,which uses association rules in training set to predict the class label for new data object,has been recently reported to achieve higher accuracy than traditional classification approaches like C4.5.The exiting works which are based on support-confidence framework only select the frequent literals to construct classification rules,ignoring the contribution of literals' classificatory effects.In this paper,a novel associative classification algorithm,named ACIG,is proposed to integrate the effect of information gain and FoilGain for selecting the literals of rules from Chinese text,in order to improve the qualities of literals.Our experimental results show that ACIG outperform other associative classification approach(CPAR) on accuracy.
Keywords:computer application  Chinese information processing  information gain  associative classification  text categorization
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号