首页 | 本学科首页   官方微博 | 高级检索  
     

结合粗糙集与集成学习的中文文本分类方法研究
引用本文:张翔,周明全,董丽丽,闫清波.结合粗糙集与集成学习的中文文本分类方法研究[J].计算机应用与软件,2011,28(1).
作者姓名:张翔  周明全  董丽丽  闫清波
作者单位:1. 西安建筑科技大学信息与控制工程学院,陕西,西安,710055;西北大学信息科学与技术学院,陕西,西安,710127
2. 北京师范大学信息科学与技术学院,北京,100875
3. 西安建筑科技大学信息与控制工程学院,陕西,西安,710055
基金项目:国家自然科学基金项目(60873094)
摘    要:介绍中文文本分类的流程及相关技术。在分析传统的文本特征选择不足的基础上,提出了基于粗糙集与集成学习结合的文本分类方法,通过粗糙集进行文本的特征选择,采用一种集成学习算法AdaBoost.M1来提高弱分类器的分类性能,对中文文本进行分类。实验证明,这种算法分类结果的F1值比C4.5、kNN分类器都高,具有更加优良的分类性能。

关 键 词:中文文本分类  粗糙集  集成学习  AdaBoost.M1  

ON CHINESE TEXT CATEGORIZATION BASED ON ROUGH SET AND ENSEMBLE LEARNING
Zhang Xiang,Zhou Mingquan,Dong Lili,Yan Qingbo.ON CHINESE TEXT CATEGORIZATION BASED ON ROUGH SET AND ENSEMBLE LEARNING[J].Computer Applications and Software,2011,28(1).
Authors:Zhang Xiang  Zhou Mingquan  Dong Lili  Yan Qingbo
Affiliation:Zhang Xiang1,2 Zhou Mingquan3 Dong Lili1 Yan Qingbo1 1(School of Information and Control Engineering,Xi'an University of Architecture and Technology,Xi'an 710055,Shaanxi,China)2(School of Information Science and Technology,Northwest University,Xi'an 710127,China)3(School of Information Science and Technology,Beijing Normal University,Beijing 100875,China)
Abstract:This paper introduces the flow of Chinese text categorisation and the relevant technologies.A text categorisation approach based on the combination of rough set and ensemble learning is proposed on the basis of analyzing the disadvantage of traditional feature selection,the feature selection of the text is executed through the rough set,and an ensemble learning algorithm AdaBoost.M1 is employed to improve the categorising performance of weak classifier to categorise the Chinese text.Experiment indicates tha...
Keywords:Chinese text categorization Rough set Ensemble learning AdaBoost  M1  
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号