首页 | 本学科首页   官方微博 | 高级检索  
     

基于随机森林的文本分类并行化
引用本文:彭徵,王灵矫,郭华.基于随机森林的文本分类并行化[J].计算机科学,2018,45(12):148-152.
作者姓名:彭徵  王灵矫  郭华
作者单位:湘潭大学信息工程学院 湖南 湘潭411105,湘潭大学信息工程学院 湖南 湘潭411105,湘潭大学信息工程学院 湖南 湘潭411105
摘    要:文本分类是信息检索的核心技术。传统的文本分类系统由于单机的计算与存储能力有限,已经不适用于大数据时代。在Spark大数据平台上并行地运行算法对文本进行分类,以数据和任务的并行化来提高算法的效率具有现实性和紧迫性。文中提出了改进的不平衡数据随机森林算法,通过对训练样本的多数类进行欠取样且对少数类进行有放回取样从而形成新训练样本的方法来减少不平衡数据对随机森林的影响。实验结果表明,新算法在处理不平衡数据集上的少数类时提高了分类的正确率。

关 键 词:文本分类  Spark  随机森林  不平衡数据  并行化
收稿时间:2017/10/22 0:00:00
修稿时间:2018/1/28 0:00:00

Parallel Text Categorization of Random Forest
PENG Zheng,WANG Ling-jiao and GUO Hua.Parallel Text Categorization of Random Forest[J].Computer Science,2018,45(12):148-152.
Authors:PENG Zheng  WANG Ling-jiao and GUO Hua
Affiliation:The College of Information Engineering,Xiangtan University,Xiangtan,Hunan 411105,China,The College of Information Engineering,Xiangtan University,Xiangtan,Hunan 411105,China and The College of Information Engineering,Xiangtan University,Xiangtan,Hunan 411105,China
Abstract:
Keywords:Text categorization  Spark  Random forest  Imbalanced data  Parallelization
点击此处可从《计算机科学》浏览原始摘要信息
点击此处可从《计算机科学》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号