基于随机森林的文本分类并行化 Parallel Text Categorization of Random Forest期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于随机森林的文本分类并行化

引用本文：	彭徵,王灵矫,郭华.基于随机森林的文本分类并行化[J].计算机科学,2018,45(12):148-152.

作者姓名：	彭徵王灵矫郭华

作者单位：	湘潭大学信息工程学院湖南湘潭411105,湘潭大学信息工程学院湖南湘潭411105,湘潭大学信息工程学院湖南湘潭411105

摘要：	文本分类是信息检索的核心技术。传统的文本分类系统由于单机的计算与存储能力有限,已经不适用于大数据时代。在Spark大数据平台上并行地运行算法对文本进行分类,以数据和任务的并行化来提高算法的效率具有现实性和紧迫性。文中提出了改进的不平衡数据随机森林算法,通过对训练样本的多数类进行欠取样且对少数类进行有放回取样从而形成新训练样本的方法来减少不平衡数据对随机森林的影响。实验结果表明,新算法在处理不平衡数据集上的少数类时提高了分类的正确率。
关键词：	文本分类 Spark 随机森林不平衡数据并行化
收稿时间：	2017/10/22 0:00:00
修稿时间：	2018/1/28 0:00:00
Parallel Text Categorization of Random Forest

PENG Zheng,WANG Ling-jiao and GUO Hua.Parallel Text Categorization of Random Forest[J].Computer Science,2018,45(12):148-152.

Authors:	PENG Zheng WANG Ling-jiao and GUO Hua

Affiliation:	The College of Information Engineering,Xiangtan University,Xiangtan,Hunan 411105,China,The College of Information Engineering,Xiangtan University,Xiangtan,Hunan 411105,China and The College of Information Engineering,Xiangtan University,Xiangtan,Hunan 411105,China

Abstract:

Keywords:	Text categorization Spark Random forest Imbalanced data Parallelization

	点击此处可从《计算机科学》浏览原始摘要信息
	点击此处可从《计算机科学》下载全文

设为首页 | 免责声明 | 关于勤云 | 加入收藏