首页 | 本学科首页   官方微博 | 高级检索  
     

Hadoop平台下实现文本分类的优化算法
引用本文:潘俊辉,王辉,张强,王浩畅. Hadoop平台下实现文本分类的优化算法[J]. 计算机与数字工程, 2021, 49(10): 2043-2047. DOI: 10.3969/j.issn.1672-9722.2021.10.018
作者姓名:潘俊辉  王辉  张强  王浩畅
作者单位:东北石油大学 大庆 163318
摘    要:目前如何对互联网上的海量数据进行文本分类已经成为一个重要的研究方向,随着云计算技术和Hadoop平台的逐步发展,文本分类的并行化方式将能够更有效的解决当前的问题.论文针对文本分类中特征选择阶段对文本分类性能有很大影响的缺点,提出了一种改进的特征选择算法——类别相关度算法(Class Correlation Algorithm,CCA),同时根据Hadoop平台在海量数据存储和处理方面所具有的优点,利用MapReduce的并行编程框架和HDFS分布式存储系统对文本分类的各个阶段实现了并行化编程.最后通过实验将Hadoop平台下的文本分类的优化算法与传统的单机运行环境下的文本分类算法进行了对比分析,实验结果表明对于相同的数据集,该算法在运算时间上有极大的提高.

关 键 词:Hadoop  文本分类  特征选择  MapReduce

An Optimization Algorithm for Implementing Text Classification Under Hadoop Platform
PAN Junhui,WANG Hui,ZHANG Qiang,WANG Haochang. An Optimization Algorithm for Implementing Text Classification Under Hadoop Platform[J]. Computer and Digital Engineering, 2021, 49(10): 2043-2047. DOI: 10.3969/j.issn.1672-9722.2021.10.018
Authors:PAN Junhui  WANG Hui  ZHANG Qiang  WANG Haochang
Abstract:
Keywords:
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号