基于Spark分布式ETL在海量后勤数据的应用 Application of massive logistics data based on Spark distributed ETL期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于Spark分布式ETL在海量后勤数据的应用

作者单位：	;1.华北计算技术研究所

摘要：	在处理某大型企业的海量后勤大数据时,传统的基于MapReduce的ETL技术在数据提取、转换过程中,因为频繁进行磁盘读取的原因,存在数据处理效率不足的问题。考虑到Spark是基于内存操作的计算引擎,不依赖于磁盘操作,对数据的提取、转换效率的提升有一定帮助,因此文中采用了基于Spark的分布式ETL技术来处理这些海量数据,并通过实验进行效率比较。
关键词：	大数据 Spark ETL 分布式
Application of massive logistics data based on Spark distributed ETL

Abstract:

Keywords: