基于Spark分布式ETL在海量后勤数据的应用 |
| |
作者单位: | ;1.华北计算技术研究所 |
| |
摘 要: | 在处理某大型企业的海量后勤大数据时,传统的基于MapReduce的ETL技术在数据提取、转换过程中,因为频繁进行磁盘读取的原因,存在数据处理效率不足的问题。考虑到Spark是基于内存操作的计算引擎,不依赖于磁盘操作,对数据的提取、转换效率的提升有一定帮助,因此文中采用了基于Spark的分布式ETL技术来处理这些海量数据,并通过实验进行效率比较。
|
关 键 词: | 大数据 Spark ETL 分布式 |
Application of massive logistics data based on Spark distributed ETL |
| |
Abstract: | |
| |
Keywords: | |
|
|