首页 | 本学科首页   官方微博 | 高级检索  
     

基于Spark分布式ETL在海量后勤数据的应用
作者单位:;1.华北计算技术研究所
摘    要:在处理某大型企业的海量后勤大数据时,传统的基于MapReduce的ETL技术在数据提取、转换过程中,因为频繁进行磁盘读取的原因,存在数据处理效率不足的问题。考虑到Spark是基于内存操作的计算引擎,不依赖于磁盘操作,对数据的提取、转换效率的提升有一定帮助,因此文中采用了基于Spark的分布式ETL技术来处理这些海量数据,并通过实验进行效率比较。

关 键 词:大数据  Spark  ETL  分布式

Application of massive logistics data based on Spark distributed ETL
Abstract:
Keywords:
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号