首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
Hadoop MapReduce和Apache Spark都适用在大型集群上以并行和分布式模式有效地处理大量数据。为了比较这两个框架的性能,作者使用HiBench基准套件基于执行时间和内存消耗两个标准进行测试。测试结果表明,这些框架的性能根据用例实现的不同而有很大差异。从而可以得出结论:在一般情况下,Spark能够比Hadoop更有效地处理大量数据。但是,因为Spark要将待处理数据加载到内存中,并在缓存中保留一段时间,所以Spark需要更高的内存占用。  相似文献   

2.
曲风富 《程序员》2014,(2):40-43
关于Samza Samza是Apache开源的一个分布式流处理框架,它使用Apache Kafka作为流式数据的存储和中转,采用Apache Hadoop YARN来提供分布式运行环境、容错、资源隔离(CPU和内存)、安全性和资源管理。Samza专用于实时流式数据的处理,从用途来讲比较像目前广泛应用的Twitter开源流处理框架Storm。  相似文献   

3.
虽然以MapReduce和Hadoop分布式系统(HDFS)为核心的Hadoop已在大规模数据密集的商业领域成功应用,但是对于多个并行操作之间重用工作数据集却表现不佳。作为对其的一种补充,本文介绍了Spark。首先介绍Hadoop的MapReduce与HDFS基本概念与设计思想,然后介绍了Spark的基本概念与思想,并且着重介绍了弹性分布式数据集RDD,并通过实验证明和分析对比了Hadoop与Spark。  相似文献   

4.
为解决单机环境下海量地震观测数据计算和分析效率低下的问题,提出一种基于分布式架构的地震观测数据的存储、计算和分析处理方法,选择噪声功率谱复杂计算过程的应用场景进行实现.基于Hadoop在海量数据处理上的性能优势,在分布式文件存储系统HDFS上进行地震观测数据的存储和调度,研究测震数据噪声功率谱的质量评估方法在Spark分布式计算架构上的实现,采用弹性数据集Spark RDD将计算任务自动分配到计算节点,解析存储在HDFS中的测震波形数据,计算结果采用RowKey方式放入分布式数据库HBase中,实现了长周期地震噪声功率谱结果的存储和提取.计算结果表明,基于Spark分布式架构的该方法可以支撑TB级海量数据的处理,并且具有较高的处理效率,可应用于海量地震观测数据的分析计算.  相似文献   

5.
随着电商规模的逐渐扩大,传统的Hadoop资源利用率和计算速度都无法全面满足发展需求,因此提出将低延时、基于内存计算的Spark作为计算引擎。利用SparkCore、SparkSQL做离线分析、利用SparkStreaming做实时分析,将Hadoop分布式文件系统(HDFS)作为分布式文件存储,利用YARN做资源管理与程序调度,从而完成了一个电商的行为数据分析系统,通过Flume、Kafka等技术对数据进行采集及存储,利用Spark进行数据处理。经过测试,电商用户行为分析系统表现突出,具有良好的应用价值。  相似文献   

6.
根据煤矿安全生产业务需求及智慧矿山发展要求,新型的煤矿数据中心需满足对同一时空坐标体系下煤矿海量、多元数据的高效处理、缓存、计算、存储与发布。针对传统煤矿数据中心各类数据离散存储,数据集成、业务应用及数据分析难度大等问题,设计了一种基于Hadoop的煤矿数据中心架构。采用Storm实时数据流引擎进行数据实时计算,并应用MapReduce,Spark实现批处理计算和内存计算,解决高频时序数据存储与海量数据计算问题;采用Hadoop分布式文件系统(HDFS)实现文件的可靠存储,并采用HBase分布式存储数据库实现历史数据的持久化存储,利用其无模式稀疏设计满足同一时空坐标体系下的数据分析需求;采用Redis作为实时数据库存储数据快照进行最新数据检索。基于Hadoop的煤矿数据中心充分利用大数据技术的高速数据存取和压缩性能,通过统一的云计算数据中心,有效降低了煤炭企业数据应用的复杂度及数据中心日常运维难度,可为智慧矿山建设奠定数据基础。  相似文献   

7.
易佳  薛晨  王树鹏 《计算机科学》2017,44(5):172-177
分布式流查询是一种基于数据流的实时查询计算方法,近年来得到了广泛的关注和快速发展。综述了分布式流处理框架在实时关系型查询上取得的研究成果;对涉及分布式数据加载、分布式流计算框架、分布式流查询的产品进行了分析和比较;提出了基于Spark Streaming和Apache Kafka构建的分布式流查询模型,以并发加载多个文件源的形式,设计内存文件系统实现数据的快速加载,相较于基于Apache Flume的加载技术提速1倍以上。在Spark Streaming的基础上,实现了基于Spark SQL的分布式流查询接口,并提出了自行编码解析SQL语句的方法,实现了分布式查询。测试结果表明,在查询语句复杂的情况下,自行编码解析SQL的查询效率具有明显的优势。  相似文献   

8.
随着大数据技术的发展和交通数据量迅速膨胀的挑战,对海量交通数据进行伴随车挖掘已然成为研究热点。提出一种基于Spark计算框架的频繁项集挖掘算法应用于伴随车挖掘模块当中,对海量的卡口交通数据进行Hadoop分布式文件存储(HDFS),并将伴随车挖掘结果可视化地展示在集成系统当中。以实际项目为依托,从而验证该伴随车模块的实现具有实际意义,并可为交通管理者提供科学的辅助决策。  相似文献   

9.
针对现有面向大数据的计算框架在可扩展性机器学习研究中面临的挑战,提出了基于MapReduce和Apache Spark框架的分布式朴素贝叶斯文本分类方法。通过研究MapReduce和Apache Spark框架的适应性来探索朴素贝叶斯分类器(NBC),并研究了现有面向大数据的计算框架。首先,基于朴素贝叶斯文本分类模型将训练样本数据集分为◢m◣类;进一步在训练阶段中,将前一个MapReduce的输出作为后一个MapReduce的输入,采用四个MapReduce作业得出模型。该设计过程充分利用了MapReduce的并行优势,最后在分类器测试时取出最大值所属的类标签值。在Newgroups数据集进行实验,在所有五类新闻数据组上的分类都取得了99%以上的结果,并且均高于对比算法,证明了提出方法的准确性。  相似文献   

10.
青海湖是我国最大的内陆湖,其对于当地生态系统起着至关重要的作用.对青海湖水体进行快速有效监测,成为研究的一个方向.目前的水体识别研究多采用单机版来进行实现,其存在识别速度较慢,自动化程度低等问题.随着遥感数据量的日益增长,传统识别方法难以满足需求.基于Hadoop和Spark分布式大数据框架,设计并实现了自动化水体识别系统.该系统主要实现了遥感图像的数据存储,数据读取,数据处理,模型预测等功能模块,并最后通过shell脚本来实现系统的自动化执行.最后选用了青海湖区域三天遥感图像数据来对系统进行验证.实验结果表明,该系统能够自动完成水体识别流程,并能准确的预测水体.  相似文献   

11.
Hadoop是大数据挖掘的主流平台,在该平台上可以进行大数据的挖掘。数据挖掘的规模和速度是我们需要考虑的问题。Spark框架是一个优秀的框架,它集机器学习,图计算和在线学习为一身,是简洁、强大、高效的。该文先讨论了Spark的组成,接着讨论Spark的任务调度方式,最后讨论了Spark的环境及测试。  相似文献   

12.
设计并实现基于分布式平台的大数据分析处理系统,基于Spark平台用以处理大规模时间序列数据.系统框架主要分为存储层、算子层和算法层.在存储层,系统基于HDFS和Hive完成对大规模时间序列数据的组织和索引.在算子层,系统为用户提供了Spark平台上时间序列数据常用的基本操作,并允许用户直接使用这些算子实现自定义的时间序...  相似文献   

13.
当前Internet上存在着海量的日志数据,他们中蕴藏着大量可用的信息。对海量数据的存储和分析都是一个艰巨而复杂的任务,单一主机已经无法满足要求,使用分布式存储和分布式计算来分析数据已经成为了必然的趋势。分布式计算框架Hadoop已经日趋成熟,被广泛的应用于很多领域。该文描述了一个针对大日志分析的分布式集群的构建与实现过程。介绍了日志分析的现状,使用vmware虚拟机搭建了Hadoop集群和日志分析系统的构建方法,并对实验结果进行了分析。  相似文献   

14.
Spark的崛起对作为当前最为流行的大数据问题解决方案的Hadoop及其生态系统形成了有力的冲击,甚至一度有人认为Spark有取代Hadoop的趋势,但是因为Hadoop与Spark有着各自不同的特点,使得二者拥有不同的应用场景,从而Spark无法完全取代Hadoop。针对以上问题,我们对Hadoop与Spark的应用场景进行了分析。首先介绍了Hadoop与Spark的相关技术以及各自的生态系统,然后详细分析了二者的特性,最后针对二者特性,阐述了Hadoop与Spark各自所适应的应用场景。  相似文献   

15.
极限学习机算法虽然训练速度较快,但包含了大量矩阵运算,因此其在面对大数据量时,处理效率依然缓慢。在充分研究Spark分布式数据集并行计算机制的基础上,设计了核心环节矩阵乘法的并行计算方案,并对基于Spark的极限学习机并行化算法进行了设计与实现。为方便性能比较,同时实现了基于Hadoop MapReduce的极限学习机并行化算法。实验结果表明,基于Spark的极限学习机并行化算法相比于Hadoop MapReduce版本的运行时间明显缩短,而且若处理数据量越大,Spark在效率方面的优势就越明显。  相似文献   

16.
谭亮  周静 《计算机系统应用》2018,27(10):133-139
交通大数据是解决城市交通问题的最基本条件,是制定宏观城市交通发展战略规划和进行微观道路交通管理与控制的重要保障.针对于智能交通系统中数据产生快、实时性强、数据量大的特点,本文基于Spark Streaming和Apache Kafka的组合构建了一个实时交通数据处理平台,用于处理通过双基基站采集的数据,采用时间窗口机制从持续的Kafka分布式消息队列中获取数据,并按照规则将数据分类处理后保存到数据库.本文对平台的系统架构和内部结构进行了详细的介绍,并通过实验验证了系统的实时处理能力,完全可以在大规模高并发的数据流下进行应用.  相似文献   

17.
Hadoop是一个可实现大规模分布式计算的开源软件平台,已经被广泛应用在云计算领域.从Hadoop分布式文件系统的整体架构入手,描述了其分布式数据存储、分布式任务分配、分布式并行计算和分布式数据库四方面的核心内容,并论述了HDFS的工作原理、文件操作流程及Map/Reduce工作原理和计算过程.目的是使开发人员能深入地...  相似文献   

18.
基于Hadoop MapReduce模型的应用研究   总被引:4,自引:0,他引:4  
MapReduce是一种简化并行计算的分布式编程模型,是Google的一项重要技术,通常被用于数据密集型的分布式并行计算.探讨了来自Apache开源的分布式计算平台Hadoop的核心设计MapReduce编程模型,并通过算法实验分析和研究了MapReduce模型的工作方式和应用方法.  相似文献   

19.
当前,信息化正面临着一个全新的阶段,即以数据的深度挖掘和整合应用为核心的智慧化阶段,智慧校园已成为时下高校信息化建设的重要内容。分析高校信息化建设现状和Hadoop、Spark等大数据技术框架,并重点从数据存储层、核心业务层和信息展示层对智慧校园学生综合测评系统进行分析与设计,为大数据技术与智慧校园的深度融合提供方案。  相似文献   

20.
云计算中Hadoop技术研究与应用综述   总被引:3,自引:0,他引:3  
夏靖波  韦泽鲲  付凯  陈珍 《计算机科学》2016,43(11):6-11, 48
Hadoop作为当今云计算与大数据时代背景下最热门的技术之一,其相关生态圈与Spark技术的结合一同影响着学术发展和商业模式。首先介绍了Hadoop的起源和优势,阐明相关技术原理,如MapReduce,HDFS,YARN,Spark等;然后着重分析了当前Hadoop学术研究成果,从MapReduce算法的改进与创新、HDFS技术的优化与创新、二次开发与其它技术相结合、应用领域创新与实践4个方面进行总结,并简述了国内外应用现状。而Hadoop与Spark结合是未来的趋势,最后展望了Hadoop未来研究的发展方向和亟需解决的问题。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号