首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
针对社交媒体数据的特点及其分析的挑战性,提出了一种基于实时计算框架Storm、批处理框架Hadoop和高效可水平扩展的NoSQL数据库MongoDB的分布式社交媒体数据处理方案,并依此指导实现基于Twitter流式数据的流感疫情可视化分析系统.实验证明,该分布式方案能较好支持Twitter流式数据的高效处理和储存,使之满足系统的性能需求.  相似文献   

2.
分析了对辅机设备进行状态监测和分析研究的必要性,创新地将大数据技术应用于该领域,解决了该研究领域中的关键技术难题,设计并实现了一个辅机设备振动噪声大数据监测分析研究平台。平台采用流式数据实时分析技术和实时批处理技术相结合的方式,采用Storm+Hadoop大数据处理架构。一方面,利用Storm以流计算的方式,对噪音、振动、电流、电压、谐波等海量原始数据进行快速计算和处理,并将处理后的数据传输至实时监测中心;另一方面,采用批计算技术,将海量原始数据存储到基于Hadoop的分布式文件系统中,建立大数据库,再采用基于MapReduce的大数据分析技术对海量数据进行数据挖掘和建模。该平台的研究不仅实现了对辅机设备的运行管理的监测和分析,还可以作为辅机设备振动噪声大数据建模和研究的基础。  相似文献   

3.
金晓军 《程序员》2012,(10):99-103
在整体架构上,Storm与Hadoop非常相似,且弥补了Hadoop实时性差的缺点,因此被称为“实时的Hadoop系统”。本文结合实例深入讲述了Storm的Trident特性,同时分享了作者多年积累的流计算经验。  相似文献   

4.
针对现有的大数据处理平台实时性差、处理耗时长、资源请求慢等问题,采用Storm实时计算技术,结合Flume、Kafka、Zookeeper等大数据处理组件,设计一个实时数据处理平台.利用tornado+ WSGI+ Apache技术搭建Web服务器,采用Echarts技术对处理结果进行可视化分析.以网站访问日志作为数据...  相似文献   

5.
Storm支持流式数据的高性能实时计算,是一种广泛使用的流式计算框架。在Storm应用的开发中,开发人员需要针对不同的流式数据需求定制开发相应的计算模块,从而导致大量的重复工作,且难以适应数据需求的变动。如何根据流式数据格式和计算方式等数据需求,快速开发Storm应用并配置相应的环境,是提升大部分流式计算应用开发效率的重要问题。提出了流式数据需求描述方法,设计并实现了一种基于Storm的、由数据需求驱动的流式数据实时处理应用辅助开发框架,其根据业务人员描述的领域数据需求自动生成符合数据处理需求的Storm实时数据处理应用。实验表明,该框架能帮助不具备Storm开发能力甚至非软件开发人员快速配置常见的基于Storm的流式计算应用,对于常见的流式数据的实时处理需求具有一定的适应性。  相似文献   

6.
大数据时代,面对爆发式增长的海量异构大数据,企业指标数据的实时供给能力亟待全面提升.基于流处理技术的大数据指标实时计算方法,主要由日志采集、消息管理、协调管理、实时处理等部分构成,使用Hadoop、Zookeeper、Storm、Kafka、Redis等开源软件,综合应用了数据库日志分析,流处理、内存计算等技术.本文详细论述了采用Storm技术的大数据指标实时计算方法的技术架构,实现方法及路径,同时给出了算法验证的过程和结果分析.  相似文献   

7.
Storm流处理平台解决了传统的基于Hadoop的批处理系统实时性不高的问题,为多源异构大数据处理提供了高效、快速、实时的数据处理框架。然而Storm平台在任务分配过程中只考虑了不同节点之间可用Slot的排序,并没有充分考虑节点的实际负载情况,从而容易产生负载不均衡的问题。针对以上问题,本文在Storm分布式流处理系统上实现对可用Slot和节点负载情况的加权排序改进Storm调度算法,通过数据结构设计,保证rowkey的随机性和唯一性,确保RegionServer的负载平衡;同时通过批量写入的机制,提高Hbase数写入速度,从而提高流数据存储效率。通过与原生Storm系统的对比实验,表明本文算法的改进和机制优化保证了数据的快速写入,提高了集群资源的利用率,改进后的系统在实用性与效率上具有明显的优势。  相似文献   

8.
鞠大升 《程序员》2014,(12):98-103
以Kafka、Storm和Samza为代表的实时计算技术,提供了不同于MapReduce的另一种大数据解决方案,更好地解决了海量数据处理的时效性问题。本文将从需求、架构、应用和优化等方面介绍美团在实时计算技术方面的应用和实践经验。大数据技术正改变着互联网行业。一方面是以Hadoop/MapReduce为代表的批量计算技术,生态圈已发展相对成熟;  相似文献   

9.
随着全球云计算、大数据、物联网和人工智能等技术在工业领域的兴起,数据成为了工业4.0时代的核心驱动力。为了弥补Hadoop分布式系统在实时工业数据处理中显现的不足,提出基于Storm的工业流水线实时分析系统。该系统通过嵌入SDK实时采集终端数据,利用Nginx服务器将数据转换成日志文件,并采用分布式消息系统Kafka缓存,消息流入Storm进行分析处理后,将结果存入HBase中。最后从系统的保障性,并行性和实时性等方面进行分析,表明该系统非常可靠地将各个终端收集到的工业数据实时转换成有价值的信息输出,方便数据资源的汇总与优化。  相似文献   

10.
根据煤矿安全生产业务需求及智慧矿山发展要求,新型的煤矿数据中心需满足对同一时空坐标体系下煤矿海量、多元数据的高效处理、缓存、计算、存储与发布。针对传统煤矿数据中心各类数据离散存储,数据集成、业务应用及数据分析难度大等问题,设计了一种基于Hadoop的煤矿数据中心架构。采用Storm实时数据流引擎进行数据实时计算,并应用MapReduce,Spark实现批处理计算和内存计算,解决高频时序数据存储与海量数据计算问题;采用Hadoop分布式文件系统(HDFS)实现文件的可靠存储,并采用HBase分布式存储数据库实现历史数据的持久化存储,利用其无模式稀疏设计满足同一时空坐标体系下的数据分析需求;采用Redis作为实时数据库存储数据快照进行最新数据检索。基于Hadoop的煤矿数据中心充分利用大数据技术的高速数据存取和压缩性能,通过统一的云计算数据中心,有效降低了煤炭企业数据应用的复杂度及数据中心日常运维难度,可为智慧矿山建设奠定数据基础。  相似文献   

11.
Storm on YARN是目前主流的分布式资源调度框架,但其存在需要人工干预和无法根据资源可用性实时调整系统资源的不足。根据流数据处理的实时延迟计算系统负载情况,在Storm平台上基于YARN设计分布式资源调度和协同分配系统。建立包含系统层和任务层的双层调度模型,系统层通过对流数据处理负载的实时监测进行资源分配预测,任务层利用ZooKeeper和YARN对集群资源的高效管理能力进行动态资源管理。实验结果表明,该系统可以实时调整集群资源分布,有效减小系统延迟。  相似文献   

12.
随着物流中心内部署的感知节点感知的EPC标签数据日益膨胀,并且由于单机容量以及计算能力的限制,使得传统数据处理方式已经不能很好地满足物流中心对于大数据处理的需求。为解决数据中心对内部历史数据进行高速有效处理的困境,在对Hadoop技术进行深入研究的基础上,提出了一种EPC物联网数据处理算法,并使用Hadoop技术进行实现。实验结果表明,在Hadoop平台中进行EPC数据处理,可以明显提高物流中心对历史数据的处理能力。  相似文献   

13.
《信息与电脑》2021,(1):129-131
随着水土保持预防监督体系和监测网络的不断完善,各地水土保持部门积累了大量的水土流失原始信息。如何结合水土保持的历史数据和实时数据,及时掌握土壤侵蚀的变化情况是迫切需要解决的问题。为此,本文以铜仁市木寨河小江流域为例,提出一种基于Hadoop和Storm技术融合的大数据监测系统解决方案。  相似文献   

14.
随着大数据技术的发展,流式处理系统渐渐成为了研究的热点。相对于Hadoop等传统的批处理系统,流式处理系统具有更好的实时性特点。在已有的流式处理系统中,Storm系统具有良好的稳定性、高可扩展性以及高容错性等特点,使它在流式数据处理系统中脱颖而出。但是在任务调度方面,Storm系统并没有做过多的考虑,默认采用相对简单的轮询调度法,导致系统在性能上存在瓶颈。近年来针对Storm系统的调度问题,研究提出了各种优化方案。本文从实时流处理系统Storm的调度优化出发,将这些优化方法分为四类,并详细阐述各类中具有一定代表性的方法,分析其优缺点以及适用的场景。最后,讨论了在日益发展的新环境下,Storm系统的调度优化相关研究未来可能存在的方向。  相似文献   

15.
Hadoop是一个开源分布式计算平台。具有高容错性,高伸缩性等优点,允许用户将Hadoop部署在低廉的PC上,充分利用集群的计算和存储能力,完成海量数据的处理。结合国内烟草企业面对不断剧增的业务数据,而现有的业务数据处理能力明显不足的现状,分析烟草企业构建Hadoop分布式数据处理平台的可行性,并详细介绍了Hadoop平台技术及其项目结构和体系结构。  相似文献   

16.
随着企业信息化在生产实时监测、海量存储和科学分析决策等方面的需求不断提升,运维监控系统已逐渐成为主要的管理手段。采用最新的云计算技术,设计及搭建一个数据规模易扩展、处理速度快、安全性高、成本低的云运维监控系统;针对运维控制系统中海量监控历史数据实时提取响应速度慢的缺点,设计并实现一种基于Hadoop的分布式海量数据处理模型。仿真实验证明,Hadoop在对云监控系统中的海量数据提取效率优于传统方法,随着数据量的快速增长,优势越明显。  相似文献   

17.
《多媒体世界》2012,(9):61-61
Storm是一个分布式的、容错的实时计算系统,遵循Eclipse Public Licensei.0,Storm可以方便地在一个计算机集群中编写与扩展复杂的实时计算,Storm之于实时处理,就好btHadoop之于批处理。Storm保证每个消息都会得到处理,而且它很快——在一个小集群中,每秒可以处理数以百万计的消息。可以使用任意编程语言来做开发。  相似文献   

18.
针对采煤机大量运行状态数据不能得到及时处理的问题,研究了基于Storm的采煤机运行状态数据分布式实时预测模型。结合采煤机实际运行状态数据,通过Hadoop分布式存储数据库模拟采煤机运行状态实时数据流;通过Storm分布式实时大数据处理框架处理大量采煤机运行状态时间序列数据,采用门控循环单元(GRU)作为预测模型,实现对采煤机运行状态数据的实时预测;结合各类数据的阈值设定,实现故障预警。以某矿综采工作面MG400930-WD电牵引采煤机的数据为例,取截割部电动机电流、截割部电动机温度、牵引部电动机电流、牵引部电动机转速、调高泵工作压力、调高泵工作转速、冷却水压、变频器电流8种监测数据作为实验数据,对预测模型进行训练和测试,结果表明:预测模型收敛速度较快,且拟合优度达到0.9以上;除冷却水压外,其余数据的预警准确率均达到95%以上;处理速度快,整个预警过程共10s左右,可满足应用要求。  相似文献   

19.
基于流式计算的空间科学卫星数据实时处理   总被引:1,自引:0,他引:1  
针对空间科学卫星探测数据的实时处理要求越来越高的问题,提出一种基于流计算框架的空间科学卫星数据实时处理方法。首先,根据空间科学卫星数据处理特点对数据流进行抽象分析;然后,对各处理单元的输入输出数据结构进行重新定义;最后,基于流计算框架Storm设计数据流处理并行结构,以适应大规模数据并行处理和分布式计算的要求。对应用该方法开发的空间科学卫星数据处理系统进行测试分析,测试结果显示,在相同条件下数据处理时间比原有系统缩短了一半;数据局部性策略比轮询策略具有更高的吞吐率,数据元组吞吐率平均提高29%。可见采用流式计算框架能够大幅缩短数据处理延迟,提高空间科学卫星数据处理系统的实时性。  相似文献   

20.
Spark性能优化技术研究综述   总被引:2,自引:0,他引:2  
近年来,随着大数据时代的到来,大数据处理平台发展迅速,产生了诸如Hadoop,Spark,Storm等优秀的大数据处理平台,其中Spark最为突出。随着Spark在国内外的广泛应用,其许多性能问题尚待解决。由于Spark底层 的执行机制极为复杂,用户很难找到其性能瓶颈,更不要说进一步的优化。针对以上问题, 从开发原则优化、内存优化、配置参数优化、调度优化、Shuffle过程优化5个方面对 目前国内外的Spark优化技术进行总结和分析。最后,总结了目前Spark优化技术新的核心问题,并提出了未来的主要研究方向。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号