共查询到20条相似文献,搜索用时 15 毫秒
1.
利用DRTDebug的设计和调度原理,提出分布式实时计算中的不确定性等问题的解决方法,并得到分布式实时程序运行信息的收集模型。 相似文献
2.
Storm集群提供了强大的实时处理能力,Storm上下游处理节点由于任务差异而导致数据流元组Tuple处理超时从而影响系统吞吐量及其性能。针对该问题,提出了一种能够灵活调节Topology中各环节数据负载的反压机制,该机制采用可变队列,并根据当前Tuple负载动态调整队列大小,以适应数据负载的动态变化,并提升系统吞吐量。实验结果表明,该反压机制能够避免反压过程中出现数据流的震荡,同时提高系统性能和稳定性。 相似文献
3.
王剑冰 《网络安全技术与应用》2014,(11):64-65
大数据的出现,对计算的处理能力要求越来越高,除了批量数据的处理之外,有很多业务要求处理数据的实时性较高,比如在毫秒级的处理速度。互联网数据是典型的大数据,从这些数据中进行有价值的数据挖掘就是大数据常见的应用,本文主要介绍了基于从用户所有网站访问数据中分析用户的搜索行为这个业务场景,利用Storm技术的低延迟、高性能、分布式、可扩展、容错等特点,在storm的框架上开发应用程序解决需求的方法。 相似文献
5.
6.
Storm作为流式计算模式下最具代表性的平台之一,其默认轮询的调度机制未考虑到异构环境下不同工作节点的自身性能和负载差异,以及工作节点之间的网络传输开销和节点内部的进程与线程通信开销,无法充分发挥集群的性能.为了在各类资源约束的前提下最小化通信开销,在建立并论证Storm资源约束模型、最优通信开销模型和任务迁移模型的基础上,提出一种异构Storm环境下的任务迁移策略(task migration strategy for heterogeneous Storm cluster, TMSH-Storm),包括源节点选择算法和任务迁移算法.其中,源节点选择算法根据集群中各工作节点CPU、内存和网络带宽的负载情况以及各类资源的优先级顺序,将超出阈值的节点加入源节点集;任务迁移算法综合迁移开销、通信开销、节点资源约束以及节点和任务负载等因素,依次将源节点中的待迁移任务异步迁移至目的节点上.实验表明:相对于现有研究而言,TMSH-Storm能有效降低延迟和节点间通信开销,且执行开销较小. 相似文献
7.
分布系统与分布对象计算 总被引:6,自引:0,他引:6
一、分布系统——发展的必然 分布系统是当前计算机系统发展的主要模式。以计算机网为依托,把多个同时工作的分散计算单元、不同的数据库、不同的操作系统联结成一个整体的布式系统.为多种用户提供一个统一的工作环境。这种分布式系统能够把系统的吞吐能力提高 相似文献
8.
9.
10.
NathanMarz是分布式容错实时计算系统--Storm的创始人,在2011年7月Twitter收购社交媒体数据分析公司BackType前,他是BackType的首席工程师。在Twitter,他负责建立流计算团队,为整个公司的多项关键业务提供基础架构支持。2013年3月,他选择离开Twitter,创立了属于自己的公司。 相似文献
11.
12.
以Kafka、Storm和Samza为代表的实时计算技术,提供了不同于MapReduce的另一种大数据解决方案,更好地解决了海量数据处理的时效性问题。本文将从需求、架构、应用和优化等方面介绍美团在实时计算技术方面的应用和实践经验。大数据技术正改变着互联网行业。一方面是以Hadoop/MapReduce为代表的批量计算技术,生态圈已发展相对成熟; 相似文献
13.
14.
关于Samza
Samza是Apache开源的一个分布式流处理框架,它使用Apache Kafka作为流式数据的存储和中转,采用Apache Hadoop YARN来提供分布式运行环境、容错、资源隔离(CPU和内存)、安全性和资源管理。Samza专用于实时流式数据的处理,从用途来讲比较像目前广泛应用的Twitter开源流处理框架Storm。 相似文献
15.
根据集群计算的特点,论述高可用集群计算系统检查点设置与卷回恢复、检查点镜像、进程迁移以及系统动态重构等关键技术。最后,论文对我们自行研制的ChaRM系统进行了介绍,并与同类系统进行了比较。 相似文献
16.
17.
本文叙述异构分布计算系统的结构和特点,指出互操作是构成开放式异构成开放式异构分布计算系统的关键所在,而采用面向对象概念则是进行这种开放式系统设计的必然趋势。 相似文献
18.
19.
大数据流式计算:关键技术及系统实例 总被引:5,自引:0,他引:5
大数据计算主要有批量计算和流式计算两种形态,目前,关于大数据批量计算系统的研究和讨论相对充分,而如何构建低延迟、高吞吐且持续可靠运行的大数据流式计算系统是当前亟待解决的问题且研究成果和实践经验相对较少.总结了典型应用领域中流式大数据所呈现出的实时性、易失性、突发性、无序性、无限性等特征,给出了理想的大数据流式计算系统在系统结构、数据传输、应用接口、高可用技术等方面应该具有的关键技术特征,论述并对比了已有的大数据流式计算系统的典型实例,最后阐述了大数据流式计算系统在可伸缩性、系统容错、状态一致性、负载均衡、数据吞吐量等方面所面临的技术挑战. 相似文献