首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 78 毫秒
1.
蒲勇霖  于炯  鲁亮  李梓杨  卞琛  廖彬 《软件学报》2021,32(8):2557-2579
作为流式大数据计算的主要平台之一,Storm在设计过程中由于缺乏节能的考虑,导致其存在高能耗与低效率的问题.传统的节能策略并未考虑Storm的性能约束,可能会对集群的实时性造成影响.针对这一问题,设计了资源约束模型、最优线程重分配模型以及数据迁移模型.进一步提出了Storm平台下的线程重分配与数据迁移节能策略(ener...  相似文献   

2.
Storm作为流式计算模式下最具代表性的平台之一,其默认轮询的调度机制未考虑到异构环境下不同工作节点的自身性能和负载差异,以及工作节点之间的网络传输开销和节点内部的进程与线程通信开销,无法充分发挥集群的性能.为了在各类资源约束的前提下最小化通信开销,在建立并论证Storm资源约束模型、最优通信开销模型和任务迁移模型的基础上,提出一种异构Storm环境下的任务迁移策略(task migration strategy for heterogeneous Storm cluster, TMSH-Storm),包括源节点选择算法和任务迁移算法.其中,源节点选择算法根据集群中各工作节点CPU、内存和网络带宽的负载情况以及各类资源的优先级顺序,将超出阈值的节点加入源节点集;任务迁移算法综合迁移开销、通信开销、节点资源约束以及节点和任务负载等因素,依次将源节点中的待迁移任务异步迁移至目的节点上.实验表明:相对于现有研究而言,TMSH-Storm能有效降低延迟和节点间通信开销,且执行开销较小.  相似文献   

3.
Storm支持流式数据的高性能实时计算,是一种广泛使用的流式计算框架。在Storm应用的开发中,开发人员需要针对不同的流式数据需求定制开发相应的计算模块,从而导致大量的重复工作,且难以适应数据需求的变动。如何根据流式数据格式和计算方式等数据需求,快速开发Storm应用并配置相应的环境,是提升大部分流式计算应用开发效率的重要问题。提出了流式数据需求描述方法,设计并实现了一种基于Storm的、由数据需求驱动的流式数据实时处理应用辅助开发框架,其根据业务人员描述的领域数据需求自动生成符合数据处理需求的Storm实时数据处理应用。实验表明,该框架能帮助不具备Storm开发能力甚至非软件开发人员快速配置常见的基于Storm的流式计算应用,对于常见的流式数据的实时处理需求具有一定的适应性。  相似文献   

4.
大数据流式计算平台Apache Storm默认采用轮询的方式进行任务调度,未考虑到拓扑中各任务计算开销的差异以及任务之间不同类型的通信模式,在负载均衡和通信开销方面存在较大的优化空间。针对这一问题,提出一种Storm环境下基于权重的任务调度算法(TSAW-Storm)。该算法首先根据各任务的CPU资源占用情况以及任务间的数据流大小,分别确定拓扑的点权和边权;并利用最大化边权增益的思想,逐步构建起各工作节点中承载的任务集合,在保证集群负载均衡的同时,尽可能将边权较大的节点间数据流转化为节点内数据流,从而降低网络传输开销。实验结果表明,在包含有8个工作节点的WordCount基准测试中,TSAW-Storm的系统延迟和节点间数据流大小相比Storm默认调度算法分别降低了30.0%和32.9%,且各工作节点的CPU负载标准差仅为Storm默认调度算法的25.8%;此外,在与在线调度算法的对比实验中,TSAW-Storm在系统延迟、节点间数据流大小和CPU负载标准差方面分别降低了7.76%、11.8%和5.93%,且算法的执行开销明显降低,有效提高了Storm系统的运行效率。  相似文献   

5.
刘粟  于炯  鲁亮  李梓杨 《计算机应用》2018,38(12):3481-3489
针对Storm流式计算平台中默认轮询调度策略存在通信开销大、负载不均衡的问题,提出基于拓扑结构的任务调度策略(TS2)。首先,选取CPU资源充足且可用的工作节点并各分配一个进程,消除节点内进程间通信开销,优化进程部署;然后,分析拓扑结构,找出拓扑中度最大的组件,优先分配该组件的线程;最后,在满足节点可承载最大线程数的条件下,尽可能将关联任务部署到同一个节点来减少节点间通信开销,改善集群负载均衡,优化线程部署。实验结果表明:在系统延迟方面,与Storm默认调度策略和离线调度策略相比,TS2的平均优化率分别为16.91%和5.69%,有效提高了系统的实时性;在节点间通信开销方面,TS2相比于Storm默认调度策略平均降低了15.75%;在平均吞吐量方面,TS2相比于Storm默认调度策略平均提升了14.21%。  相似文献   

6.
针对现有的大数据处理平台实时性差、处理耗时长、资源请求慢等问题,采用Storm实时计算技术,结合Flume、Kafka、Zookeeper等大数据处理组件,设计一个实时数据处理平台.利用tornado+ WSGI+ Apache技术搭建Web服务器,采用Echarts技术对处理结果进行可视化分析.以网站访问日志作为数据...  相似文献   

7.
李川  鄂海红  宋美娜 《软件》2014,(10):16-20
互联网数据的增长,催生了一大批新的数据处理技术,Map Reduce,Hadoop及相关技术使得我们能够处理的数据量比以前要大得多,但这些技术的设计目的都不是为了实时计算。然而随着社交网络服务的流行,大规模的实时数据处理已经越来越成为一种业务需求。Twitter Storm的出现弥补了Hadoop在实时处理方面的不足。本文就Storm的组成、运行机制以及计算模型进行研究,并设计与实现了基于Storm的社交网络中热门话题的实时计算问题。  相似文献   

8.
针对Storm系统提供的监控信息不全面且无法直接获取、监控粒度固定的问题,设计和实现一个自适应粒度的可视化监控组件。采用自适应粒度监控算法提供不同粒度的控制数据,结合网络文件系统、数据库和腾讯云图技术,从Storm UI和日志文件中获取、存储和统计拓扑运行状态信息,以图表的形式在网页中动态地显示监控数据。测试结果表明,监控组件能够准确地追踪集群和拓扑状态变化,从多拓扑和单拓扑的角度可视化监控数据,提高监控的灵活性、多样性和直观性,支持系统资源管理和调度策略调试。  相似文献   

9.
针对诈骗短信近年来出现的主叫号码多变、被叫号码具有随机性、短信内容难以识别等新特性,在综合分析数据时,需要实时的处理海量的数据,而现有数据并发量大、实时性要求高等特点,所以采用什么样的技术去处理这样的数据十分关键。针对以上问题,对实时处理技术进行调研。由于Storm在海量数据实时处理方面具有很好的特性,对Storm进行相关调研。  相似文献   

10.
针对诈骗短信近年来出现的主叫号码多变、被叫号码具有随机性、短信内容难以识别等新特性,在综合分析数据时,需要实时的处理海量的数据,而现有数据并发量大、实时性要求高等特点,所以采用什么样的技术去处理这样的数据十分关键。针对以上问题,对实时处理技术进行调研。由于Storm在海量数据实时处理方面具有很好的特性,对Storm进行相关调研。  相似文献   

11.
大数据时代,面对爆发式增长的海量异构大数据,企业指标数据的实时供给能力亟待全面提升.基于流处理技术的大数据指标实时计算方法,主要由日志采集、消息管理、协调管理、实时处理等部分构成,使用Hadoop、Zookeeper、Storm、Kafka、Redis等开源软件,综合应用了数据库日志分析,流处理、内存计算等技术.本文详细论述了采用Storm技术的大数据指标实时计算方法的技术架构,实现方法及路径,同时给出了算法验证的过程和结果分析.  相似文献   

12.
针对城市消防联网远程监控系统中实时信息数据逐渐增长而引出的大数据问题,传统的消防系统无法实时、高效地处理消防实时数据的问题,提出了一种基于云计算和Storm实时数据处理系统的解决方案;对于开源的Storm框架进行需求和性能分析,实现对其技术架构上的改进,并结合消防系统的特点,提出一套高实时性、高可扩展性的消防联网监控中心的数据实时处理的体系架构,同时也进行了云计算平台的搭建,利用心跳检测机制保证各个监控单位的实时性连接;研究表明,基于云计算和Storm平台架构完全适用于消防联网监控中心的实时消防数据的处理,具有高效性、高可靠性、性能显著等特性。  相似文献   

13.
流计算应用中由于上下游数据流入流出速率不匹配常常导致数据缓冲区容量不足或溢出的反压(backpressure)问题,轻则导致数据丢失、重则导致系统崩溃,亟需好的解决方法或方案.不同于向上游传递压力以解决下游反压的已有方法,本文提出了一种基于数据迁移策略的反压问题解决方法,通过其他分支的轻载节点分散处理来解决反压问题.我...  相似文献   

14.
Storm计算框架具有为多源异构大数据提供高效、快速、实时处理的能力.然而因Storm默认的调度策略使用了简单的轮询方法,无法根据集群动态的负载状态调整其任务的分配.针对该问题,提出了基于性能感知的负载均衡策略,根据节点的处理效率计算其性能感知值,并通过贪心调度保证节点的任务量与节点处理能力相匹配,以达到负载均衡的目的.通过与默认调度算法实验比较,结果表明该算法能够有效降低Storm处理时延,提高吞吐量和实现集群负载均衡.  相似文献   

15.
随着高分辨率遥感卫星数据获取能力和地面数传接收能力的提高,现有遥感卫星快视处理系统的处理负载增大,实时性要求越来越难以满足。针对这些问题,采用流式计算思想提出了一种新的遥感卫星数据快视处理系统设计方法。在分析遥感卫星数据快视处理数据流特点的基础上,应用Storm框架对现有系统进行并行优化,设计遥感数据流处理任务拓扑结构,同时利用消息队列中间件Kafka改进处理单元间数据交换和数据缓存方式。实验表明,该系统在数据吞吐率和可靠性方面测试效果良好。  相似文献   

16.
由于云计算环境下不可靠数据中包含有利用价值的信息,但直接使用可能会给计算机带来负担,所以需要对云计算环境下不可靠数据进行恢复;当前大多数方法对不可靠数据进行复写时,利用地址映射层分配新的写入地址,因此不可靠的数据在一段时间内仍存在于云存储中,在这样的系统上实现对其的保护,不需额外保存数据的更新信息;通过FLASH的带外区记录时间戳,在FTL的映射项中增加时间戳信息,在不跟踪映射表每次更新的情况下,达到数据快速恢复的目的;但这种方法对云存储系统性能产生不利影响;为此,提出一种基于张量Tucker阈值的云计算环境下不可靠数据恢复方法,首先利用云计算环境下节点自身的随机秘钥生成器产生随机会话密钥,并对不可靠数据HMAC报文鉴别码进行计算,从而实现保护和重构;在此基础上,将不可靠数据的阈值分解过程与奇异阈值方法相结合,从而得到Tncker阈值算子,实现动态的数据恢复,恢复过程中利用Tucker阈值算子与增广拉格朗日乘子方法相结合的方式选择n-秩相似张量,提出基于增广拉格朗日乘子方法的不可靠数据Tucker阈值恢复方法,完成云计算环境下不可靠数据恢复;实验证明,所提方法能够有效提高不可靠数据恢复的准确性,降低数据恢复的能耗和时间,具有较强的可行性,为该课题的应用研究提供理论依据。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号