首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 187 毫秒
1.
Storm计算框架具有为多源异构大数据提供高效、快速、实时处理的能力.然而因Storm默认的调度策略使用了简单的轮询方法,无法根据集群动态的负载状态调整其任务的分配.针对该问题,提出了基于性能感知的负载均衡策略,根据节点的处理效率计算其性能感知值,并通过贪心调度保证节点的任务量与节点处理能力相匹配,以达到负载均衡的目的.通过与默认调度算法实验比较,结果表明该算法能够有效降低Storm处理时延,提高吞吐量和实现集群负载均衡.  相似文献   

2.
MapReduce是目前广泛应用的并行计算框架,是Hadoop平台的重要组成部分。主要包括Map函数和Reduce函数。Map函数输出key-value键值对作为Reduce的输入,由于输入的动态性,不同主机上的Reduce处理的输入量存在不均衡性。如何解决Reduce的负载均衡是优化MapReduce的一个重要研究方向。本文首先对整体数据进行抽样,通过适量的样本分析数据,达到较小的代价获得可靠的key分布;然后,提出贪心算法代替Hadoop平台默认的hash算法来划分数据,实现Reduce负载均衡。本文所提贪心算法主要思想是根据抽样数据,求取所有key频次的和对于Reduce节点数量的平均值,然后依次为每一个Reduce分配一个接近平均值的负载,从而达到整体的负载均衡。模拟实验表明,本文所提算法与默认的hash分区算法相比,运行时间节约10.6%,达到更好的负载均衡。  相似文献   

3.
数据倾斜是严重影响MapReduce性能的因素之一.数据倾斜问题的现有解决方法需要用户对应用类型提供针对的分区函数,或是为MapReduce编写额外的采样过程,增加了用户的负担.为解决上述问题,提出了一种基于压力统计的负载均衡策略.该策略充分利用MapReduce中的混洗阶段,在reducer准备数据的同时进行统计,以获取全局数据分布.系统根据数据分布情况对负载较重节点进行调度,平衡整个集群负载,而无需用户提供额外的输入.此外,考虑到上层不同的应用类型,引入了压力反馈机制来进一步提高调度策略的性能.实验结果表明,提出的负载均衡调度策略的性能优于默认策略性能.  相似文献   

4.
袁丽娜 《计算机科学》2017,44(Z11):397-399, 431
HDFS默认的数据副本放置策略仅仅只根据磁盘空间使用单个指标进行负载衡量,无法实现各节点真正的负载均衡。提出了一种基于性能的副本负载均衡放置改进策略,从磁盘空间负载能力、CPU处理能力、内存处理能力、磁盘读写处理能力、带宽等5个方面考究节点实际工作负载,并定义了一个负载能力模型。实验结果表明,该改进策略比默认策略能更好地实现副本的均衡放置。  相似文献   

5.
现有针对MapReduce的负载均衡调度的研究均未考虑中间数据的分布特点及网络传输的开销,导致额外的网络传输代价与系统效率的下降。为解决上述问题,提出了一种数据本地性感知的负载均衡策略。充分利用YARN中资源管理的新特性,在Map阶段对内存数据溢写的同时进行统计以获取数据分布,根据数据分布情况及各节点的计算能力进行任务调度,减少网络传输开销的同时尽量保证各节点的负载平衡。此外,通过引入细粒度分区与分区的自适应分裂策略,进一步提高在数据倾斜时调度策略的性能。对比实验结果表明,提出的负载均衡调度策略能有效提升性能,同时较好地降低网络总开销。  相似文献   

6.
杜国杰  牛玉刚 《计算机科学》2016,43(10):98-102, 140
针对WSN中利用可移动中继节点进行数据收集的问题,提出了一种基于区域划分的数据收集策略。该策略首先利用CPSA算法选择网络中的中心节点,以减少可移动中继节点经过的止点数。然后利用CPPA分区算法对监测区域进行分区,引入代价函数,通过迭代计算得到最优分区结果,使网络在满足时延要求的前提下,最小化可移动中继节点移动距离,并使各分区内可移动中继节点负载均衡。实验结果表明,该策略可最小化可移动中继节点移动距离,且可保证可移动中继节点负载均衡。  相似文献   

7.
一种基于节点负载的数据动态分区系统,主要考虑节点CPU、内存、带宽负载情况,首先采用二次平滑法预测节点的负载,再结合AHP和熵值指标权重法得到每个节点的处理能力,最后针对不同应用场景动态地调整系统的负载均衡性,提高应用的响应速度;该系统主要包括负载监测采集、预测、数据预分区、数据迁移等模块.由于分布式环境存在节点资源的异构性,为了数据分析计算过程中减少节点之间数据的传输,充分利用节点计算资源,通过负载均衡性提高应用分析的并行计算速度.为此,本文提出一种基于节点负载的数据动态分区机制和策略来改善系统负载均衡性及提高应用的响应速度,辅助相关工作人员完成决策.本论文结合Spark和Elasticsearch集成的数据分析应用场景进行测试.  相似文献   

8.
MapReduce作为一种分布式编程模型,被广泛应用于大规模和高维度数据集的处理中。其采用原始Hash函数 划分 数据,当数据分布不均匀时,常会出现数据倾斜的问题。基于MapReduce的聚类算法,需要多次迭代且不清楚各阶段Reduce的输入数据分布,因此现有的解决数据倾斜的方法并不适用。为解决数据划分的不均衡问题,提出一种当存在数据倾斜时更改剩余分区索引的策略。该方法在Map运行的过程中统计将要分给各reducer的数据量,由JobTrackcr监控全局的分区信息并根据数据倾斜模型动态修改原分区函数;在接下来的分区过程中,Partitioner把即将导致倾斜的分区索引到其余负载较轻的reducer上,使各节点的负载达到均衡。基于Zipf分布数据集和真实数据集,将所提算法与现有的解决数据倾斜的方法进行对比,结果证明,所提策略解决了MapReduce聚类中的数据倾斜问题,且在稳定性与执行时间上优于Hash和基于采样的动态分区法。  相似文献   

9.
针对Web集群服务器在处理分配混合页面访问任务时开环负载均衡算法导致局部服务器负载偏高而降低系统效率的问题,建立了一类基于动态调节的闭环负载分配策略。根据服务器处理Web访问页面类型的特点,建立静态页面与动态页面混合处理的负载量模型,形成处理不同服务请求与负载均衡的内在动态映射关系,以此优化静态页面缓存与调用方式,并基于服务器负载率动态预测和均衡指标,采用负载率偏差最小的任务权重最优分配模型,确定服务器集群的最优任务权重,实现了服务器集群处理混合页面访问的负载均衡分配策略和算法。仿真结果验证了负载均衡算法的正确性和有效性,可以达到更好的负载均衡效果。  相似文献   

10.
基于视频数据的分布式计算与基于文本类型数据的分布式计算存在很大的差异。视频数据本身是非结构化的,并且对于同样大小的视频,若其内容不同会导致任务执行消耗的时间也不同。对于简单的结构化数据,HDFS默认的负载均衡器能够解决负载均衡的问题。但是视频文件存在热点访问以及复杂度不一致的问题。使用HDFS默认的数据分布机制不能很好地解决计算负载均衡问题。因此提出了一种基于HDFS的海量视频数据重分布算法。首先对视频文件的访问次数以及历史视频分析对视频文件的访问时间进行记录;然后对数据进行量化之后将其加权作为该视频文件的负载度;最后使用文件置换手段将负载高的视频与低的视频进行置换,直到每个节点的负载达到均衡为止。实验结果表明,使用提出的数据重分布算法可以减少海量视频数据的处理时间。  相似文献   

11.
基于Hadoop的FP-Growth关联规则并行改进算法   总被引:1,自引:0,他引:1  
大数据环境下,传统的串行FP-Growth算法在处理海量数据时,占用内存过大、频繁项多,适用于大数据情况的PFP(Parallel FP-Growth)算法存在数据量增大无法处理的缺陷。针对这些问题,本文提出了基于Hadoop的负载均衡数据分割FP-Growth并行算法。在Hadoop平台下,本文使用负载均衡和数据分割相结合的方式对原始事务数据集分片实现并行化。实验证明基于Hadoop的负载均衡数据分割FP-Growth并行算法在处理数据量和效率上有所提高。  相似文献   

12.
在HDFS系统中,集群负载分配不均衡成为影响分布式文件存取速度的瓶颈。针对医院信息系统的负载现状,提出多属性双阈值决策的动态负载均衡算法,对分布式集群中使用HDFS默认的单属性评价、单阈值的负载均衡策略存在的缺陷加以改进。通过负载性能测试,对比证明运用多属性双阈值的负载均衡算法相比较HDFS默认的负载均衡更有利于将大量的影像负载数据相对均衡地分配到服务器集群中的各个节点上,大幅度地缩短了增加数据规模时数据服务器节点的平均响应时间,有利于提高HDFS集群整体的工作效率。  相似文献   

13.
李强  刘晓峰 《计算机应用》2017,37(8):2214-2217
针对当前Hadoop存储效率不高,且副本故障后恢复成本较高的问题,提出一种基于Hopfield神经网络(HNN)的存储策略。为了实现系统整体性能的提升,首先分析影响存储效率的资源特征;然后建立资源约束模型,设计Hopfield能量函数,并化简该能量函数;最后,通过标准用例Wordcount测试,分析8个节点的平均利用率,并与三个常用算法包括基于资源的动态调用算法、基于能耗的算法和Hadoop默认存储策略进行性能和资源利用方面的比较。实验表明,与对比算法相比,基于HNN的存储策略在效率上分别平均提升15.63%、32.92%和55.92%。因此,该方法在应用中可以更好地实现资源负载平衡,将有助于改善Hadoop的存储能力,并可以加快检索。  相似文献   

14.
全比较计算数据分发策略是提高分布式集群系统整体计算性能的关键。针对现有数据分发策略存在的计算负载不均衡、数据不能完全本地化、存储空间浪费和计算速度慢等弊端,在满足数据完全本地化的前提下以负载均衡、最优化存储作为优化目标,结合优化的粒子群算法提出了数据分发模型(Data Distribution Based on Particle Swarm Optimization,DDBPSO)。DDBPSO模型分别以任务扰动、交换任务的方式对粒子进化规则进行了优化,有效避免了算法陷入局部最优。通过计算负载、存储占用和数据本地化等实验,结果表明,与开源框架Hadoop的数据分发策略相比,提出的DDBPSO模型与算法具有计算负载均衡、完全的数据本地化、存储空间占用小、计算速度快等优势。  相似文献   

15.
孙耀  刘杰  叶丹  钟华 《软件学报》2016,27(12):3192-3207
请求负载均衡,是分布式文件系统元数据管理需要面对的核心问题.以最大化元数据服务器集群吞吐量为目标,在已有元数据管理层之上设计实现了一种分布式缓存框架,专门管理热点元数据,均衡不断变化的负载.与已有的元数据负载均衡架构相比,这种两层的负载均衡架构灵活度更高,对负载的感知能力更强,并且避免了热点元数据重新分布、迁移引起的元数据命名空间结构被破坏的情况.经观察分析,元数据尺寸小、数量大,预取错误元数据带来的代价远远小于预取错误数据带来的代价.针对元数据的以上鲜明特点,提出一种元数据预取策略和基于预取机制的元数据缓存替换算法,加强了上述分布式缓存层的性能,这种两层的元数据负载均衡框架同时考虑了缓存一致性的问题.最后,在一个真实的分布式文件系统中验证了框架及方法的有效性.  相似文献   

16.
臧继昆  喻剑 《计算机科学》2015,42(5):221-224, 229
利用HDFS进行大规模交通监控视频的存储和处理是一种可靠、高效、可扩展的数据存储方案.针对HDFS默认的机架感知策略可能造成存储热点这一问题,提出了一种基于事件密集度的交通监控视频放置策略.该策略利用交通视频可按事件类型进行分类这一特征,在数据放置时将数据节点中已存储的各类型的事件视频可能对其造成的负载作为节点的主要评价因素之一,同时结合节点的实时负载、磁盘容量等因素进行综合评价,选择最佳的数据放置节点,从而平衡数据节点的负载.实验表明,基于事件密集度的交通监控视频放置策略可以改善数据节点的吞吐量,提高存储系统性能.  相似文献   

17.
作为新一代的大数据计算引擎,Flink得到了广泛应用。Flink在云环境下进行容器化部署时,其默认任务调度算法不能感知节点的资源信息,导致即时调整负载和自主均衡能力较差,而主流的容器编排工具虽然提供了管理容器的可能性,却也未能结合Flink特点解决平衡资源利用的同时降低容器组内的通信开销问题。针对以上问题开展研究,提出了一种面向云环境的Flink负载均衡策略FLBS,综合考虑了Flink集群中算子的分布特点和容器间通信机制,以节点间通信开销和均衡负载作为评估标准。实验结果表明,与Flink默认调度策略相比,FLBS能够有效提高计算效率,提升系统性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号