共查询到20条相似文献,搜索用时 62 毫秒
1.
MapReduce模型中reduce阶段负载均衡分区算法研究 总被引:1,自引:0,他引:1
MapReduce是一种处理大规模数据的并行计算模型,针对传统模型中reduce阶段各个结点负载不均衡的问题,提出一种reduce阶段负载均衡分区算法.算法将map阶段产生的中间数据划分为更多的分区,减少了每个分区的工作量,每次给reducetask分配一个分区,reducetask完成一个分区的工作之后会继续获得新的分区,直到所有的分区都被分配完毕,实现了动态调节reducetask的负载.还改进了MapReduce的通信协议来支持算法并且设计了新的容错机制.最后,通过重写Hadoop平台内核实现了算法并进行了实验分析,结果表明,该算法在不影响MapReduce模型的情况下显著的缩短了任务的处理时间. 相似文献
2.
任务调度是云计算研究中的NP难优化问题,负载均衡问题是任务调度的热点研究内容之一。针对云计算环境中任务分配不够合理、用户服务质量低的问题,提出一种模拟蜜蜂采蜜机理的负载均衡策略。该策略模拟蜂群觅食行为,建立负载均衡模型,被迁移的任务作为“侦察蜂”更新虚拟机的负载信息,并采用贝叶斯分类算法对虚拟机负载状态进行分类,将任务从重负载虚拟机迁移至轻负载虚拟机,同时满足目标虚拟机中高优先级任务的数量最少,避免了大量任务被调度到同一性能较优的虚拟机上,能够有效减少任务等待时间。实验结果表明,基于蜜蜂采蜜机理的负载均衡策略,和传统算法相比,减少了任务响应时间、完工时间和迁移次数,同时更好地满足了用户服务质量需求。 相似文献
3.
4.
Kafka是一款高吞吐的分布式消息系统,在海量数据处理等多个领域被广泛使用。但现有Kafka消费者客户端负载均衡算法存在一些不足,在处理海量数据时易产生过高开销甚至出错等问题。本文提出了一种优化的Kafka消费者客户端负载均衡算法,负载均衡过程完全由作为管理者的消费者控制,其余消费者不必单独进行负载均衡,而且管理者不用重新分配每个消费者消费的分区。系统对所有消费者的运行状况进行监控,出现宕机的消费者后可及时进行负载再均衡。测试结果说明该算法能够减少Kafka消费者客户端在负载均衡过程中的系统开销,并避免出现错误的负载均衡结果,可以有效地保障分布科学数据处理的正确性。 相似文献
5.
6.
为了探究打车软件出现后对乘客打车行为的影响,揭示是否使用打车软件对乘客候车时间长短的变化规律,基于路网混合随机均衡模型理论,在考虑打车软件对出租车司机搜索行为影响和随机变化的OD对需求条件下,构建基于弹性需求的打车软件随机用户均衡模型;然后结合乘客等车、司机空驶时间和可靠性计算模型,引入连续平均(MSA)算法和随机路径流量分配(Dial)算法进行求解;最后通过算例验证了所建模型和算法的有效性。研究结果表明不同需求弹性下、是否使用打车软件对会乘客候车时间及候车时间可靠性产生明显的差异。 相似文献
7.
在软件定义承载网(Carrier-SDN)中应用网络虚拟化技术为虚拟网络请求分配资源是解决传统网络结构僵化问题的重要方法之一。针对虚拟网络初次配置产生的瓶颈节点和瓶颈链路造成的底层网络负载不均衡问题,提出一种基于负载均衡的虚拟网络重配置方法(Load Balance Virtual Network Reconfiguration,LB-VNR)。该方法着重设计了虚拟节点的迁移算法、虚拟链路的迁移算法以及重路由映射路径规划算法。仿真结果表明,所提方法在虚拟网络请求接受率、网络收益代价比和虚拟网络负载均衡性方面均具有良好的性能。 相似文献
8.
针对传统的威胁评估方法存在指标数据冗余、指标权值设置合理性、推理有效性等问题,建立结合网络层次分析法的云推理威胁评估模型,能够合理精简指标,有效优化推理规则。将该模型用于目标识别系统的威胁评估,首先给出威胁评估指标,用网络层次分析法精简指标并得到规范化权值;构建指标云模型,将规范后的指标数据输入前件云发生器,建立推理规则库,引入分级结构简化规则数,运用加权扎德算子实现规则的合成,将合成结果输入后件云发生器得到威胁度云滴,经多次重复操作后,处理数据得到系统威胁度。最后,以实例说明方法的有效性。 相似文献
9.
针对当前异常检测方法面临的分类性能有限以及分类结果易受噪声影响等问题,在分析当前异常检测方法的基础上,提出模糊大间隔最小超球模型FMHM。该模型引入模糊理论,在一定程度上减少噪声对分类结果的影响;正常样本与奇异样本之间的间隔最大化确保错分率最小。标准UCI数据集上的比较实验表明,较之单类支持向量机OCSVM、支持向量数据描述SVDD、K近邻KNN等算法,本文所提方法FMHM在异常检测方面具有一定优势。 相似文献
10.
第六代液晶屏在生产过程中会产生多种类型的缺陷,通过单机进行缺陷检测存在存储资源和计算时间的瓶颈。利用Hadoop集群优势处理海量的高分辨率液晶屏图像是一个新的思路。针对线阵CCD(Charge-coupled Device)相机采集特点,提出一种基于MapReduce的分布式缺陷检测方法,使用改进的C-V图像分割模型,完成液晶屏模糊边缘的缺陷分割,对处于子图边缘的缺陷进行二次缺陷提取,提高缺陷检测的准确率,并采用SVM(Support Vector Machine)分类器完成缺陷的分类。实验表明,该方法提高检测效率的同时降低了缺陷的误判率,为分布式存储分块图像、缺陷测量等相关研究奠定基础。 相似文献
11.
数据分析和处理是大规模分布式数据处理应用中的重要任务。由于简单易用和具有灵活性, MapReduce编程模型逐渐成为大规模分布式数据处理系统(如Hadoop系统)的核心模型。由于所处理的数据可能不是均匀分布的,MapReduce编程模型在处理连接操作时,会出现数据倾斜问题。数据倾斜问题严重降低了MapReduce执行连接操作的效率。针对MapReduce中连接操作的数据倾斜问题,分析了造成MapReduce连接性能瓶颈的原因并建立负载均衡代价模型,提出了用范围分割方法控制连接过程中的数据倾斜问题实现负载均衡的策略。实验结果表明,所提方法明显提高了连接的效率。 相似文献
12.
A parallel ray tracing algorithm is presented. It subdivides the seene into 3D regions, the adjacency of which is modelled by a connectivity graph of regions. Since with each region is associated a ray tracing process, this graph becomes a graph of processes, the edges of which represent the communications between processes. This graph of processes is suitably mapped onto a hypercube topology so as to minimize the communication cost. Static load balancing is performed and solutions are brought to the problems of network congestion and termination.This work has been supported byC
3 and by the CCETT (Centre Commun d'Etudes de Télédiffusion et Télécommunications) under contract 86ME46 相似文献
13.
在实验室系统处理海量原始数据时,实际应用场景中存在采样率高、偏度(skewness)高的特殊情况,导致在使用两阶分区算法在平衡同构环境下的Reducer节点负载时,无法有效地处理这些问题。为此,引入MapReduce的并行化处理,可以提高实验室系统中采样数据利用率;同时,为了解决数据偏度和采样度高的问题,则采用了ICSC(Improved Cluster Split Combination)分区调度的算法。经过实验证明,基于两阶分区的MapReduce负载均衡算法能够有效减少Mapper和Reducer节点空转的时间。随着数据偏度的增加,算法的执行时长基本不产生变化,即数据偏度对该算法执行时间的影响较小。此外,数据采样度的增加,ICSC分区调度算法也保持着对比模型中最少的时间开销。因此,基于两阶分区的MapReduce负载均衡算法弱化了Reducer节点间的依赖性,并提升MapReduce任务的执行效率和容错率,从而高效地实现MapReduce框架下的实验室系统中数据处理的负载均衡。 相似文献
14.
针对直方图发布算法面临的隐私保护和数据可用性问题,提出一种基于抽样排序和层次划分的直方图发布算法。算法将指数机制和轮盘赌抽样技术相结合,对原始直方图进行抽样排序,使相似数据以较大概率排在一起;利用层次划分算法对排序后的直方图进行划分,以降低所划分分组中不同数据间的误差;最后对分组后的直方图添加拉普拉斯噪声,并恢复原始顺序,得到待发布直方图。仿真测试结果表明,该算法在满足差分隐私的前提下有效提高了发布数据的可用性。 相似文献
15.
MapReduce是目前广泛应用的并行计算框架,是Hadoop平台的重要组成部分。主要包括Map函数和Reduce函数。Map函数输出key-value键值对作为Reduce的输入,由于输入的动态性,不同主机上的Reduce处理的输入量存在不均衡性。如何解决Reduce的负载均衡是优化MapReduce的一个重要研究方向。本文首先对整体数据进行抽样,通过适量的样本分析数据,达到较小的代价获得可靠的key分布;然后,提出贪心算法代替Hadoop平台默认的hash算法来划分数据,实现Reduce负载均衡。本文所提贪心算法主要思想是根据抽样数据,求取所有key频次的和对于Reduce节点数量的平均值,然后依次为每一个Reduce分配一个接近平均值的负载,从而达到整体的负载均衡。模拟实验表明,本文所提算法与默认的hash分区算法相比,运行时间节约10.6%,达到更好的负载均衡。 相似文献
16.
17.
分布式系统提供了巨大的处理能力,为了实现和充分利用这种能力,需要优良的负载平衡调度技术。因此,负载平衡问题是影响分布式系统性能的重要因素。在深入研究分布式系统中负载平衡调度问题的基础上,归纳总结了负载平衡调度的一般模型,对影响负载平衡的各个因素进行了详细的分析。此模型已在一个实际模型中得到了有效地验证。 相似文献
18.
作为新一代的大数据计算引擎,Flink得到了广泛应用。Flink在云环境下进行容器化部署时,其默认任务调度算法不能感知节点的资源信息,导致即时调整负载和自主均衡能力较差,而主流的容器编排工具虽然提供了管理容器的可能性,却也未能结合Flink特点解决平衡资源利用的同时降低容器组内的通信开销问题。针对以上问题开展研究,提出了一种面向云环境的Flink负载均衡策略FLBS,综合考虑了Flink集群中算子的分布特点和容器间通信机制,以节点间通信开销和均衡负载作为评估标准。实验结果表明,与Flink默认调度策略相比,FLBS能够有效提高计算效率,提升系统性能。 相似文献
19.
MapReduce是一种适用于大规模数据密集型应用的有效编程模型,具有编程简单、易于扩展、容错性好等特点,已在并行和分布式计算领域得到了广泛且成功的应用.由于MapReduce将计算扩展到大规模的机器集群上,处理数据的合理放置成为影响MapReduce集群系统性能(包括能耗、资源利用率、通信和I/O代价、响应时间、系统的可靠性和吞吐率等)的关键因素之一.首先,对MapReduce编程模型的典型实现——Hadoop缺省的数据放置策略进行分析,并进一步讨论了MapReduce框架下,设计数据放置策略时需考虑的关键问题和衡量数据放置策略的标准;其次,对目前MapReduce集群环境下的数据放置策略优化方法的研究与进展进行了综述和分析;最后,分析和归纳了MapReduce集群环境下数据放置策略的下一步研究工作. 相似文献
20.
In recent years, Radio Frequency Identification (RFID) industries have taken a great interest in utilizing the benefits of RFID for supply chain management, inventory control and various other applications. This paper proposed an adaptive load balancing technique for RFID middleware systems to meet the demands of scalability and heterogeneity. First, we explored five basic load balancing policies, namely, information policy, job selection policy, transfer policy, initiation policy and location policy. Eighteen load balancing schemes were then proposed for RFID middleware systems that were combinations of various types of the five basic load balancing policies. Our empirical study suggested that these load balancing strategies performed differently under different workload statuses. Finally, an adaptive load balancing strategy was proposed. The load balancing schemes and the proposed adaptive load balancing strategy have been implemented in the RFID Middleware Load Management System (RM‐LMS). Copyright © 2010 John Wiley & Sons, Ltd. 相似文献