期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

李航晨秦小麟沈尧《计算机科学》2015,42(4):141-146

数据倾斜是严重影响MapReduce性能的因素之一.数据倾斜问题的现有解决方法需要用户对应用类型提供针对的分区函数,或是为MapReduce编写额外的采样过程,增加了用户的负担.为解决上述问题,提出了一种基于压力统计的负载均衡策略.该策略充分利用MapReduce中的混洗阶段,在reducer准备数据的同时进行统计,以获取全局数据分布.系统根据数据分布情况对负载较重节点进行调度,平衡整个集群负载,而无需用户提供额外的输入.此外,考虑到上层不同的应用类型,引入了压力反馈机制来进一步提高调度策略的性能.实验结果表明,提出的负载均衡调度策略的性能优于默认策略性能. 相似文献

2.

MapReduce框架下一种负载均衡的Top-k连接查询算法

下载免费PDF全文

胡东明刘旭敏徐维祥《计算机测量与控制》2018,26(8):238-242

针对传统Top-k连接查询算法在处理海量数据时的时效问题,提出一种基于MapReduce框架的负载均衡的并行Top-k连接查询算法(P-TKJ)。使用直方图形式来存储数据,有助于提高CPU的利用率。同时融入了提前终止策略和磁盘数据的选择性访问,以便提高对HDFS数据访问的性能。另外,提出了一种基于最长处理时间优先(LPT)算法的负载均衡策略来均衡Reduce任务,以此设计出高效的并行Top-k连接算法。一个集群实验结果表明,该方法能够有效缩短算法的执行时间。相似文献

3.

Hadoop负载均衡的诊断与处理

黄河清林峰《福建电脑》2021,37(7):36-39

Hadoop集群作为流行的分布式大数据处理系统框架,得到了广泛应用.但若不能较好地解决其负载均衡问题,将无法充分发挥其高可靠性、高效性和高扩展性等特点.鉴于此,本文针对Hadoop体系的两大核心HDFS和MapReduce以及常用的组件Hive与HBase,从产生数据倾斜的原理进行分析,提出了有效的解决方案,以保障集群... 相似文献

4.

一种周期性MapReduce作业的负载均衡策略 总被引：1，自引：0，他引：1

傅杰都志辉《计算机科学》2013,40(3):38-40

MapReduce任务负载均衡主要是通过分区函数来实现的,Hadoop默认的分区函数并不能很好地保证reducer的负载均衡。针对周期性的业务处理提出了一种基于权重计算的负载均衡策略,周期性任务的数据分布与历史数据相比具有相似性。本策略根据历史数据运行的信息运算出数据权重信息(文中用权重表示每条记录的处理复杂度),再通过Map阶段抽样分析当前这批数据的分布特征来预测待处理数据带权重的整体近似分布情况,从而指导Reduce分区,以保证其负载均衡。通过简单的例子仿真了整个策略的运作过程,并且对比了与TeraSor、思路的不同点。最后通过分析用户访问视频的日志证明了文中提到的策略比默认的策略性能提高了接近1倍。相似文献

5.

数据本地性感知的MapReduce负载均衡策略

李航晨秦小麟沈尧《计算机科学》2015,42(10):50-56

现有针对MapReduce的负载均衡调度的研究均未考虑中间数据的分布特点及网络传输的开销,导致额外的网络传输代价与系统效率的下降。为解决上述问题,提出了一种数据本地性感知的负载均衡策略。充分利用YARN中资源管理的新特性,在Map阶段对内存数据溢写的同时进行统计以获取数据分布,根据数据分布情况及各节点的计算能力进行任务调度,减少网络传输开销的同时尽量保证各节点的负载平衡。此外,通过引入细粒度分区与分区的自适应分裂策略,进一步提高在数据倾斜时调度策略的性能。对比实验结果表明,提出的负载均衡调度策略能有效提升性能,同时较好地降低网络总开销。相似文献

6.

分布式文件系统元数据服务的负载均衡框架

孙耀刘杰叶丹钟华《软件学报》2016,27(12):3192-3207

请求负载均衡,是分布式文件系统元数据管理需要面对的核心问题.以最大化元数据服务器集群吞吐量为目标,在已有元数据管理层之上设计实现了一种分布式缓存框架,专门管理热点元数据,均衡不断变化的负载.与已有的元数据负载均衡架构相比,这种两层的负载均衡架构灵活度更高,对负载的感知能力更强,并且避免了热点元数据重新分布、迁移引起的元数据命名空间结构被破坏的情况.经观察分析,元数据尺寸小、数量大,预取错误元数据带来的代价远远小于预取错误数据带来的代价.针对元数据的以上鲜明特点,提出一种元数据预取策略和基于预取机制的元数据缓存替换算法,加强了上述分布式缓存层的性能,这种两层的元数据负载均衡框架同时考虑了缓存一致性的问题.最后,在一个真实的分布式文件系统中验证了框架及方法的有效性. 相似文献

7.

基于两阶分区的MapReduce实验室系统负载均衡研究

下载免费PDF全文

郑文丽熊贝贝程立勋蔡伊娜包先雨《计算机测量与控制》2023,31(4):252-257

在实验室系统处理海量原始数据时,实际应用场景中存在采样率高、偏度（skewness）高的特殊情况,导致在使用两阶分区算法在平衡同构环境下的Reducer节点负载时,无法有效地处理这些问题。为此,引入MapReduce的并行化处理,可以提高实验室系统中采样数据利用率;同时,为了解决数据偏度和采样度高的问题,则采用了ICSC（Improved Cluster Split Combination）分区调度的算法。经过实验证明,基于两阶分区的MapReduce负载均衡算法能够有效减少Mapper和Reducer节点空转的时间。随着数据偏度的增加,算法的执行时长基本不产生变化,即数据偏度对该算法执行时间的影响较小。此外,数据采样度的增加,ICSC分区调度算法也保持着对比模型中最少的时间开销。因此,基于两阶分区的MapReduce负载均衡算法弱化了Reducer节点间的依赖性,并提升MapReduce任务的执行效率和容错率,从而高效地实现MapReduce框架下的实验室系统中数据处理的负载均衡。相似文献

8.

基于LVS的负载均衡技术的研究

张颖林锦贤《福建电脑》2005,(11):123-124

本文介绍了一种高效的负载均衡解决方案——LVS,分析了它的工作方式及负载均衡策略。最后以NAT方式构建了一个LVS集群,并测试了它的性能。相似文献

9.

MapReduce模型中reduce阶段负载均衡分区算法研究 总被引：1，自引：0，他引：1

万聪王翠荣王聪贾朔《小型微型计算机系统》2015,(2):240-243

MapReduce是一种处理大规模数据的并行计算模型,针对传统模型中reduce阶段各个结点负载不均衡的问题,提出一种reduce阶段负载均衡分区算法.算法将map阶段产生的中间数据划分为更多的分区,减少了每个分区的工作量,每次给reducetask分配一个分区,reducetask完成一个分区的工作之后会继续获得新的分区,直到所有的分区都被分配完毕,实现了动态调节reducetask的负载.还改进了MapReduce的通信协议来支持算法并且设计了新的容错机制.最后,通过重写Hadoop平台内核实现了算法并进行了实验分析,结果表明,该算法在不影响MapReduce模型的情况下显著的缩短了任务的处理时间. 相似文献

10.

基于统计方法的Hive数据仓库查询优化实现

王有为王伟平孟丹《计算机研究与发展》2015,52(6):1452-1462

Map/Reduce是海量离线数据分析中广泛应用的并行编程模型.Hive数据仓库基于Map/Reduce实现了查询处理引擎,然而Map/Reduce框架在处理偏斜数据时会出现工作负载分布不均的问题.均衡计算模型(computation balanced model, CBM),其核心思想是通过数据分布特征指导查询计划优化.相应研究贡献包括2部分,首先针对应用极广的GroupBy查询和Join查询建立了运行估价模型,确定了不同场景下查询计划的优化选择分支;其次基于Hive ETL机制设计了一种统计信息收集方法,解决了统计海量数据分布特征的问题.实验数据表明,通过CBM优化的 GroupBy查询耗时节省了8%～45%,Join查询耗时节省了12%～46%;集群CPU负载均衡指标优化了60%～80%,I/O负载均衡指标优化了60%～90%.实验结果证实了基于CBM模型优化的查询计划生成器能显著均衡化Hive查询运行时的集群负载,并优化了查询处理效率. 相似文献

11.

基于MapReduce的数据倾斜连接算法

梁俊杰何利民《计算机科学》2016,43(9):27-31

连接操作是大规模数据集在数据分析应用中最常用的操作,针对MapReduce自身不能有效地处理数据倾斜情况下的连接操作,提出了基于MapReduce的频次分类连接算法。根据数据在连接数据集中出现的频率将整个数据集分为3类,对倾斜数据利用分区算法和广播算法实现数据重分布,以消除数据倾斜的影响;对非倾斜数据采用Hash算法实现数据重分布。重分布后的数据在单节点内即可完成数据连接操作,避免了MapReduce框架下连接操作的跨节点传输代价;同时有效地均衡了MapReduce各节点的任务负载,从而提高了数据倾斜状态下连接操作的效率。通过与传统连接算法的对比,证明了所提算法的有效性和实用性。相似文献

12.

解决并行JOIN中数据偏斜的一种方法

洪晓光董继润《计算机科学》1995,22(5):38-41

1.引言最近的研究表明,数据库系统也可以利用并行处理来提高更大、更复杂查询的效,因为关系操作是面向集合的操作,本身就具有一定的可并行特性,这为查询优化在选择并行取路径时提供了很大的灵活性。相似文献

13.

基于MapReduce的混合连接算法

胡龙罗军《计算机与现代化》2015,(6):86

运行在Hadoop上的数据仓库Hive可以让更多的用户通过SQL接口来处理Hadoop数据。然而,Hive却没有为连接操作提供有效的途径,而连接操作是一种常见且在Hadoop中非常费时的操作。为了解决连接操作在Hadoop中性能的问题,本文提出一种混合策略的连接算法HJ A,根据当前应用场景在几种连接算法之间选择相对较合适的算法,实验结果表明,HJ A可以在大多数的Hadoop场景中发挥很好的性能。相似文献

14.

全局负载均衡下云环境中的大数据动态迁移方法

章勇张洁卉柳斌《计算机科学》2018,45(1):196-199

在云环境中,数据负载均衡化速度较慢且易出现数据倾斜,这严重干扰了系统状态。为了减小数据迁移的代价,提出一种在全局负载均衡下云环境中的大数据动态迁移方法。首先构造负载均衡模型,在均衡负载下计算数据迁移成本,并给出最小数据迁移成本模型。计算数据迁移成本并评估虚拟机数据负载资源利用率,从而使数据重载的服务器转移到数据轻载的服务器上,达到云环境中的数据均衡化。仿真实验结果证明,所提方法提高了数据负载的均衡化速度和均衡效率,降低了数据迁移成本,且提高了资源利用率。相似文献

15.

CORBA负载平衡的研究 总被引：6，自引：0，他引：6

骆志刚唐雪飞《计算机科学》2000,27(10):31-35

一、引言作为分布式计算的一个重要规范—CORBA,其主要目标是解决面向对象的异构应用之间的互操作问题,并提供了分布式计算所需的多项服务。ORB是CORBA平台的核心,它用于屏蔽与底层平台有关的细节,使开发者可以集中精力去解决与应用相关的问相似文献

16.

基于移动代理的负载平衡策略

张建陆鑫达《计算机工程》2005,31(17):108-109,125

在异构计算环境中负载平衡是一个重要问题。移动代理是一种新的分布计算模式,具有许多优势,比如移动代理能够从一台机器移动到另一台机器执行任务。该文提出了一个基于移动代理的并行计算框架,利用一个二段负载平衡策略使程序能够适应不断变化的异构计算环境。实验结果显示移动代理不仅能够用于并行计算,而且能够有效地改善负载平衡。相似文献

17.

基于Hive的计算结果特征提取与重用策略

谢恒王梅乐嘉锦孙莉《计算机研究与发展》2015,52(9):2014-2024

现有MapReduce工作流中作业之间需将计算结果物化到HDFS(Hadoop distributed file system),大量磁盘I/O导致其效率较低.基于现有代表性工作Hive,提取并保存MapReduce工作流产生计算结果的数据特征,提出一种计算结果匹配和重用策略.首先,根据查询条件定义连接图与连接体等结构,用于可复用计算结果的匹配.基于该结构,根据HiveQL(Hive query language)解析出的抽象语法树,提出生成查询语句连接体算法,并遍历候选连接体列表,给出最佳重用方案生成方法,包括单连接体重用和多连接体重用策略.进一步,为了增加计算结果的重用概率,提出多键选择、推迟算数运算和语义理解3种方法.最后,使用数据仓库基准测试数据集TPC-H和SSB进行实验,验证了所提出的重用计算结果以提高数据处理速度的有效性. 相似文献

18.

基于分布式入侵检测系统的负载均衡算法的比较 总被引：2，自引：0，他引：2

谷凤娜张志斌王丽宏《计算机科学》2008,35(11):63-66

随着网络带宽的增长,分布式NIDS逐渐成为入侵检测系统的主流,而其中的负载均衡技术是提高系统性能的关键技术之一。通过模拟的方法,利用真实的网络数据,将多种负载均衡算法分为无连接约束算法和有连接约束算法进行了比较、评价,为分布式入侵检测系统的设计提供负载均衡算法的选择依据。相似文献