期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

李航晨秦小麟沈尧《计算机科学》2015,42(4):141-146

数据倾斜是严重影响MapReduce性能的因素之一.数据倾斜问题的现有解决方法需要用户对应用类型提供针对的分区函数,或是为MapReduce编写额外的采样过程,增加了用户的负担.为解决上述问题,提出了一种基于压力统计的负载均衡策略.该策略充分利用MapReduce中的混洗阶段,在reducer准备数据的同时进行统计,以获取全局数据分布.系统根据数据分布情况对负载较重节点进行调度,平衡整个集群负载,而无需用户提供额外的输入.此外,考虑到上层不同的应用类型,引入了压力反馈机制来进一步提高调度策略的性能.实验结果表明,提出的负载均衡调度策略的性能优于默认策略性能. 相似文献

2.

数据本地性感知的MapReduce负载均衡策略

李航晨秦小麟沈尧《计算机科学》2015,42(10):50-56

现有针对MapReduce的负载均衡调度的研究均未考虑中间数据的分布特点及网络传输的开销,导致额外的网络传输代价与系统效率的下降。为解决上述问题,提出了一种数据本地性感知的负载均衡策略。充分利用YARN中资源管理的新特性,在Map阶段对内存数据溢写的同时进行统计以获取数据分布,根据数据分布情况及各节点的计算能力进行任务调度,减少网络传输开销的同时尽量保证各节点的负载平衡。此外,通过引入细粒度分区与分区的自适应分裂策略,进一步提高在数据倾斜时调度策略的性能。对比实验结果表明,提出的负载均衡调度策略能有效提升性能,同时较好地降低网络总开销。相似文献

3.

MapReduce中连接负载均衡优化研究

翟红敏刘国华赵威刘源源翟红坤《计算机工程与科学》2014,36(10):1860-1865

数据分析和处理是大规模分布式数据处理应用中的重要任务。由于简单易用和具有灵活性, MapReduce编程模型逐渐成为大规模分布式数据处理系统（如Hadoop系统）的核心模型。由于所处理的数据可能不是均匀分布的,MapReduce编程模型在处理连接操作时,会出现数据倾斜问题。数据倾斜问题严重降低了MapReduce执行连接操作的效率。针对MapReduce中连接操作的数据倾斜问题,分析了造成MapReduce连接性能瓶颈的原因并建立负载均衡代价模型,提出了用范围分割方法控制连接过程中的数据倾斜问题实现负载均衡的策略。实验结果表明,所提方法明显提高了连接的效率。相似文献

4.

一种周期性MapReduce作业的负载均衡策略 总被引：1，自引：0，他引：1

傅杰都志辉《计算机科学》2013,40(3):38-40

MapReduce任务负载均衡主要是通过分区函数来实现的,Hadoop默认的分区函数并不能很好地保证reducer的负载均衡。针对周期性的业务处理提出了一种基于权重计算的负载均衡策略,周期性任务的数据分布与历史数据相比具有相似性。本策略根据历史数据运行的信息运算出数据权重信息(文中用权重表示每条记录的处理复杂度),再通过Map阶段抽样分析当前这批数据的分布特征来预测待处理数据带权重的整体近似分布情况,从而指导Reduce分区,以保证其负载均衡。通过简单的例子仿真了整个策略的运作过程,并且对比了与TeraSor、思路的不同点。最后通过分析用户访问视频的日志证明了文中提到的策略比默认的策略性能提高了接近1倍。相似文献

5.

Hadoop负载均衡的诊断与处理

黄河清林峰《福建电脑》2021,37(7):36-39

Hadoop集群作为流行的分布式大数据处理系统框架,得到了广泛应用.但若不能较好地解决其负载均衡问题,将无法充分发挥其高可靠性、高效性和高扩展性等特点.鉴于此,本文针对Hadoop体系的两大核心HDFS和MapReduce以及常用的组件Hive与HBase,从产生数据倾斜的原理进行分析,提出了有效的解决方案,以保障集群... 相似文献

6.

基于MapReduce的分布式AP聚类算法

冷泳林《计算机与现代化》2014,(10):104-107

随着网络的普遍应用,网络中产生的数据急剧增长,大规模数据处理面临严峻挑战。本文在对AP聚类算法进行研究的基础上,利用MapReduce编程模型思想对AP聚类算法进行改进,设计在云平台Hadoop环境下运行的基于MapReduce的分布式AP聚类算法,并在实验中对不同规模的图数据进行聚类测试,实验结果表明分布式的AP聚类算法具有很好的时间效率和加速比。  相似文献

7.

基于MapReduce的数据倾斜连接算法

梁俊杰何利民《计算机科学》2016,43(9):27-31

连接操作是大规模数据集在数据分析应用中最常用的操作,针对MapReduce自身不能有效地处理数据倾斜情况下的连接操作,提出了基于MapReduce的频次分类连接算法。根据数据在连接数据集中出现的频率将整个数据集分为3类,对倾斜数据利用分区算法和广播算法实现数据重分布,以消除数据倾斜的影响;对非倾斜数据采用Hash算法实现数据重分布。重分布后的数据在单节点内即可完成数据连接操作,避免了MapReduce框架下连接操作的跨节点传输代价;同时有效地均衡了MapReduce各节点的任务负载,从而提高了数据倾斜状态下连接操作的效率。通过与传统连接算法的对比,证明了所提算法的有效性和实用性。相似文献

8.

基于MapReduce的分布式网络数据聚类算法

陈东明刘健王冬琦徐晓伟《计算机工程》2013,39(7)

时空复杂度较高以及物理机器内存不足,会导致传统聚类算法不能有效地分析处理大规模数据网络.针对该问题,在MapReduce分布式模型的基础上,提出一种网络数据分布式聚类算法.根据MRC理论设计有限MapReduce轮数,控制混洗过程所需时间,利用Map内合并技术对网络流量进行控制,在进行中间结果合并时仅对社团合并,而不考虑社团内部节点,以控制内存开销.使用模拟生成的数据在集群中进行实验,结果表明,当数据规模和集群规模增大时,该算法具有较好的加速比和扩展性. 相似文献

9.

基于MapReduce的文本层次聚类并行化

余晓山吴扬扬《计算机应用》2014,34(6):1595-1599

针对传统的层次聚类算法在处理大规模文本时可扩展性不足的问题,提出基于MapReduce编程模型的并行化文本层次聚类算法。将基于文本向量分量组特征统计的垂直数据划分算法应用于MapReduce的数据分发,将MapReduce的排序特性应用于合并点的选择,使得算法更加高效,同时有利于提高聚类精度。实验结果表明了利用该算法进行大规模文本聚类的有效性及良好的可扩展性。相似文献

10.

基于分布式层次化结构的非均匀聚类负载均衡算法

郭晋秦韩焱《计算机应用》2015,35(2):332-335

考虑到无线传感器网络(WSN)负载不均衡导致节点存活时间较短、能量消耗量较多的问题,提出一种基于分布式层次化结构的非均匀聚类负载均衡算法(DCWSN)。首先,建立了一个WSN的多层分簇的网络拓扑结构,并分析了该网络拓扑的簇内节点运作的能量消耗方式。接着,采用非均匀聚类的负载均衡算法,在簇头的选择上考虑了节点连通密度、节点剩余能量和簇头选择时间,通过竞选出最高权重的节点成为簇头; 在簇的建立阶段,通过簇大小的决定阈值和簇头的更新机制来均衡簇头的能量负载,防止簇头节点过早死亡。通过网络生命周期和网络能量消耗对提出算法的有效性进行验证,并与算法EDDIE、M-TRAC、DDC和EELBC进行比较,结果显示DCWSN算法的节点存活率为37.7%,高于对比算法,且能量效率也高于对比算法。实验结果表明,DCWSN算法对节点负载分配具有良好的均衡性,有效控制了节点负载过量的问题,提高了节点的能量效率。相似文献

11.

基于MapReduce的FCM聚类集成算法

马自堂苟杰《计算机应用研究》2016,33(12)

针对传统的聚类集成算法难以高效地处理海量数据的聚类分析问题,提出一种基于MapReduce的并行FCM聚类集成算法。算法利用随机初始聚心来获取具有差异化的聚类成员,通过建立聚类成员簇间OVERLAP矩阵来寻找逻辑等价簇,最后利用投票法共享聚类成员中数据对象的分类情况得出最终的聚类结果。实验证明,该算法具有良好的精确度,加速比和扩展性,具有处理较大规模数据集的能力。相似文献

12.

基于MapReduce的K-means聚类集成

冀素琴石洪波《计算机工程》2013,(9)

针对传统聚类算法难以高效进行海量数据聚类分析的问题,提出一种基于MapReduce框架的K-means聚类集成算法。利用K-means算法生成不同聚簇数目的基聚类结果,改进共协关系矩阵,依据数据点对出现次数进行集成,自动得出最终聚类结果。实验结果表明,该算法能够有效地改善聚类质量,具有良好的扩展性,适用于海量数据的聚类分析。相似文献

13.

一种基于MapReduce的文本聚类方法研究

李钊李晓王春梅李诚杨春《计算机科学》2016,43(1):246-250, 269

在文本聚类中,相似性度量是影响聚类效果的重要因素。常用的相似性度量测度,如欧氏距离、相关系数等,只能描述文本间的低阶相关性,而文本间的关系非常复杂,基于低阶相关测度的聚类效果不太理想。一些基于复杂测度的文本聚类方法已被提出,但随着数据规模的扩展,文本聚类的计算量不断增加,传统的聚类方法已不适用于大规模文本聚类。针对上述问题,提出一种基于MapReduce的分布式聚类方法,该方法对传统K-means算法进行了改进,采用了基于信息损失量的相似性度量。为进一步提高聚类的效率,将该方法与基于MapReduce的主成分分析方法相结合,以降低文本特征向量的维数。实例分析表明,提出的大规模文本聚类方法的聚类性能比已有的聚类方法更好。相似文献

14.

MapReduce框架下一种负载均衡的Top-k连接查询算法

下载免费PDF全文

胡东明刘旭敏徐维祥《计算机测量与控制》2018,26(8):238-242

针对传统Top-k连接查询算法在处理海量数据时的时效问题,提出一种基于MapReduce框架的负载均衡的并行Top-k连接查询算法(P-TKJ)。使用直方图形式来存储数据,有助于提高CPU的利用率。同时融入了提前终止策略和磁盘数据的选择性访问,以便提高对HDFS数据访问的性能。另外,提出了一种基于最长处理时间优先(LPT)算法的负载均衡策略来均衡Reduce任务,以此设计出高效的并行Top-k连接算法。一个集群实验结果表明,该方法能够有效缩短算法的执行时间。相似文献

15.

基于软件抗衰的分布式负载均衡策略 总被引：1，自引：0，他引：1

高炜杨群许满武《计算机科学》2006,33(6):255-259

随着网络的迅速发展,服务器集群技术得到了广泛的应用,对负载均衡策略的研究也变得越来越必要,但当前的分布式负栽均衡策略始终存在性能和开销不能兼顾的问题。本文将软件抗衰思想引入负载均衡策略设计,根据系统内的均衡程度来确定均衡过程的起止时机,在一定程度上解决了这一矛盾。文内给出了相应的实现算法。相似文献