期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

《计算机应用与软件》2016,(7)

传统的并行Join算法缺少必要的容错能力,且数据划分不均往往导致单个线程的阻塞成为整个任务执行的瓶颈。针对以上问题,分析内存连接的各个阶段对Join算法性能的影响,提出一种可利用MapReduce的动态机制,避免了传统并行连接算法的数据任务分派不均和容错问题。算法使用MapReduce编程框架,并通过封装分块标记减少MapReduce Join执行过程中标记和排序的计算开销,使算法性能显著提高。实验结果表明,该算法在共享内存体系结构下,性能上相比已有算法有显著改进。相似文献

2.

基于作业历史运行信息的MapReduce能耗预测模型

廖彬张陶于炯孙华《计算机科学》2015,42(11):178-183

在数据量规模剧增的背景下,大数据处理过程中产生的高能耗问题亟待解决,而能耗模型是研究提高能耗效率方法的基础。利用传统的能耗模型计算MapReduce作业执行能耗面临诸多挑战,在对大数据计算模型MapReduce的集群结构、作业的任务分解及任务与资源映射模型分析建模的基础上,提出基于作业历史运行信息的MapReduce能耗预测模型。通过对不同作业历史运行信息的分析,得到DataNode运行不同任务时的计算能力及能耗特性,继而实现在MapReduce作业执行前对作业能耗的预测。实验结果验证了能耗预测模型的可行性,并通过对能耗预测准确率调节因子的修正,能够达到提高能耗模型的预测准确度的目的。相似文献

3.

一种基于DAG的MapReduce任务调度算法

《计算机科学》2014,(Z1)

Hadoop已成为研究云计算的基础平台,MapReduce是其大数据分布式处理的计算模型。针对异构集群下MapReduce数据分布、数据本地性、作业执行流程等问题,提出一种基于DAG的MapReduce调度算法。把集群中的节点按计算能力进行划分,将MapReduce作业转换成DAG模型,改进向上排序值计算方法,使其在异构集群中计算更精准、任务的优先级排序更合理。综合节点的计算能力与数据本地性及集群利用情况,选择合理的数据节点分配和执行任务,减少当前任务完成时间。实验表明,该算法能合理分布数据,有效提高数据本地性,减少通信开销,缩短整个作业集的调度长度,从而提高集群的利用率。相似文献

4.

基于Hadoop的MapReduce模型的研究与改进

李玉林董晶《计算机工程与设计》2012,33(8):3110-3116

针对MapReduce模型中存在的多个Reduce任务之间完成时间差别较大的问题,分析了影响Reduce任务完成时间的因素,指出了MapReduce模型中Reduce任务节点存在数据倾斜问题,提出了一种改进型的MapReduce模型MBR(Map-Balance-Reduce)模型。通过添加Balance任务,对Map任务处理完成的中间数据进行均衡操作,使得分配到Reduce任务节点的数据比较均衡,从而确保Reduce任务的完成时间基本一致。仿真实验结果表明,经过Balance任务后,Map任务产生的中间数据能够比较均衡的分配给Reduce任务节点,达到数据计算均衡的目的,在一定程度上减少了整个作业的执行时间。相似文献

5.

基于二维划分的杰卡德相似系数批量计算效率优化

廖彬张陶于炯国冰磊刘继《计算机科学》2017,44(1):219-225

随着互联网用户及内容的指数级增长,大规模数据场景下的杰卡德相似系数计算对算法的效率提出了更高的要求。为提高算法的执行效率,对MapReduce架构下的算法执行缺陷进行了分析,结合Spark适用于迭代型及交互型任务的特点,基于二维划分算法将算法从MapReduce平台移植到Spark平台;并通过参数调整、内存优化等方法进一步提高了算法的执行效率。两组数据集分别在3组不同规模的集群上的实验结果表明,与MapReduce相比,Spark平台下的算法执行效率提高了4倍以上,能耗效率提升了3倍以上。相似文献

6.

基于Spark的ItemBased推荐算法性能优化

廖彬张陶国冰磊于炯张旭光刘炎《计算机应用》2017,37(7):1900-1905

MapReduce计算场景下,复杂的大数据挖掘类算法通常需要多个MapReduce作业协作完成,但多个作业之间严重的冗余磁盘读写及重复的资源申请操作,使得算法的性能严重降低。为提高ItemBased推荐算法的计算效率,首先对MapReduce平台下ItemBased协同过滤算法存在的性能问题进行了分析;在此基础上利用Spark迭代计算及内存计算上的优势提高算法的执行效率,并实现了基于Spark平台的ItemBased推荐算法。实验结果表明：当集群节点规模分别为10与20时,算法在Spark中的运行时间分别只有MapReduce中的25.6%及30.8%,Spark平台下的算法相比MapReduce平台,执行效率整体提高3倍以上。相似文献

7.

基于Hadoop架构的大数据量日志存储和检索优化

陈耀兵刘斌史延涛《信息网络安全》2013,(6)

Hadoop 是一个实现 MapReduce 计算模型的开源分布式并行编程框架,借助于 Hadoop,程序员可以轻松编写分布式并行程序,并将其运行于计算机集群上,完成海量数据的计算。本文介绍了基于Hadoop架构的系统的设计与实现,介绍如何提高Hadoop的分布式文件管理系统（HDFS）和MapReduce的执行效率与速度,以及 Hadoop 的安装部署和基本运行方法。相似文献

8.

一种MapReduce实时调度算法设计及实现

刘吉陈香兰代栋孙明明周学海《计算机系统应用》2013,22(8):113-119

MapReduce是云计算中重要的批数据处理框架,多任务共享MapReduce机群并满足任务实时性要求是调度算法急需解决的问题。提出两阶段实时调度算法,将调度划分为任务间调度和任务内调度。对于任务间调度,使用抽样法和经验值法确定子任务执行时间,利用该参数建立资源分配模型,动态确定任务优先级进行调度;对于子任务使用延迟调度策略进行调度,保证计算的本地性。实验结果显示,两阶段实时调度算法相比公平调度算法和FIFO算法,在保证吞吐量的同时能够满足任务实时性要求。相似文献

9.

异构环境下自适应Reduce任务调度算法的研究_*

付彦卓张树东李辉《计算机应用研究》2018,35(7)

在异构环境下的MapReduce编程模型中,Reduce任务的调度存在随机性,通常在分配任务时既没有考虑数据本地性,也没有考虑计算节点对当前任务的计算能力。针对以上问题,提出一种异构环境下自适应Reduce任务调度算法(SARS),该算法首先根据Reduce任务的输入数据分布选择所含数据量最大的机架;在选择计算节点的过程中,结合节点所含任务的数据量、节点的计算能力和当前节点的忙碌状态来选出任务的执行节点。最后实验结果表明,SARS算法减少了Reduce任务执行时的网络开销,同时也减少了Reduce任务的执行时间。相似文献

10.

MapReduce模型下的模糊C均值算法研究

王永贵李鸿绪宋晓《计算机工程》2014,(10)

针对模糊C均值算法需要不断迭代来计算样本数据的隶属度值以及聚类中心的特点,利用MapReduce模型解决海量数据下的模糊C均值问题,进而提出高效的模糊C均值算法。在Map阶段和Reduce阶段分别完成隶属度和聚类中心的计算,每次迭代都需要启动一次完整的MapReduce执行过程。通过多次迭代计算出隶属度值以及聚类中心,并更新聚类中心文件,供下一轮作业使用,重复执行这一过程直至得到最终聚类结果。实验结果表明,该算法能够有效减少MapReduce计算过程中的迭代次数,从而提高整体执行效率。相似文献

11.

自动导引车云导引平台的研究与设计

《计算机工程》2017,(7):64-69

针对传统自动导引车(AGV)导引方式存在抗干扰弱、灵活性差、造价高等问题,提出一种基于云端的导引方式,设计并实现了该导引方式的云导引平台(CBGP)。该平台系统中CBGP服务器提供平台接入、通信和任务执行管理等功能,MapReduce计算框架和HDFS文件系统提供分布式路径计算和存储。实验结果表明,CBGP平台能够较好地应用并行路径规划算法,并提供合适的路径完成云端导引AGV的任务。相似文献

12.

MapReduce框架下基于超平面投影划分的Skyline计算

王淑艳杨鑫李克秋《计算机研究与发展》2014,(12)

近年来,Skyline计算在决策应用中起着越来越重要的作用.针对单机处理的研究已较为成熟.现今大数据爆炸,Skyline计算面临着大数据处理的问题.MapReduce是一个并行模型,广泛应用于数据密集型应用处理中.众所周知,MapReduce处理要求任务是可分解的.Skyline计算在MapReduce上执行时,分解任务的方法有网格划分、基于角度的划分等.网格划分仅在数据维度较低时表现良好;基于角度的划分适用于低维和高维数据,但在划分前需要一个复杂并且费时的坐标转换过程.现采用一种与基于角度的划分类似的基于超平面投影的划分来分解数据集,这种划分适用于低维和高维数据,而且其在划分前的坐标转换较为简单.根据超平面投影的划分提出了一种在MapReduce上处理Skyline计算的算法MR-HPP(MapReduce with hyperplane-projections-based partition),并在该算法的过滤阶段提出了一种有效的过滤算法PSF(presorting filter).大量基于Hadoop平台的对比实验表明该算法的准确性、高效性和稳定性. 相似文献

13.

MapReduce中连接负载均衡优化研究

翟红敏刘国华赵威刘源源翟红坤《计算机工程与科学》2014,36(10):1860-1865

数据分析和处理是大规模分布式数据处理应用中的重要任务。由于简单易用和具有灵活性, MapReduce编程模型逐渐成为大规模分布式数据处理系统（如Hadoop系统）的核心模型。由于所处理的数据可能不是均匀分布的,MapReduce编程模型在处理连接操作时,会出现数据倾斜问题。数据倾斜问题严重降低了MapReduce执行连接操作的效率。针对MapReduce中连接操作的数据倾斜问题,分析了造成MapReduce连接性能瓶颈的原因并建立负载均衡代价模型,提出了用范围分割方法控制连接过程中的数据倾斜问题实现负载均衡的策略。实验结果表明,所提方法明显提高了连接的效率。相似文献

14.

一种异构环境下的基于MapReduce任务调度改进机制

何翔李仁发唐卓《计算机应用研究》2013,30(11):3370-3373

针对在异构环境下采用现有MapReduce任务调度机制可能出现各计算节点间数据迁移和系统资源分配难以管理的问题, 提出一种动态的任务调度机制来改善这些问题。该机制先根据节点的计算能力按比例放置数据, 然后通过资源预测方法估计异构环境下MapReduce任务的完成时间, 并根据完成时间计算任务所需的资源。实验结果表明, 该机制提高了异构环境下任务的数据本地性比例, 且能动态地调整资源分配, 以保证任务在规定时间内完成, 是一种有效可行的任务调度机制。相似文献

15.

车辆移动云可靠性任务调度

李晓静马海英《计算机应用与软件》2019,36(11)

车辆移动性使得移动车辆云中的任务调度可靠性问题变得尤为复杂。针对这一问题,提出一种基于混合整数线性规化最优化方法的云任务调度算法。借助于MapReduce构建车辆云任务的调度模型,并设计一种复杂度更低的启发式调度方法,在有效降低任务执行延时的同时,确保了任务调度的可靠性。通过在网络仿真器NS3中运行城市道路环境下的MapReduce应用,对算法的调度结果进行性能评估。结果表明,与同类的车辆云中的调度方法相比,该算法在作业平均执行时间、作业调度成功率、系统吞吐量及任务执行开销等性能指标上均优于对比算法。相似文献

16.

基于Spark的MapReduce相似度计算效率优化

廖彬张陶于炯国冰磊刘炎《计算机科学》2017,44(8):46-53

随着互联网的用户及内容呈指数级增长,大规模数据场景下的相似度计算对算法的效率提出了更高的要求。为提高算法的执行效率,对MapReduce架构下的算法执行缺陷进行了分析,结合Spark适于迭代型及交互型任务的特点,基于二维划分算法将算法从MapReduce平台移植到Spark平台;同时,通过参数调整、内存优化等方法进一步提高算法的执行效率。通过2组数据集分别在3组不同规模的集群上的实验表明,与MapReduce相比,在Spark平台下算法的执行效率平均提高了4.715倍,平均能耗效率只有Hadoop能耗的24.86%,能耗效率提升了4倍左右。相似文献

17.

面向MapReduce的中间数据传输流水线优化机制

张元鸣虞家睿蒋建波陆佳炜肖刚《计算机科学》2021,48(2):41-46

MapReduce是一种适用于大数据处理的重要并行计算框架,通过在大量集群节点上并行执行多个任务,极大地提高了数据的处理性能。然而,由于中间数据需要等到Mapper任务完成之后才能被发送给Reducer任务,由此导致的大量传输延迟成为MapReduce框架性能的重要瓶颈。为此,文中提出了一种面向MapReduce的中间数据传输流水线优化机制,将有效计算与中间数据传输解耦,以流水线的方式重叠执行各个阶段,有效隐藏数据传输开销。文中还给出了中间数据传输流水线执行机制和实现策略,包括流水线划分、数据细分、数据归并和数据传输粒度等。在公开数据集上对所提中间数据传输流水线优化机制进行了评价,当Shuffle数据量较大时,该优化机制比默认框架的整体性能提高了60.2%。相似文献

18.

基于迭代式MapReduce的误差反向传播算法

赵虎杨宇《计算机应用》2016,36(4):923-926

针对误差反向传播(BP)算法计算迭代的特点,给出了迭代式MapReduce框架实现BP算法的方法。迭代式MapReduce框架在传统MapReduce框架上添加了传送模块,避免了传统框架运用在迭代程序时需要多次任务提交的缺陷。通过对K/TGR146对空台射电开关控制系统进行仿真得到BP算法训练样本,并在Hadoop云计算环境下,分别在基于传统框架和迭代式框架的BP算法中进行训练。实验结果表明,基于迭代式MapReduce框架的BP算法训练速度达到了基于传统MapReduce框架的BP算法训练速度的10倍以上,正确率提升了10%~13%,能有效解决算法训练时间过长和迭代计算中多次任务提交的问题。相似文献

19.

面向云计算的期限约束的MapReduce作业调度方法

周博李亚琼刘永波李守超宋云奎《计算机与现代化》2018,(11):51

提出一种面向异构云计算环境的截止时间约束的MapReduce作业调度方法。使用加权偶图建模MapReduce作业调度问题,将Map任务及Reduce任务与资源槽分为2个节点集合,连接2个节点集合的边的权重为任务在资源槽上的执行时间。进而,使用整数线性规划求解最小加权偶图匹配,从而得到任务到资源槽的调度方案。本文考虑了云计算环境下异构节点任务处理时间的差异性,在线动态评估和调整任务的截止时间,从而提升了MapReduce作业处理的性能。实验结果表明,所提出的方法缩短了作业数据访问的时间,最小化了截止时间冲突的作业数量。相似文献

20.

适于进化算法的迭代式MapReduce框架

金伟健王春枝《计算机应用》2013,33(12):3591-3595

MapReduce模块化的编程大大降低了分布式算法的实现难度,但同时也限制了它的应用范围。介绍了MapReduce的基本结构及其实现迭代算法的缺陷,并针对基于MapReduce进化算法效率低下的问题,在对MapReduce的计算框架进行研究的基础上提出了一种适用于进化算法的迭代式MapReduce计算框架。描述了迭代式MapReduce计算框架的实现需求及其具体实现,提出并证明了异常机制的可行性,且在公有的Hadoop云计算平台上对提出的框架进行了验证。实验结果表明,基于迭代式MapReduce计算框架的并行遗传算法在算法的加速比上与基于MapReduce的并行遗传算法相比有较大的提高。相似文献