首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
王越峰  王溪波 《计算机科学》2017,44(Z6):567-570
在Hadoop集群环境下本地性调度算法是提高数据本地性的算法。本地性调度算法的调度策略的本质是提高数据本地性,减少网络传输开销,避免阻塞。但是由于Map任务的完成时间不同,Reduce任务存在的等待现象影响了作业的平均完成时间,使得作业的完成时间增加,进而引起系统的性能参数不佳。因此提出在保留原算法数据本地性要求的基础上集成可抢占式的调度方法。在Reduce任务等待时,挂起该任务并释放资源给其他Map任务,当Map任务完成到一定程度后,重新调度Reduce任务。基于上述调度策略设计了集成抢占式策略的本地性调度。为了对改进的算法进行验证,通过实验对本地性调度算法和集成抢占式本地性调度算法进行比较。实验结果表明,在相同数据上,集成抢占式本地性调度算法的平均完成时间有明显的降低。  相似文献   

2.
基于Hadoop的句群相似度计算   总被引:2,自引:1,他引:1       下载免费PDF全文
介绍了Hadoop开源框架、Map/Reduce编程模型以及语句相似度计算原理,利用Hadoop框架下的Map/Reduce编程模型实现了句群相似度并行计算方法。通过实验验证了该算法的稳定性和处理大量数据的可行性。  相似文献   

3.
针对Hadoop平台数据被任务调度感知,进行本地化处理的新特征,探索Haoop平台中Map任务数据访问监控机制。提出Hadoop平台数据访问监控不仅应服务于数据存取效率的提升,还应服务于Map/Reduce并行作业执行效率提升的基本思想,并增加对并行执行多Map任务数据访问开销均衡性的监控。基于该思想,定义Hadoop平台数据访问监控的粒度和监控信息组成;依托Hadoop平台现有结构,设计了基于master-slave的监控体系结构,并给出了监控主要功能模块的具体实现技术及测试结果。  相似文献   

4.
Hadoop处理海量数据时,无论是Map任务还是Reduce任务都需要耗费大量的时间传输数据,故提出一种基于双重预取的调度算法;该算法通过估算节点上任务执行的进度来预测Map任务的执行节点,然后通知节点提前预取所需的数据,并且在Map任务完成的数量达到预定值时,开始为Reduce任务预取部分数据;由于在异构的环境下集群中节点的性能各不相同,为此采取了改进的预测模型,以提高任务进度判断的准确性;实验证明,本算法在作业响应时间等方面优于现有的调度算法。  相似文献   

5.
根据人工神经网络自组织、高度并行以及具有非线性映射能力的特点,提出一种基于云计算的Hadoop多模式并行分类算法。通过将自组织映射网络与多个并行BP神经网络结合,提高多语义模式中复杂分类问题的学习效率和训练精度。采用Hadoop平台下的Map Reduce框架实现算法的并行处理,解决大规模数据样本训练时内存开销大、通信耗时长的问题。实验结果表明,与传统单BP多输出分类算法相比,该算法训练速度更快、分类精度更高,在处理大规模数据集时具有实时和高效的特性。  相似文献   

6.
随着社交网络的快速发展,海量社交网络的数据挖掘成为一个重要课题;针对海量数据的社交网络分析方法进行研究,以Hadoop的分布式文件系统和Map/Reduce并行方法设计基于Hadoop的分布式数据挖掘框架,在此基础上,通过Map/Reduce的并行方法,将传统数据挖掘算法并行化,以谱聚类的并行为例,阐述转化的过程并对在大数据条件下所面临的内存不足的问题给出相应的算法优化;最后对3个不同量级的数据集进行实验,验证基于Hadoop的社交网络分析平台的框架的合理性和算法并行化的有效性。  相似文献   

7.
在大规模的Hadoop集群中,良好的任务调度策略对提高数据本地性、减小网络传输开销、减少作业执行时间以及提高集群的作业吞吐量都有着重要的影响。本文针对Hadoop架构中Reduce任务的数据本地性较低问题,提出了一种基于延迟调度策略的Reduce任务调度优化算法,通过提高Reduce任务的数据本地性来减少作业执行时间以及提高作业吞吐量,该算法在Hadoop架构的Early Shuffle阶段,使用多级延迟调度策略来提高Reduce任务的数据本地性。最后重写原生公平调度器代码实现了该调度算法,并与原生公平调度器进行了对比实验分析,实验结果表明该算法明显减少了作业执行时间,提高了集群的作业吞吐量。  相似文献   

8.
随着社会网络数据的增加,社团发现获得来自学术界和工业界的大量关注,是因为它在现实世界中有许多的实际应用。格文-纽曼(Girvan-Newman,GN)是现今最流行的算法之一,但在大型网络上由于需要计算网络中每对节点之间的最短路径而产生了相应的局限性。为此,利用Map Reduce模型,提出了一种并行版本的GN算法来支持大规模网络的新方法,称之为最短路径之间的Map Reduce算法(Shortest Path Betweenness Map Reduce Algorithm,SPB-MRA)。此外,还提出了一个近似技术,进一步加快社区检测过程。在Hadoop上利用开源平台Map Reduce框架实现了SPB-MRA算法。结果表明,随着reducer数量的增加时间呈线性减小,并且引入了一种近似技术可以忽略误差。  相似文献   

9.
针对Hadoop平台现有任务调度算法优化程度不高的问题, 提出了一种基于数据局部性的推测式任务调度算法。该算法通过计算节点上Map和Reduce任务时长比例, 结合不同节点上数据的局部特性, 采用了比现有算法更精确的任务进度探测方式找出快慢节点, 在快节点上启动剩余时间最长的落后任务的备份任务, 用移动计算代替移动数据。在Hadoop环境中进行了实验, 结果表明该算法比现有算法缩短了任务平均运行时间, 加快了任务的执行效率。  相似文献   

10.
陈若飞  姜文红 《软件》2015,(2):64-68
作为开源云计算平台的核心技术之一,Map Reduce作业处理框架及其作业调度算法,对整个系统的性能起着至关重要的作用,而数据本地性是衡量作业调度算法好坏的一个重要标准,首先本文介绍和分析了Map Reduce基本原理,Map Reduce作业处理机制和Map Reduce作业调度机制及其在数据本地性方面表现出的优缺点等相关内容。其次,针对原生作业调度算法在数据本地性考虑不周全的问题,结合数据预取技术的可行性与优势,通过引入资源预取技术设计并实现一种基于资源预取的Hadoop Map Reduce作业调度算法,使作业执行效率更高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号