首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 171 毫秒
1.
文章介绍了Hadoop分布式计算架构及其核心技术HDFS(Hadoop Distributed Filesystem)、MapReduce处理大数据的原理,分析了该技术适用于海量网络安全事件分析的优势和特点。提出了一种基于Hadoop架构的网络安全事件分析方法,并进行了实例分析,验证了该方法的可行性。  相似文献   

2.
基于Hadoop的分布式数据库系统   总被引:1,自引:0,他引:1  
云计算是当前研究的热点,包括分布式存储和分布式计算技术。Hadoop是一个能够让用户轻松架构和使用的分布式计算平台,用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。基于对大量数据进行处理和分析的需求,本文分析了基于Hadoop的分布式计算平台,介绍基于Hadoop的分布式数据库系统。  相似文献   

3.
MapReduce是Google开发的一种并行分布式计算模型,已在搜索和处理海量数据领域得到了广泛的应用.此模型只适用于数据关联性弱、能够高度并行化的程序,未能处理数据关联性强的数据(比如树形结构).文中详细讨论了MapReduce的实现机制,提出了一种基于树结构的MapReduce模型,它是基于一种聚类聚合的反复轮询过程,聚合时用<k1,k2,…,kn,value>代替传统的<k,value>,使模型更具有一般性.最后搭建Hadoop平台来处理XML结构的海量数据,并比对新旧两种模型的效率.实验结果表明,其执行速度明显比传统模型高效.  相似文献   

4.
基于Hadoop云计算模型探究   总被引:1,自引:0,他引:1  
云计算是并行计算、分布式计算和网格计算的发展。文中详细地阐述了MapReduce的编程思想、工作原理、步骤和方法。探讨了来自Apache开源的分布式计算平台Hadoop的核心设计MapReduce编程模型,并通过算法实验分析和研究了MapReduce模型的工作方式和应用方法。  相似文献   

5.
广域网分布式爬虫与局域网爬虫相比有诸多的优势,而现有基于Hadoop分布式爬虫的设计主要是面向局域网环境的。为解决Hadoop分布式计算平台不适合部署于广域网的问题,设计了一个基于Hadoop的广域网分布式爬虫系统框架。爬虫系统利用消息中间件实现分布式可靠通信,数据存储采用可伸缩的Hadoop分布式文件系统HDFS,网页解析利用MapReduce并行处理,并基于模板匹配实现框架可定制。系统的性能仿真显示该框架具有支撑大规模爬虫并发工作的能力。  相似文献   

6.
针对海量空间矢量数据分布式存储与计算需求, 研究了基于四叉树格网编码建立要素索引的方法, 设计了HBase预分区优化策略, 提出了一种空间矢量数据分布式存储模型. 基于MapReduce计算框架, 构建了空间数据分布式计算与分析的优化流程. 最后, 针对空间叠加与统计场景, 采用一定规模的业务数据对所提的方法进行测试, 验证了设计方案的可行性和有效性.  相似文献   

7.
基于云计算的并行K-means聚类算法研究   总被引:2,自引:0,他引:2  
目前数据呈爆炸式增长,海量存储状态,给聚类研究带来了诸如计算复杂性和计算能力不足都很多问题;而云计算平台通过负载均衡,动态配置大量的虚拟计算资源,有效地突破了耗时耗能的瓶颈,在海量数据挖掘中体现出了其独特的优势;文章深入研究了基于云计算平台Hadoop的并行K-means算法,并结合MapReduce分布式计算模型,给出了算法设计的方法和策略,包括MapReduce处理的map、shuffle和Reduce 3个过程,仿真结果表明K-means并行算法的效率较高。  相似文献   

8.
基于MapReduce的分布式光线跟踪的设计与实现   总被引:1,自引:0,他引:1       下载免费PDF全文
提出了基于MapReduce架构实现分布式光线跟踪渲染的方案。该方案基于Hadoop实现,利用MapReduce架构简化了分布式程序设计。使用分布式计算进行光线跟踪,充分利用了现有低端硬件设备的处理能力。实验表明,该方案通过并行计算大大加快了渲染速度。  相似文献   

9.
荀亚玲  张继福  秦啸 《软件学报》2015,26(8):2056-2073
MapReduce是一种适用于大规模数据密集型应用的有效编程模型,具有编程简单、易于扩展、容错性好等特点,已在并行和分布式计算领域得到了广泛且成功的应用.由于MapReduce将计算扩展到大规模的机器集群上,处理数据的合理放置成为影响MapReduce集群系统性能(包括能耗、资源利用率、通信和I/O代价、响应时间、系统的可靠性和吞吐率等)的关键因素之一.首先,对MapReduce编程模型的典型实现——Hadoop缺省的数据放置策略进行分析,并进一步讨论了MapReduce框架下,设计数据放置策略时需考虑的关键问题和衡量数据放置策略的标准;其次,对目前MapReduce集群环境下的数据放置策略优化方法的研究与进展进行了综述和分析;最后,分析和归纳了MapReduce集群环境下数据放置策略的下一步研究工作.  相似文献   

10.
大数据分析中基于MapReduce的空间权重创建方法研究   总被引:1,自引:0,他引:1  
大数据空间分析是Cyber-GIS的重要方面。然而,如何利用现有的网络基础设施(比如大规模计算集群)对大数据进行并行分布式空间分析仍然是一大难题。为此,本文提出一种基于MapReduce的空间权重创建方法。该方法依托Hadoop框架组织计算资源,基于MapReduce模式从大规模空间数据集中高效创建出空间权重:大空间数据首先被分为多个数据块,然后将映射器分布给计算集群中的不同节点,以便在数据中寻找出空间对象的相邻对象,最后由约简器从不同节点处收集相关结果并生成权重文件。利用Amazon公司弹性MapReduce的Hadoop框架,从人工空间数据中创建基于邻近概念的权重矩阵进行仿真,实验结果表明,本文方法的性能优于传统方法,解决了大数据的空间权重创建问题。  相似文献   

11.
针对Hadoop平台MapReduce分布式计算模型运行机制中的顺序制约而产生的计算资源浪费问题,从提高平台中每个执行节点的细粒度并行数据处理角度出发,结合Java共享内存多线程编程技术,对该模型进行了优化,提出一种MapReduce+OpenMP粗细粒度相结合的分布式并行计算模型。并在由四个节点组成的Hadoop集群环境下对不同规模大小的出租车GPS轨迹数据分析处理,验证该模型的性能和效率,实验结果证明MapReduce+OpenMP分布式并行计算模型确实能够提高针对大数据集的计算效率,是对Hadoop平台大数据分析处理模型有效的完善和优化。  相似文献   

12.
Hadoop是处理海量数据的分布式计算框架,已经得到了广泛的应用。但是Hadoop处理图结构数据存在一些不足。图结构数据的强耦合特性,无法通过一次MapReduce计算得出结果,而是需要迭代计算,甚至一次迭代需要多次Ma-pReduce完成。而重新启动MapReduce作业,开销较大,以及迭代过程中可能存在静态数据的不必要传输。文中在Hadoop的基础之上,提出map端存储的策略,即将静态数据存储在map端,在map端完成静态与动态数据相关的计算,减少了整个迭代计算的总运行时间。通过搭建修改过的Hadoop平台,与改进前迭代方案进行比较,实验结果表明map端存储策略运行时间得到了一定程度的减少。  相似文献   

13.
Hadoop平台在云计算中的应用   总被引:4,自引:0,他引:4  
王宏宇 《软件》2011,32(4):36-38,50
云计算是当前比较热门的新兴技术之一,受到业界的广泛关注。Hadoop是一个可实现大规模分布式计算的开源软件平台,因此被广泛应用在云计算领域。本文在对Hadoop的主要组件Hadoop分布式文件系统HDFS(Hadoop Distributed File System)和计算模型MapReduce进行深入分析和研究的基础上,建立基于Hadoop平台的云计算模型,通过实验证明该模型可以有效完成分布式数据处理任务。  相似文献   

14.
黄鑫  罗军 《集成技术》2013,2(2):69-82
数据的快速增长,为我们提供了更多的信息,然而,也对传统信息获取技术提出了挑战。这篇论文提出了MCMM算法,它是基于MapReduce的大规模数据分类模型的最小生成树(MST)的算法。它可以看做是介于传统的KNN方法和基于聚类分类方法之间的模型,旨在克服这两种方法的不足并能处理大规模的数据。在这一模型中,训练集作为有权重的无向完全图来处理。顶点是对象,两点之间边的权重是对象间的距离。这一距离,不同于欧几里得距离,它是一个特定的距离度量。这样,可以找到图中最小生成树集,其中,图中每棵树代表一个类。为了降低时间复杂度,提取了每棵树中最具代表性的点来代表该树。这些压缩了的点集,可以通过计算无标签对象和它们之间的距离,来进行分类。MCMM模型基于MapReduce实现并且部署在Hadoop平台。该模型可扩展处理大规模的数据,是因为Hadoop支持数据密集分布应用,并且这些应用可以和数以千计的节点和数据一起运作。另外,MapReduce 和Hadoop能在由商品机组成的集群上很好的运行。MCMM模型使用云平台并且通过使用MapReduce 和Hadoop进行云计算是有益处的。实验采用的数据集包括从UCI数据库得到的真实数据和一些模拟数据,实验使用了4000个集群。实验表明,MCMM模型在精确度和扩展性上优于KNN和其他一些经常使用的基础分类方法。  相似文献   

15.
基于Hadoop的句群相似度计算   总被引:2,自引:1,他引:1  
介绍了Hadoop开源框架、Map/Reduce编程模型以及语句相似度计算原理,利用Hadoop框架下的Map/Reduce编程模型实现了句群相似度并行计算方法。通过实验验证了该算法的稳定性和处理大量数据的可行性。  相似文献   

16.
MapReduce分布式编程模型为大规模数据密集型计算提供了重要的应用基础平台.其任务调度模型为单点控制模型,这种模型使得体系结构简单,任务调度易于控制,但同时也存在中心节点失效的问题.在Hadoop系统中,当中心节点失效后,为了使得整个工作集群中的作业不中断,在不同版本的Hadoop中采取了按需同步、恢复历史记录和抛...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号