共查询到20条相似文献,搜索用时 358 毫秒
1.
基于Hadoop的分布式数据库系统 总被引:1,自引:0,他引:1
云计算是当前研究的热点,包括分布式存储和分布式计算技术。Hadoop是一个能够让用户轻松架构和使用的分布式计算平台,用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。基于对大量数据进行处理和分析的需求,本文分析了基于Hadoop的分布式计算平台,介绍基于Hadoop的分布式数据库系统。 相似文献
2.
常广炎 《电脑编程技巧与维护》2016,(7):50-51
Hadoop的分布式文件系统存储的是非结构化数据,可用来存储海量数据,适合海量数据集的应用程序,但有应用系统的关系数据库中存有大量的结构化数据,为了把现有关系数据库中的结化数据转存到Hadoop中,在Hadoop进行分布式计算处理并把分析结果存回到关系数据库中,Hadoop提供了两个访问关系数据的简单接口DBIn-putFormat和DBOutputFormat.通过具体实例介绍Hadoop与现有关系数据库结合,在Hadoop应用程序中访问关系数据. 相似文献
3.
余庆檄 《计算机光盘软件与应用》2013,(4):166-167
Hadoop平台作为一种新技术,近些年发展非常迅速,它的应用不仅能实现计算的"平民化",而且它可以忽略开发并行应用程序的细节,使程序员只需要专注于业务逻辑即可,从而大大提高了编程开发效率。在云计算相关技术日益发展的今天,Hadoop在企业云存储平台构建中的应用已成为当前企业信息化管理的重要发展趋势,本文在对基于Hadoop的企业云存储构建所依赖的云计算技术以及Hadoop平台作分析说明的基础上,就基于Hadoop的企业云存储的实现进行探究。 相似文献
4.
互联网和物联网技术的飞速发展开启了“大数据”时代。目前,硬件的高速发展催生了许多异构芯片,它们越来越多地出现在大规模数据中心里,支持不同的应用程序,在提升性能的同时降低整体功耗。文章重点介绍了基于 MapReduce编程模型的 Hadoop+框架的设计与实现,它允许用户在单个任务中调用 CUDA/OpenCL的并行实现,并能通过异构任务模型帮助用户。在我们的实验平台上,五种常见机器学习算法使用 Hadoop+框架相对于 Hadoop能达到1.4×~16.1×的加速比,在 Hadoop+框架中使用异构任务模型指导其资源分配策略,对单个应用负载上最高达到36.0%的性能提升;对多应用的混合负载,最多能减少36.9%,平均17.6%的应用执行时间。 相似文献
5.
Hadoop平台作为一个开源的在集群上运行大型数据库处理的框架受到了各个公司的青睐,然而要在Hadoop集群上运行一个作业必须手动设置将近200多个复杂的参数,如何设置这些参数对普通用户来说是非常困难的,该文针对这个问题提出了一种基于策略选择的抽样算法,通过在Hadoop中加入策略感知层,实验结果表明改进的Hadoop框架可以自动优化设置这些复杂的参数,从而提高整个系统的运行效率。 相似文献
6.
传统的数据分析,很难满足现阶段大数据处理效率的要求.Hadoop云计算技术的应用,实现了海量数据存储和分析,提高了数据存储和分析的效率.在总结传统系统利弊的基础上,以Hadoop分布式文件系统(HDFS)取代现有的单机数据存储,以map/reduce应用程序取代传统的单机数据分析,并对其做出优化.实验证明,Hadoop系统架构在生产上部署、投入使用的可行性. 相似文献
7.
8.
Hadoop是一个可实现大规模分布式计算的开源软件平台,已经被广泛应用在云计算领域。从Hadoop分布式文件系统架构的整体入手,描述了其分布式数据存储、分布式任务分配、分布式并行计算和分布式数据库4个方面的核心内容,并论述了HDFS的工作原理、文件操作流程及Map/Reduce工作原理和计算过程。使开发人员深入地理解Hadoop架构的工作原理与实现过程,为云计算背景下的应用程序开发提供重要的参考。 相似文献
9.
常广炎 《电脑编程技巧与维护》2016,(6):70-71
Hadoop的HDFS是一个部署在廉价硬件设备上使用的分布式文件系统,具有高容错性,适合海量数据集的应用程序,可用来存储海量数据,为应用程序提供高吞吐量。HDFS开放了一些可移植操作系统接口,文件系统中数据的访问采用流的方式,在时下企业数据急剧膨胀,海量存储挑战严峻的情况下,提供了一个好的技术方法,海量数据的存储需求就是时下流行的云存储的概念,以存储海量视频数据为实例,介绍HDFS存储海量的过程。 相似文献
10.
云计算的广泛应用导致数据中心的产生.数据中心的能效的高低不仅涉及到电费,还关系到否符合环境法规.作者通过修改Hadoop YARN编程模型,使用RAPL的能耗限制功能来降低应用程序中计算失衡时的能耗.目的是测试在不会明显地降低性能的条件下,通过RAPL接口控制CPU的能耗是否有效.通过实验表明,在同样的负载下, Phadoop架构在分块矩阵乘法上相对于原来的Hadoop架构的能耗降低了34%. 相似文献
11.
杨旻 《数字社区&智能家居》2011,(9)
云计算领域是IT发展的方向,其重要性正日益凸显,Hadoop是云计算领域的一项具体技术。该文以开源的分布式计算框架Hadoop为基础,详细介绍了在学院网络实验室中搭建云计算平台Hadoop教学环境的过程,并给出了具体实现方案。 相似文献
12.
Delphi不但支持个人开发应用程序,还可在Client/Server结构上开发大型的应用程序,目前Delphi 2.0更可以支持32位元的应用开发。 相似文献
13.
分布式集群普遍存在负载均衡问题,而Hadoop没有考虑到节点间性能的差异.虽然有负载均衡机制,但是效果不太理想,因此运行过程中经常会出现负载不均衡的情况。针对如上问题,深入分析了Hadoop源代码,理清了Hadoop的运行原理,在Hadoop资源管理机制Yarn中改进了Hadoop任务的排序,建立了新的任务排序规则,提出了对各节点性能评价的指标,分为动态性能指标和静态性能指标。在此基础上对Yarn的FairScheduler算法进行了改进,形成了考虑节点性能的调度算法。重新对Hadoop源码进行了编译,在所搭建的Hadoop平台上进行了对比实验,证明了加入节点性能指标有效解决了Hadoop负载均衡问题,对Hadoop的运行效率有了很大提高。 相似文献
14.
互联网已经成为大型应用软件运行的平台,B/S结构成了系统开发的首选。但传统的Web应用程序已经不能满足用户及大型应用程序的需求,富Internet应用的推出为Web应用开发注入了活力。而RIA的实现有多种多样的方法。文章根据多年来的工作经验及RIA的设计模式,在Java平台上应用Applet XML Servlet实现了RIA。 相似文献
15.
基于Hadoop的仿射传播大数据聚类分析方法 总被引:1,自引:0,他引:1
唐东明 《计算机工程与应用》2015,51(4):29-34
仿射传播聚类算法(AP)是一个新的聚类分析方法,已经被广泛应用于各种领域。APC算法不能用于大型数据的分析。为了克服这个限制,在Hadoop分布式框架的基础上提出一种改进的放射传播聚类分析方法(基于Hadoop的仿射传播大数据聚类分析方法,简称APCH)。通过在Hadoop环境下重新设计算法流程,APCH算法成为了一个并行化的大数据聚类分析方法。此外APCH算法能够高效操作大数据,并能够直接决定聚类的个数。为了验证方法的性能,在多个数据集上进行了实验。实验结果表明APCH对大数据处理有很好的适应性和延展性。APCH采用开源的方式提供可执行软件程序和源代码,用户可以下载后部署在自己的分布式集群中或者是部署在亚马逊EC2等云计算环境中。所有编译后的执行程序,源代码,用户手册,部分测试数据集均可以从https://github.com/HelloWorldCN/MapReduceAPC上下载。 相似文献
16.
17.
在整体架构上,Storm与Hadoop非常相似,且弥补了Hadoop实时性差的缺点,因此被称为“实时的Hadoop系统”。本文结合实例深入讲述了Storm的Trident特性,同时分享了作者多年积累的流计算经验。 相似文献
18.
19.
20.
目前,基于 Hadoop视频处理的传统方法都是通过MapReduce从本地文件系统读取数据,利用帧字节流进行MapReduce间数据传输,这会产生大量的系统 IO,造成系统资源浪费。针对此问题,提出一种基于Hadoop平台的视频处理方法,实现Hadoop支持的视频类型扩展,设计了MapReduce 相关视频数据处理接口,使 Hadoop 可以更快速处理视频文件。通过在多台计算机组成的集群实验表明,该方法在运行时间上比传统方法缩短10%,IO读写量减少50%以上,提升了Hadoop视频文件的处理效率。 相似文献