首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 209 毫秒
1.
Hadoop大数据实验环境搭建的复杂性已经成为很多分布式应用初学者或者大数据的业务应用开发者学习和研究大数据技术一道很难跨越的门槛.Ambari是一种支持Hadoop集群部署、监控和管理的开源工具,通过安装向导来进行集群的搭建,简化了集群供应.本文提出基于Ambari快速部署Hadoop大数据集群各组件的实践方法,重点...  相似文献   

2.
负载均衡技术作为大数据存储技术的核心,其直接关系到构建的大数据存储系统的效率和稳定性,文章以Hadoop大数据存储系统平台为例,提出了一种高效的大数据存储系统负载均衡算法,该算法在传统的Hadoop存储系统负载均衡的算法基础上,通过增加了考虑优先级处理超负载的策略,对系统中的超负载的机架进行有限平衡处理,以解决传统的Hadoop存储系统负载均衡算法对处理超负载机实时性低,导致系统节点崩溃详细的问题,可以有效地提高整个基于Hadoop架构的大数据存储系统的稳定性和数据存储效率。  相似文献   

3.
随着信息技术的猛烈发展,各行各业产生的数据呈指数型增长。如何利用,分析,整合这些"大数据"成为信息时代的一大挑战。文章针对信息时代下,大规模数据处理分析效率等一系列相关问题,利用Hadoop技术,设计并实现了一套基于Hadoop和MapReduce的大数据处理系统,该系统利用Hadoop分布式文件系统(HDFS)存储数据,利用Hadoop Map Reduce框架分布式处理数据分析任务。实验结果表明:该系统可以将单一数据处理任务分配到一个Hadoop集群上去,继而提高大数据文件处理效率。  相似文献   

4.
大数据解决方案必须面对三个核心的问题,即大数据的存储、分析以及管理.文章主要论述了Hadoop生态系统是怎样处理的,大数据的定义以及Hadoop生态系统的含义.  相似文献   

5.
Hadoop是业界领先的大数据应用平台,是一个利用整个集群资源为大数据集合提供分布式存储和分布式计算处理能力的软件框架。本文讲述Hadoop在中国移动手机阅读BI系统中的应用实例,从而给出一种大数据处理方案的推介。  相似文献   

6.
个人健康信息服务系统作为现代医院健康管理系统的一个重要分支,在整个医疗系统中起着十分重要的作用.本文论述了通过Hadoop大数据平台构建了一种个人健康信息管理的方法,设计并且实现了一套基于Hadoop的个人健康信息管理系统.Hadoop作为一种日趋成熟的大数据平台,与医疗信息化相结合,为个人医疗中产生的数据提供了一种安全可靠的存储途径,实现医疗数据的集中管理.本系统利用Hadoop平台适合海量数据的运算与存储的特点,建立了个人健康信息数据中心,实现对患者健康信息最完整、最准确的管理.  相似文献   

7.
夏畅  孙恒超 《电信快报》2014,(12):34-38
传统的关系型数据库架构在应对电信运营商海量的大数据处理时建设成本高昂,处理能力低下,已经无法满足在大数据场景模式下的新型业务需求。Hadoop云计算平台作为一种新型的大数据处理方案,充分利用其低价格和高性能的优势,可以满足海量数据存储及数据处理功能。文章在对Hadoop技术介绍的情况下,设计一套基于Hadoop架构的数据查询平台,实验证明,该平台能够有效提高数据处理效率,降低建设成本。  相似文献   

8.
为了有效帮助学校实现对校内数据的集中管理和高效运用,可以通过利用Hadoop技术搭建起相应的大数据计算平台。文章将在此背景下,通过简单介绍Hadoop的构造模块以及具体组件,尝试对基于Hadoop的高校大数据计算平台构建进行简要分析研究。  相似文献   

9.
随着互联网应用的飞速发展和信息的社会化数据呈爆发式的增长,传统的关系数据库在处理分析如此海量的数据时出现性能和可扩展·陆的瓶颈,通过介绍目前大数据时代面临的挑战,分析了大数据对IT系统的挑战以及针对大数据业务特点的应对策略。目前犬数据技术目前还没形成统一标准,但业界已经广泛使用Hadoop分布式系统作为其大数据处理平台,对大数据环境下Hadoop分布式系统进行了详尽的研究与设计,包括分布式文件系统、并行计算模型、分布式数据库、分布式锁服务等各个功能模块,大数据环境下的Hadoop分布式系统将更有效支撑未来电信运营商业务的发展。  相似文献   

10.
如今,随着不断增加的大数据解决方案需求,Apache Hadoop已经迅速成为存储和处理海量结构化和非结构化数据的首选平台之一。企业只需在少量基于英特尔至强处理器的服务器上部署这种开源软件框架,就可用较低的成本迅速开始进行大数据分析。随后可逐步将其Apache Hadoop集群扩展到数百乃至数千个节点,从而将多PB数据的查询响应时间缩短到次秒级。英特尔与Apache Hadoop社区开展协作,支持系统管理员尽可能地实现其Apache Hadoop集群的高性能,  相似文献   

11.
文章构建了云中实验室Hadoop大数据实验平台,用15台服务器、两台交换机建立了虚拟化平台,将大数据专业课所需的环境虚拟在服务器群集中;在大数据服务器中利用Hadoop的HDFS,Map Reduce,Zookeeper和HBASE高可用性核心技术,有效地实现了中原工学院大数据教学系统的高可用性、可靠性,保证系统服务的不间断运行。  相似文献   

12.
Hadoop是一种处理和存储大数据的平台,针对异构Hadoop集群下采用均等数据分配方法易降低系统计算性能的问题,提出一种自适应平衡数据存储的大数据放置策略。根据异构集群中各节点的计算能力比例,将数据分配到节点中。在任务处理过程中,根据反馈的任务完成时间信息,动态更新节点的能力比例,自适应调整数据分配,从而使异构Hadoop集群中各节点处理数据的时间大致相同,降低节点之间的数据移动量,提高了节点利用率。实验结果表明,该策略能够有效缩减任务完成时间,提高了系统的整体性能。  相似文献   

13.
CPS深度融合了计算、通信、控制技术,实现了对物理世界实体感知、通信、计算和控制过程.TCPS是CPS在交通领域的应用,是新一代智能化交通管理的解决方案.TCPS大数据是交通物理世界实体的感知信息,是所有后续决策制定的基础,是交通智能化管理的关键.本文研究了CPS、TCP以及Hadoop平台的技术原理,分析了TCPS大数据处理的关键问题,提出一种基于Hadoop的交通信息物理系统大数据架构平台的解决方案,设计了基于Hadoop的TCPS大数据平台架构,讨论了基于MapReduce的TCPS大数据挖掘方法和流程,为下一阶段的智能化交通管理系统建设提供技术支持.  相似文献   

14.
Docker是Paas提供商dotcloud公司研发的一个基于LXC的高级容器引擎,具有一次构建,到处运行优势。当前在Hadoop技术的发展中,如何把Docker技术应用于Hadoop平台的建立,尤其是对于Hadoop on Docker规模部署问题的解决,一直是一个备受关注的技术难点。针对以上问题,文章提出基于Docker的一键部署Hadoop7层解决方案,首先从Docker环境部署入手,简要介绍了镜像部署以及容器部署的过程,重点分析并实现了Hadoop集群(HDFS+YARN)的一键部署方法,并通过bind mounts(绑定挂载)方式解决了集群数据存储问题,给出关键脚本代码的实现过程。实践表明,Hadoop on Docker规模一键快速部署具有灵活方便、开销小、效率高、可扩展性强等优势,提高了Hadoop大数据技术学习和生产环境部署效率。  相似文献   

15.
大数据技术发展与开源运动的结合已成为大数据技术创新中的一个鲜明特点。目前,大数据分析处理流程中所使用的关键技术几乎都源自开源模式,知名的大数据开源项目如分布式计算和存储系统Hadoop、基于内存计算的集群计算系统Spark,以及多款非关系型数据库(NoSQL)产品等。文章对Hadoop、Spark等知名大数据开源项目进行分析和解读,为读者开展大数据应用提供技术参考和支持。  相似文献   

16.
在Hadoop云平台进行数据云存储系统的优化设计,提高大容量数据快速存取能力,构建基于Hadoop的大容量数据快速存储系统,采用负载均衡调度和云存储优化方法进行存储系统构架,进行Hadoop云平台的海量大数据进行信息融合处理,对Hadoop云平台大容量数据信息流进行非线性时间序列重组,采用特征空间降维方法降低存储开销,优化存储结构,提高存储和调度的速度。仿真结果表明,采用该方法进行Hadoop大容量云存储系统设计,提高了数据存储的吞吐性能和快速存取性能。  相似文献   

17.
Hadoop应用研究主要包括云存储,数据查询,数据分析,数据挖掘,关联广告等,不同的Hadoop应用对机器的资源要求不同,主要分为CPU、内存、I/O、网络密集型任务。传统的Hadoop集群在物理机上任务会比较密集,各种应用只能排队依次处理,机器的CPU、IO和存储会非常繁忙,负载不均衡。虚拟化Hadoop可以帮助用户在基础设施上实现灵活、弹性、安全和快捷的大数据资源调度。本文提出一种动态规划算法动态调度资源,在虚拟化后的Hadoop集群可以把不同的资源要求的应用单独分开放在不同的物理机上并行高效地处理,从而大大提高Hadoop集群的性能。  相似文献   

18.
针对网络舆情数据存在数据量大、分散度高、数据非结构化等特点,而常用的文本分类算法难以实现对网络舆情快速、准确分类的问题,因此提出一种基于Hadoop平台的并行kNN网络舆情分类算法,利用Hadoop分布式存储特性和设计并行kNN的MapReduce程序来解决处理大批量数据时存在的问题.对并行kNN算法进行分类能力和分类效率进行测试验证,实验结果表明,基于Hadoop平台的并行kNN网络舆情分类算法在处理大批量网络舆情数据时,能够快速、高效和准确对网络舆情数据进行分类.  相似文献   

19.
《信息技术》2016,(9):93-95
互联网+时代,信息交流和社交方式都发生了极大的变化,自媒体的数据产生方式让大数据时代加速到来。Hadoop云计算实现框架是大数据管理中最优的解决方案,使用最为广泛,效果最为明显。文中针对运用云计算和云平台Hadoop的知识,对现有数据挖掘技术中的关联规则进行分析,对经典Apriori算法进行梳理并提出了一种基于MapReduce的改进Apriori数据挖掘算法。最后,通过Hadoop平台进行仿真实验,算法用Java实现,通过对训练数据迸行挖掘,结果表明改进算法在处理大数据时空间复杂度更低,且挖掘时间随着数据规模的增大呈线性增长。实验结果表明,改进算法在进行大数据挖掘比经典算法有了性能的提升。  相似文献   

20.
随着Hadoop在学术界和工业界的广泛应用,极大推动了大数据技术的发展,如何更为高效地使用Hadoop成为了业界关注的焦点。本文介绍了对Hadoop性能进行仿真的方法,及其实现机制。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号