首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
基于Hadoop的海量数据存储平台设计与开发   总被引:1,自引:0,他引:1  
随着北部湾海洋生态资源的开发和利用,海量海洋科学数据飞速涌现出来,利用海量数据存储平台合理管理和存储这些科学数据显得极为重要.这里提出了一种基于分布式计算技术进行管理和存储海量海洋科学数据方法,构建了海量海洋科学数据存储平台解决方案,采用Linux集群技术,设计开发一个基于Hadoop的海量数据存储平台.系统由五大模块组成,有系统管理模块、并行加载存储模块、并行查询模块、数据字典模块、备份恢复模块,能够实现存储海量海洋科学数据.系统模块实现结果表明,该系统安全可靠、易维护、具有良好的可扩展性.  相似文献   

2.
随着移动互联网的快速发展,用户行为分析的精确性显得十分重要.给出了移动互联网下大数据用户行为的Hadoop平台搭建方法,介绍了Hadoop集群的构造模块和组件,搭建了Hadoop集群,并进行了测试.  相似文献   

3.
本文旨在对企业级Hadoop 大数据平台安全管理机制进行探究。首先介绍当前企业级Hadoop 大数据集群安全管理方案存在的问题和不足;然后结合当前Hadoop 生态圈安全管理组件的发展现状和第三方安全信息管理解决方案,针对现有的Hadoop 大数据平台安全管理机制的不足进行优化和整合;最后提出了以Ranger+FreeIPA(Kerberos+LDAP)为整体的Hadoop 大数据平台安全管理解决方案。  相似文献   

4.
大数据中Hadoop和Apache Spark这两个名字大家并不陌生.但往往对它们的理解只是提留在字面上,并没有对它们进行深入的思考. 首先,Hadoop和Apache Spark两者都是大数据框架,但是各自存在的目的不尽相同.Hadoop实质上更多是一个分布式数据基础设施:它将巨大的数据集分派到一个由普通计算机组成的集群中的多个节点进行存储,意味着您不需要购买和维护昂贵的服务器硬件.同时,Hadoop还会索引和跟踪这些数据,让大数据处理和分析效率达到前所未有的高度.Spark,则是那么一个专门用来对那些分布式存储的大数据进行处理的工具,它并不会进行分布式数据的存储.  相似文献   

5.
根据21CMA相关器的算法特点,在对比基于CPU并行的MPI集群、MPI+CUDA异构并行集群和Hadoop+CUDA异构并行集群的架构特点的基础上,提出了一种基于Hadoop+CUDA平台实现软相关器的方法。本方法利用GPU在计算FFT、向量乘和向量加等密集型计算模型的优势,设计相关器的并行模型,使其性能较前期在CPU并行的MPI集群实现的相关器有了大幅提升。同时,本文选择广泛应用于大数据处理平台的Hadoop软件架构,利用Hadoop Streaming工具实现非Java编写的程序在分布式系统中并行执行,非常便捷地获得了集群系统的线性加速比。Hadoop HDFS并行文件系统管理结果数据和过程日志更加灵活可靠,为后续的大数据分析提供了支撑环境。  相似文献   

6.
针对水利普查数据量大、属性维度多等特点,论文通过探讨和分析Hadoop的组成和运行机制,提出了一种基于Hadoop云平台的水利普查数据挖掘系统,介绍了系统的设计思想及架构,详细阐述系统内各个模块的功能作用。该系统利用Hadoop云平台实现了一种改进后的并行关联规则算法,既充分利用了Hadoop平台并行处理数据的能力,又降低了开发所需的成本。通过进行单机对比测试和集群测试,证明了系统具有更好的可用性和较高的挖掘效率。  相似文献   

7.
Hadoop 是一个实现 MapReduce 计算模型的开源分布式并行编程框架,借助于 Hadoop,程序员可以轻松编写分布式并行程序,并将其运行于计算机集群上,完成海量数据的计算。本文介绍了基于Hadoop架构的系统的设计与实现,介绍如何提高Hadoop的分布式文件管理系统(HDFS)和MapReduce的执行效率与速度,以及 Hadoop 的安装部署和基本运行方法。  相似文献   

8.
油气勘探对高性能集群的稳定性提出了更高的要求,为解决其与传统管理技术间的矛盾,设计并实现基于Hadoop技术的集群状态数据存储与分析平台。该方案包括状态数据收集、HBase存储与通过MapReduce实现的k-means聚类算法。通过对HBase的压力测试以及k-means算法的聚类效果分析验证了该方案的实用性,其适用于高性能集群的主动方式故障管理。  相似文献   

9.
Hadoop存储平台在云计算大数据存储方面占有显著优越的地位,利用Hadoop对海量数据进行快速、准确的分析是现如今最优的解决方案.详细阐述了使用微软Azure云平台的HDInsight(Hadoop集群存储架构)对Twitter推文进行实时大数据分析.  相似文献   

10.
《软件》2016,(2):93-97
随着Hadoop生态的普遍应用,Hadoop生态日渐增长,Hadoop这样分布式系统的也日益变得庞大,庞大系统的维护和监管也变成一项艰难的任务,Hadoop生态系统的维护和管理也越来越重要,Amabri作为一款Hadoop分布式生态系统的管理工具,逐渐在各公司所企业所接受,但是Ambari目前只能管理系统源码中指定的服务,本文介绍了Ambari的功能,通过分析Ambari的功能和内部实现。将一款自开发的分布式任务调度系统,加入到Ambari的管理之下,实现安装,启动,警报的全自动化,减轻运维管理人员的负担,同时为用户打造用户专属的监管系统做出一点贡献。  相似文献   

11.
基于Hadoop的知识管理系统可以增强企业海量知识存储与处理的能力,实现面向管理决策的知识发现.通过研究Hadoop平台及其特点,分析了基于Hadoop的知识管理系统的优势,构建了基于Hadoop的企业知识管理框架模型,并设计了基于Hadoop的知识管理系统的逻辑架构,最后利用基于MapReduce的协同过滤算法对知识推荐模块进行了详细设计.应用Hadoop等大数据技术及推荐系统技术构建知识管理系统既能实现知识管理的个性化和智能化,又能满足企业知识管理系统的扩展性和经济性的需求.  相似文献   

12.
针对城市安全问题,为实现视频监控的可信预警、辨别潜在的突发事件并及时处理,基于Hadoop搭建了身份识别应急联防移动处置平台,采用HDFS Streaming数据流形式读取视频数据,利用MapReduce框架在计算集群中对视频数据进行分布式分析,使用OpenCV集成的LBPH算法实现视频目标的有效跟踪。平台功能覆盖了样本信息采集、隐患发现、信息发布、应急处置等安全管理应急联防的全过程,可直接服务于应急现场管理,具有极强的适应性和便捷性。  相似文献   

13.
介绍Hadoop平台的基本概念.着重分析其中的HDFS和MapReduce这两种核心技术。详细描述Hadoop集群环境的搭建过程,将Hadoop应用到一个文件发布系统中,针对不同数量级的文件在集群数不等的情况下对文件上传操作进行耗时比较。实验结果表明,数据量越大,集群节点数越多,Hadoop集群处理数据的能力就越强。  相似文献   

14.
基于Hadoop数据库技术建立一套列车管理系统。介绍Hadoop大数据平台的应用特点以及列车管理系统总体架构和数据架构,建立调度管理、检修管理以及安全管理等数据服务为基础的系统功能体系,最后展示列车管理系统部分功能的实现结果。  相似文献   

15.
针对Hadoop异构集群中计算和数据资源的不一致分布所导致的调度性能较低的缺点,设计了一种基于Hadoop集群和改进Late算法的并行作业调度算法;首先,介绍了基于Hadoop框架和Map-Reduce模型的调度原理,然后,在经典的Late调度算法的基础上,对Map任务和Reduce任务的各阶段执行时间进度比例进行存储和更新,为了进一步地提高调度效率,将慢任务迁移到本地化节点或离数据资源较近的物理节点上,并给了基于改进Late算法的作业调度流程;为了验证文中方法,在Hadoop集群系统上测试,设定1个为Jobtracker主控节点和7个为TaskTracker节点,实验结果表明文中方法能实现异构集群的作业调度,且与其它方法比较,具有较低的预测误差和较高的调度效率。  相似文献   

16.
智能电网需要收集海量设备状态监测数据,这对数据存储与查询提出了更高的要求。为处理这些海量数据,设计并实现了基于Hadoop技术的数据存储系统,包括Hadoop集群、存储客户端和查询客户端。通过基准测试、存储结果验证和查询性能分析,验证了该系统具有分布式海量存储及高效查询的优势,适合智能电网环境下设备状态监测数据的存储。  相似文献   

17.
当前Internet上存在着海量的日志数据,他们中蕴藏着大量可用的信息。对海量数据的存储和分析都是一个艰巨而复杂的任务,单一主机已经无法满足要求,使用分布式存储和分布式计算来分析数据已经成为了必然的趋势。分布式计算框架Hadoop已经日趋成熟,被广泛的应用于很多领域。该文描述了一个针对大日志分析的分布式集群的构建与实现过程。介绍了日志分析的现状,使用vmware虚拟机搭建了Hadoop集群和日志分析系统的构建方法,并对实验结果进行了分析。  相似文献   

18.
针对Hadoop集群部署方式过程繁琐复杂、耗时费力、运维难度大,并且不利于集群的快速扩展的问题,提出一种结合Docker容器化技术快速、简单、灵活部署集群的解决方案。该方案综合利用了Docker在应用分发和Ambari进行集群管理的优势,把Ambari及其运行环境和配置构建成Docker Image,并把多节点容器的运行和Hadoop的部署过程写成Shell脚本。只需一条命令,即可实现跨平台的任意节点Hadoop集群的自动化安装部署。实验证明,该方案简单可靠并极大的提高了集群部署的效率。这有利于科研和数据分析人员将更多精力用于其他相关工作。  相似文献   

19.
在智慧城市中传感器和设备收集各种数据,实现增值服务.主要关注来自智慧城市中的智能房屋数据,提出用于存储和处理大规模房屋数据的Scallop4SC平台,实现智慧城市服务.房屋数据分为房屋日志数据和房屋配置数据,分别使用HBase和MYSQL管理.通过HBase键值以schemaless方式存储管理异构日志数据.MySQL管理配置数据,完成房屋数据查询.多节点Hadoop/Map Reduce集群处理巨量房屋日志数据.最后通过实际一年的房屋日志数据,计算智能设备能耗并完成实验性评估.根据实验结果,探讨Scallop4SC处理智慧城市的数据规模.  相似文献   

20.
Hadoop云平台技术可以帮助人们完成通信信令的存储和查询,将通信信令进行解码并生成通话详细记录(CDR),存储在Hadoop的HDFS系统中进行数据的处理.为了提高查询速度,可将CDR建立查询索引并存储在HBase中.同时为了防止单结点失效,并处理好负载平衡,采用ZooKeep来管理整个集群.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号