首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 76 毫秒
1.
线网指挥中心是地铁管理控制中的承上启下的重要环节,接入线网各线路的控制中心,实时的监测线网整体的运营状况;并通过与上级政府交通管理部门系统的对接,将相关数据提交至交通管理系统,配合交通管理部门的工作;数据中心是线网指挥中心的核心环节,存储线网所有线路的生产数据和业务数据;目前线网指挥中心的数据中心都是基于传统的数据仓库的架构来创建的,而随着线路的不断增多,数据的种类和数量都在不断增加,传统数仓暴露出成本高,扩容难,维护困难的缺点;该方案提出的基于Hadoop大数据平台的数据中心建设方案,极大地降低了使用和维护成本,Hadoop生态圈包含了各类的组件模块,能够解决建设和使用中遇到的各类问题,提高了数据中心的性能。  相似文献   

2.
齐超  崔然 《软件》2020,(6):177-184
随着互联网时代的到来,互联网数据的产生和收集数量呈爆炸式发展。使用金融机构大数据抓取软件系统处理和存储相关数据成为许多商业机构和研究机构的常态化选择,金融机构大数据抓取软件系统可以简化使用者对于信息传输和信息计算的具体操作,便于提高使用者的使用效率和准确率。本文研究的金融机构大数据抓取软件系统通过Python和Java语言完成,主要包括:金融机构大数据抓取软件系统分析模块、金融机构大数据抓取软件系统优化模块、金融机构大数据抓取软件系统预测模块。在研究的过程当中本文采用了递归随机搜索算法、Java图形界面、Hadoop平台进行设计研究。经过测试,在选用服务器为Intel Atom D510时,金融机构大数据抓取软件系统优化模块在Hadoop集群上开展优化,系统任务执行时间变短,比原来的数据时间缩短了5%以上,优化有效。  相似文献   

3.
基于Hadoop农业大数据管理平台的设计   总被引:1,自引:0,他引:1  
信息技术的高速发展使得每天的数据量以TB级速度暴增,如何有效利用和管理这些爆炸式增长的大数据呢?是当前亟待处理的问题.大数据已经渗透到包括农业领域在内的各个领域,随着农业信息化建设以及物联网技术在农业生产中的应用,产生了海量的农业大数据待存储、管理和处理.本文以成都农业科技职业学院彭州葛仙山农业示范基地的农业信息化建设为背景,根据农业物联网和信息化建设要求,构建高性能基于Hadoop农业大数据管理的平台,实现农业大数据的安全可靠存储、智能管理与应用,最终达到对农业生产的智能预警、智能决策和智能分析的目的,并为农户提供专业的指导.为我国进入精细化种植、精准化控制、可视化管理、智能化决策的智慧农业时代奠定基础.  相似文献   

4.
Hadoop平台下,数据的负载均衡对平台性能的发挥有着深远的影响。首先分析默认数据负载均衡的局限性,针对现有默认HDFS(Hadoop Distributed File System)数据负载均衡算法只考虑存储空间利用率,而未考虑节点间异构性的问题,提出一种量化异构集群数据负载均衡的数学模型。该模型根据节点的存储空间及节点性能计算得到各个节点的理论空间利用率,并根据当前集群存储空间利用率动态调整节点最大负载。实验结果表明,提出的数据负载均衡策略能够让异构集群达到更合理的均衡状态,提高集群的效率,并有效减少作业的执行时间。  相似文献   

5.
以Hadoop平台为基础,开发设计了一种用于企业大数据平台风险监测的系统。该系统模型能够有效防止主机管理环境下的入侵监测保护系统遭受分布式拒绝服务攻击(Distributed Denial of Service attack,DDoS),利用网络神经实现对检测对象的特征选择,并分类配置云服务器,能够检测大数据平台安全风险。  相似文献   

6.
由于构成数据中心的计算设备一般都存在性能上的差异,但是Hadoop调度算法没有考虑不同节点的性能差异,导致节点间出现"忙闲不均"的现象,影响作业的执行效率。针对如上问题,在系统分析Hadoop资源管理机制(Yarn)源代码的基础上,提出了节点性能评价指标,综合考虑节点的硬件配置参数和运行过程中的动态性能指标。在此基础上对Fair Scheduler调度算法进行改进,实现了基于节点性能的任务分配,整体上提高了所有节点的利用率。在Hadoop集群上的实验表明,所提出的节点性能评价指标和对Fair Scheduler调度算法的改进,有效解决了节点的负载均衡问题,整体上提高了作业执行效率。  相似文献   

7.
8.
分布式集群普遍存在负载均衡问题,而Hadoop没有考虑到节点间性能的差异.虽然有负载均衡机制,但是效果不太理想,因此运行过程中经常会出现负载不均衡的情况。针对如上问题,深入分析了Hadoop源代码,理清了Hadoop的运行原理,在Hadoop资源管理机制Yarn中改进了Hadoop任务的排序,建立了新的任务排序规则,提出了对各节点性能评价的指标,分为动态性能指标和静态性能指标。在此基础上对Yarn的FairScheduler算法进行了改进,形成了考虑节点性能的调度算法。重新对Hadoop源码进行了编译,在所搭建的Hadoop平台上进行了对比实验,证明了加入节点性能指标有效解决了Hadoop负载均衡问题,对Hadoop的运行效率有了很大提高。  相似文献   

9.
本文旨在对企业级Hadoop 大数据平台安全管理机制进行探究。首先介绍当前企业级Hadoop 大数据集群安全管理方案存在的问题和不足;然后结合当前Hadoop 生态圈安全管理组件的发展现状和第三方安全信息管理解决方案,针对现有的Hadoop 大数据平台安全管理机制的不足进行优化和整合;最后提出了以Ranger+FreeIPA(Kerberos+LDAP)为整体的Hadoop 大数据平台安全管理解决方案。  相似文献   

10.
基于Hadoop的FP-Growth关联规则并行改进算法   总被引:1,自引:0,他引:1  
大数据环境下,传统的串行FP-Growth算法在处理海量数据时,占用内存过大、频繁项多,适用于大数据情况的PFP(Parallel FP-Growth)算法存在数据量增大无法处理的缺陷。针对这些问题,本文提出了基于Hadoop的负载均衡数据分割FP-Growth并行算法。在Hadoop平台下,本文使用负载均衡和数据分割相结合的方式对原始事务数据集分片实现并行化。实验证明基于Hadoop的负载均衡数据分割FP-Growth并行算法在处理数据量和效率上有所提高。  相似文献   

11.
基于Hadoop的海量农业数据资源管理平台   总被引:2,自引:0,他引:2       下载免费PDF全文
使用传统分布式数据库架构存储和管理海量农业数据存在资源效率不高及存储能力不足的问题,为此,在Hadoop的基础上研究海量农业数据资源组织存储与检索技术,提出基于Hadoop的大文件分块存储方法和海量农业数据资源检索方法。测试及实践结果表明,该方法为构建海量农业数据资源管理平台提供了支持,实现了海量农业数据资源高效的组织和管理。  相似文献   

12.
大数据时代的到来,更强的计算机和更成熟的大数据平台工具让企业从海量数据中挖掘数据价值成为了可能,尤其是基于Hadoop的大数据平台,甚至利用廉价的商业硬件处理TB、PB级别的数据. 在最初Hadoop大数据平台落地建设的过程中,往往功能先行,而忽略了安全的管控策略,直到2009年Yahoo团队提出了基于Kerberos的身份验证方案,才带动了Hadoop大数据平台安全管控工作的全面开展. 本文介绍了Hadoop大数据平台的基本历程,描述了2009年之前Hadoop大数据平台存在的传统安全问题,并尝试着将目前行业内Hadoop生态系统组件的安全性和每个组件的安全解决方案做一次系统的梳理,希望为构建Hadoop大数据平台管控方案时提供参考意见,以便合理利用先进的安全管控方案保护好企业、用户的隐私数据.  相似文献   

13.
XML数据越来越广泛地被用于信息交换与集成中,其数据质量问题引起了人们的关注.解决由数据质量引发的问题,实体识别技术非常关键.为了克服现有方法的不足,在海量XML数据上进行高效的重复对象检测,以实体识别技术为基础提出了基于Hadoop平台的XML文档重复检测算法,它将所有标签节点统称为属性,用实体来描述属性,通过属性的比较,快速地找到在某些属性上相同的所有实体对象,并利用Hadoop应用框架处理海量数据的优势实现并行处理.经过试验验证该方法良好的扩展性,伸缩性和高效性.  相似文献   

14.
基于Hadoop的海量数据存储平台设计与开发   总被引:1,自引:0,他引:1  
随着北部湾海洋生态资源的开发和利用,海量海洋科学数据飞速涌现出来,利用海量数据存储平台合理管理和存储这些科学数据显得极为重要.这里提出了一种基于分布式计算技术进行管理和存储海量海洋科学数据方法,构建了海量海洋科学数据存储平台解决方案,采用Linux集群技术,设计开发一个基于Hadoop的海量数据存储平台.系统由五大模块组成,有系统管理模块、并行加载存储模块、并行查询模块、数据字典模块、备份恢复模块,能够实现存储海量海洋科学数据.系统模块实现结果表明,该系统安全可靠、易维护、具有良好的可扩展性.  相似文献   

15.
聂瑞  卢建军  卫晨 《工矿自动化》2012,38(11):77-80
针对煤炭销售数据量大而信息量少的问题,开发了基于Hadoop平台的OLAP煤炭销售数据分析系统,介绍了系统设计思想及架构,并以销售量统计为例阐述了实现数据深层次快速挖掘和直观显示的具体过程。该系统利用Hadoop云平台对数据进行ETL处理,创建Hive分布式数据仓库,并采用Hive的HQL语言进行OLAP统计分析,能够快速、准确地实现对销售量信息的多层次、多角度、深层次的数据挖掘、统计和分析,并直观、多角度地反映数据分析结果。  相似文献   

16.
云计算技术基于这样一种思想——将大量计算资源组织起来进行统一调度,形成一个计算资源池,向用户提供按需计算的服务。数据共享技术可以在集成各种资源时,在系统各组成部分间共享数据,提高系统的协作能力。该文研究了数据共享的关键技术,并深入分析当前主要的数据共享模型,和HBase数据共享模型。  相似文献   

17.
YARN is a resource management system widely used in Hadoop. It supports MapReduce, Spark, Storm and other computing frameworks, and has become the core component of big data ecology. However, in Hadoop YARN’s existing resource scheduler, a resource guarantee mechanism based on resource reservation, will produce resource fragmentations, leading to a waste of resources. In order to improve the resource utilization and throughput of the cluster, this paper proposes a resource allocation mechanism based on reservation and backfill. In this mechanism, based on the priority of the job, it decides whether to make a reservation to the resource and introduce a backfill strategy to backfill the resource without affecting the execution of the reservation job. Experiments show that the resource scheduling mechanism based on reserved backfill can effectively improve the resource utilization and throughput of Hadoop YARN cluster.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号