首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
在大数据时代,为了提升集群服务器的利用效率,实现资源集约化和统一管理,向不同的用户提供安全可靠和易于操作的大数据多租户服务系统的需求随之出现。基于这种需求,本文提出一种大数据租户身份验证与数据鉴权的管理服务平台,其多租户体系由LDAP、Kerberos和自研的权限中心配合实现。其中,LDAP与Kerberos集成实现租户的管理与保障租户身份鉴定的安全性,权限中心与LDAP配合实现租户权限策略的存储与访问。此外,管理服务平台还能够根据Hadoop集群服务节点资源情况灵活部署,通过与租户建立映射实现平台账号间的信息隔离,对多租户系统中组件的运行状态提供监控,并为多租户系统提供可视化的操作页面。  相似文献   

2.
Hadoop是业界领先的大数据应用平台,是一个利用整个集群资源为大数据集合提供分布式存储和分布式计算处理能力的软件框架。本文讲述Hadoop在中国移动手机阅读BI系统中的应用实例,从而给出一种大数据处理方案的推介。  相似文献   

3.
在通信系统飞速发展的时代背景下,基于HIVE的通信系统KPI数据存储方案也逐渐引起人们的关注,信息通信系统大数据技术通过分布式的集群能够高效存储海量数据并高效计算,是信令系统的有效解决方案.本文认为通信系统可以统一部署大数据集群,通过多租户模式应用系统解决通信的网络管理与优化运维,为相关的理论与实践工作者提供有益参考.  相似文献   

4.
当今,Hadoop已经成为了大数据存储和大数据挖掘的主要平台.虽然Hadoop平台通过分布式的机器集群来实现高性能的并行计算,但由于其由廉价主机组成,故当集群负载增大时,便不可避免地在某机器上出现瓶颈.针对此问题,提出一种基于信息增益的瓶颈检测算法,该算法通过计算各个资源的信息增益来检测集群的瓶颈资源.实验证明了该瓶颈检测算法具有可行性.  相似文献   

5.
Hadoop应用研究主要包括云存储,数据查询,数据分析,数据挖掘,关联广告等,不同的Hadoop应用对机器的资源要求不同,主要分为CPU、内存、I/O、网络密集型任务。传统的Hadoop集群在物理机上任务会比较密集,各种应用只能排队依次处理,机器的CPU、IO和存储会非常繁忙,负载不均衡。虚拟化Hadoop可以帮助用户在基础设施上实现灵活、弹性、安全和快捷的大数据资源调度。本文提出一种动态规划算法动态调度资源,在虚拟化后的Hadoop集群可以把不同的资源要求的应用单独分开放在不同的物理机上并行高效地处理,从而大大提高Hadoop集群的性能。  相似文献   

6.
各种信息数据在迅猛增长,云计算技术的出现为海量数据的处理提供了良好的解决方案。Hadoop 是云计算技术中分布式并行编程框架的开源实现,它利用集群的并行计算和存储能力,高效的完成对海量数据的处理,云计算能够为社会创造出更大的价值。最后通过Hadoop组织廉价的计算机资源搭建了一个分布式云计算平台,具有高容错、高效性、高扩展性等优势,并完成对数据处理能力和平台可扩展性进行性能测试与分析。  相似文献   

7.
随着网络技术的发展,用户的数据量呈现指数级的增长,产生的海量数据单靠一台高性能的计算机存储,成本很高,不适合大部分的用户。基于Hadoop分布式集群平台,在构建低价的硬件上,成本低,应用场合广泛,能够满足海量数据存储的需求。介绍了Hadoop发展前景趋势和三大核心技术,详细分析了分布式集群的构建方法,成功构建分布式集群平台。  相似文献   

8.
随着企业信息化水平和企业精细化管理要求的不断提高,企业对数据管理的需求也随之增强,如何提高企业数据质量更是需要重点解决的问题.针对电力企业数据质量管理面临的挑战,创新提出了分布式数据质量管理解决方案.针对集中式数据质量系统的性能瓶颈,在研究数据质量系统特点并借鉴国内外对大数据的解决方案后,提出了基于Hadoop分布式处理框架的解决方案.利用Hadoop集群,可以把缺陷数据从Oracle 中抽离,分散存储在集群里多台服务器上,以有效提高磁盘I/O性能和数据分析性能.  相似文献   

9.
随着大数据技术的飞速发展,大数据技术为各行各业的数据存储和分析提供了有力的技术支撑,在Hadoop大数据集群平台构建Hive数据仓库,使用Hive SQL语句对数据进行查询、汇总和数据分析;Hive本身的数据存储依赖于HDFS分布式集群环境,Hive通过将Hive SQL转换成MapReduce程序,通过大数据集群完成并行计算。文章通过构建Hive数据仓库,通过爬虫获取到腾讯证券中大陆在美上市股票数据,数据处理后,存储到Hive数据仓库。并使用Hive SQL完成基本的数据分析、查询和数据汇总,完成DDL、DML、DQL的基本应用,并在Hive数据仓库完成表的简单查询、复杂查询、表的连接等应用。  相似文献   

10.
面对社会企事业单位、网络业务场景中大量的数据信息资源,传统以DFS为主的文件系统,由于其本身的物理存储资源,不一定直接连接于本地节点,且不能进行海量数据信息的分块切分与存储,围绕近年来网络数据存在的海量化、类别丰富化、并行计算困难、高并发读写等问题,引入Hadoop分布式文件系统、HDFS存储结构、HAR归档文件,构建起Hadoop分布式文件存储平台,开展多种文件类型的读取写入、判别查询、合并处理、缓存加载与备份存储,并比较DFS、HDFS两种文件计算方式的内存消耗、存储效率,以保证文件存储的安全有效性。  相似文献   

11.
随着电力行业对新技术的需求,云平台通过跨数据中心、跨集群的高可用及资源动态调度的能力,满足建设分布式数据中心的需求;通过延伸集群保护关键数据应用不受单点范围故障影响,实现灾难快速切换;通过实现细粒度的资源分配及保护策略,支持任意多样化应用部署形态,来满足云平台技术在电网企业的深化应用.  相似文献   

12.
随着信息技术的发展以及各种智能设备的普及,设备的平台多样化使得现有电子数据勘查取证分析装备已不能满足网络和存储技术所需要的高速数据镜像存储和海量数据相关性分析等要求,并表现出操作复杂、效率低等缺陷。设计并实现了一种高效的基于Hadoop的分布式取证系统,它能够支持多介质并行取证的工作场景,并通过调度控制服务将不同的证据介质中的数据存储到不同的分布式数据存储服务器上,每个取证任务运行时都可以独占一个取证介质,从而实现多介质的并行取证分析。实验数据显示,搜索一个2~4 GB的文本数据的响应时间可以达到仅0.1 s。  相似文献   

13.
随着互联网上信息量飞速增长,海量数据的索引出现了难题,现行的索引方案已经难以提供高效、可靠的服务,为此,设计并实现了一种针对海量数据进行索引的平台模型。该平台模型首先利用Solr分布式索引器生成索引文件,然后利用Hadoop分布式集群,以HDFS分布式文件系统、Map Reduce分布式并行计算模型、Zookeeper同步协同系统以及Hbase分布式数据库技术来处理、协调管理索引和存储海量数据,最后通过实验测试,该平台模型可以克服现行的海量数据索引时存在的效率低的问题,同时具有良好的扩展性和可靠性。  相似文献   

14.
随着信息技术的猛烈发展,各行各业产生的数据呈指数型增长。如何利用,分析,整合这些"大数据"成为信息时代的一大挑战。文章针对信息时代下,大规模数据处理分析效率等一系列相关问题,利用Hadoop技术,设计并实现了一套基于Hadoop和MapReduce的大数据处理系统,该系统利用Hadoop分布式文件系统(HDFS)存储数据,利用Hadoop Map Reduce框架分布式处理数据分析任务。实验结果表明:该系统可以将单一数据处理任务分配到一个Hadoop集群上去,继而提高大数据文件处理效率。  相似文献   

15.
基于Hadoop架构,提出一种并行的决策树挖掘算法实现大数据集间的知识挖掘。通过MapReduce并行编程模式实现Hadoop架构下SPRINT并行挖掘算法的频繁项集,解决了大数据集挖掘效率低下,时间消耗量大的问题。SPRINT算法通过对原始数据集进行划分,并将分块数据发给不同Map进程并行计算,使系统存储和计算资源得到有效利用,运用MapReduce各计算节点将挖掘结果数据汇聚,减少中间结果数据量,使并行挖掘时间显著减少。SPRINT算法并行化实验表明,Hadoop架构下的SPRINT并行挖掘算法具有良好的可扩展性和集群加速比。  相似文献   

16.
快速处理和存储电子商务类网站庞大的高并发访问量和海量数据,解决由于瞬间并发访问量过大造成网站崩溃、服务暂停的问题,部署分布式集群环境系统.使用三台虚拟机模拟分布式集群环境,实现分布式集群应用系统的高吞吐、高并发和高可靠性能.  相似文献   

17.
夏畅  孙恒超 《电信快报》2014,(12):34-38
传统的关系型数据库架构在应对电信运营商海量的大数据处理时建设成本高昂,处理能力低下,已经无法满足在大数据场景模式下的新型业务需求。Hadoop云计算平台作为一种新型的大数据处理方案,充分利用其低价格和高性能的优势,可以满足海量数据存储及数据处理功能。文章在对Hadoop技术介绍的情况下,设计一套基于Hadoop架构的数据查询平台,实验证明,该平台能够有效提高数据处理效率,降低建设成本。  相似文献   

18.
为了解决当前加速器控制系统在数据管理方面所面临的海量数据安全存储和高效分析处理的问题,在现有的基础上引入了Hadoop大数据框架,并结合大数据其他相关组件,构建一个分布式数据仓库系统。文章详细阐述了数据仓库的搭建过程,包括软硬件架构以及将数据从现有数据库抽取、转换和加载到数据仓库的方案。特别是针对系统归档数据的存储和分析需求,根据实际应用场景设计一个基于HBase的存储解决方案。在系统部署完成后,进行了吞吐量测试,并与当前使用的传统数据库进行性能对比。测试结果显示,基于Hadoop的数据仓库系统在海量数据存储、高性能查询以及数据分析处理方面都表现出明显的优势。这一改进为加速器控制系统提供了更强大的数据管理和处理能力,有望为加速器在未来的发展提供更多可能性。  相似文献   

19.
如今,随着不断增加的大数据解决方案需求,Apache Hadoop已经迅速成为存储和处理海量结构化和非结构化数据的首选平台之一。企业只需在少量基于英特尔至强处理器的服务器上部署这种开源软件框架,就可用较低的成本迅速开始进行大数据分析。随后可逐步将其Apache Hadoop集群扩展到数百乃至数千个节点,从而将多PB数据的查询响应时间缩短到次秒级。英特尔与Apache Hadoop社区开展协作,支持系统管理员尽可能地实现其Apache Hadoop集群的高性能,  相似文献   

20.
基于Hadoop开发的海量数据存储平台优势显著,使用者无需掌握架构底层的搭建细节,只需根据应用层的功能指引便可以开展分布式程序的开发工作。文章提出的存储平台的最底层即为HDFS系统,可用于存储Hadoop集群中所有存储节点对应的文件。HDFS上一层是MapReduce引擎,主要由Job Trackers和Task Trackers组成。基于Hadoop的海量数据存储平台能大幅度提升数据录入、查找、调用的效率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号