首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
基于Hadoop的云存储的研究及实现   总被引:1,自引:0,他引:1  
首先描述了云计算、云存储的概念、云计算的体系结构及云存储的架构模式;然后介绍了Hadoop工作原理及其文件存储的方法;最后基于eyeOS的Web操作系统,对传统的文件存储方法进行改进,采用Hadoop的HDFS技术实现文件的分布式存储及容错控制。  相似文献   

2.
分布式存储系统HBase关键技术研究   总被引:1,自引:0,他引:1  
张智  龚宇 《现代计算机》2014,(11):33-37
HBase是一个面向列的非关系型的开源分布式存储系统,它基于Hadoop HDFS文件存储系统,使用MapReduce来处理海量数据,利用Zookeeper作为协同服务,它使用简单的键值对映像关系为超大规模和高并发的海量数据实时响应系统提供一个很好的解决方案。对HBase的体系结构、数据模型、MapReduce算法设计等几个方面进行详细阐述,并对HBase的未来发展做出展望。  相似文献   

3.
基于Hadoop的云存储实践   总被引:3,自引:0,他引:3  
随着网络和服务器的迅速成长,数据的容量越来越大,数据的存储面临严峻的挑战,怎样有效地存储数量庞大的数据,云存储是个不错的选择。简要介绍云计算和云存储的概念,并以Hadoop为平台进行一个数据处理的实验,统计相同文件名的个数。  相似文献   

4.
随着教学平台数据的爆炸式增长,传统的教学平台在海量信息处理方面带来了较大的压力,对数据的存储、检索等关键技术提出了更高要求.在研究分析云计算领域的基础上,提出了利用Hadoop云计算框架解决教学平台中海量数据存储、检索的问题,优化了平台的数据存储和检索功能,并对平台做了系统的测试和验证.  相似文献   

5.
针对数据中心存在大量数据冗余的问题,特别是备份数据造成的存储容量浪费,提出一种基于Hadoop平台的分布式重复数据删除解决方案。该方案通过检测并消除特定数据集内的冗余数据,来显著降低数据存储容量,优化存储空间利用率。利用Hadoop大数据处理平台下的分布式文件系统(HDFS)和非关系型数据库HBase两种数据管理模式,设计并实现一种可扩展分布式重删存储系统。其中,MapReduce并行编程框架实现分布式并行重删处理,HDFS负责重删后的数据存储,在HBase数据库中构建索引表,实现高效数据块索引查询。最后,利用虚拟机镜像文件数据集对系统进行了测试,基于Hadoop平台的分布式重删系统能在保证高重删率的同时,具有高吞吐率和良好的可扩展性。  相似文献   

6.
本文简要介绍了云存储的概念以及云存储相关技术,分析了Hadoop与OpenStack各自的优缺点,最后提出了Hadoop与OpenStack云存储整合的两种方式,为今后云存储建设开拓了思路。  相似文献   

7.
近年来,三维设计、协同设计在设计院中逐渐推广使用,设计院面临着文件和数据量的快速增长,现有的文件存储设施已不能适应业务增长的需求。本文首先描述了云计算和云存储的概念,分析了云存储的体系结构和技术优势,提出了基于Hadoop构建的云存储系统模型,并应用于数据备份、归档及数据共享等领域,满足了设计院对海量数据存储、数据共享和数据挖掘等要求。  相似文献   

8.
高职院校纷纷开设云计算技术和大数据技术专业,专业间既紧密联系又各有侧重,专业课程也有交叉,使学生在学习专业知识时存在一定误区和困惑。为解决教师教学实训过程中的瓶颈难点,深化学生对大数据和云计算技术的掌握程度,针对云计算技术中OpenStack项目和大数据技术中Hadoop项目进行融合部署,在OpenStack私有云成功配置的基础上,申请云中的资源创建云主机,进行Hadoop完全分布式集群部署和配置,使师生在该教学实训环节成功实现配置,进一步加深对大数据和云计算技术的理解,促进专业课程知识的深入学习。  相似文献   

9.
针对海量数据的指数级增长,现有的文件存储系统很难满足现有系统需求,提出基于Hadoop的Scool云存储平台,系统通过采用Linux集群技术、分布式文件系统和云计算框架等技术,来实现海量数据存储和高速数据处理。通过比较云存储和传统存储模式的区别,分析了云存储技术优势和可行性,介绍了云存储架构模型,设计了基于Hadoop的Scool云存储文件管理系统,为今后深入研究云计算和云存储提供了一定的基础。  相似文献   

10.
基于存储结构重配置的分布式存储系统节能算法   总被引:2,自引:0,他引:2  
作为云计算底层核心基础设施,分布式数据存储系统是各种云计算服务的基础,是云计算重要的组成部分.然而随着系统规模的不断扩大以及设计时对能耗因素的忽略使其暴露出高能耗问题.由于存在数据可用性要求,使其并不能简单采用已有节能技术解决能耗问题,保证数据可用性成为设计分布式存储系统节能算法的前提.对系统与数据的可用性进行了建模,并通过对存储结构与机制、节点状态与数据块可用性之间的关系的研究提出构造数据块可用性度量矩阵解决数据可用性完全覆盖问题.定义了分布式存储系统的节能模型,将RACK划分为Active-Zone与Sleep-Zone两个存储区域,根据不同数据的访问频率与规律计算活动因子以配置数据的存储区域,通过数据中心负载规律适时对Sleep-Zone区域中的服务器进行休眠处理以达到节能的目的.实验结果表明:算法在适应数据访问规律与可用性保证前提下,能够提高分布式存储系统的能耗利用率,并且当系统负载与数据平均活动因子越低时算法节能效率越高.  相似文献   

11.
云计算是目前国际和国内新兴的一项热门技术,正在给人们的生产生活方式带来深刻的变革;在分布式文件系统中,为了实现数据的可用性和持久性,数据通常被分割成大小相同的文件块,通过多副本的形式分布存储在不同地理位置;大型的云计算服务提供商拥有自己的数据中心,这些数据中心往往分布在世界的不同角落,数据以副本的形式分布在不同的地理位置可以实现更好的容错机制,从而提供高可用的持久化的数据存储;文章主要研究了海量大数据存储系统设计,系统设计以Hadoop为平台,提出了一种新的基于云计算环境的海量大数据存储设计方法,主要给出了文件存储方案设计以及副本方案设计等,为云计算海量数据存储与管理提供了一种可行的关键技术方案。  相似文献   

12.
基于Hadoop的海量MP3文件存储架构研究   总被引:2,自引:0,他引:2  
赵晓永  杨扬  孙莉莉  陈宇 《计算机应用》2012,32(6):1724-1726
MP3作为数字音乐时代的事实标准,数量已相当巨大,用户的访问需求也与日俱增,有效存储和管理海量的MP3文件,为用户提供良好的体验,越来越引起人们的关注。Hadoop的出现,提供了一种新的思路。但由于Hadoop自身并不适合海量小文件处理,提出一种基于Hadoop的海量MP3文件存储架构,充分利用MP3文件自身包含的丰富描述信息,通过预处理模块的归类算法,将小文件归并到Sequence File中,同时引入高效的索引机制,很好地解决了小文件过多时NameNode内存瓶颈问题。实验证明,该架构能达到良好的效果。  相似文献   

13.
分布式文件存储系统的性能测试不同于普通的文件系统性能测试。首先,需要根据系统支持的操作确定测试的benchmark,然后,需要根据系统的设计规模对多用户并发访问系统的情形进行模拟。在“燕星”分布式文件存储系统的性能测试中,对Andrewbenchmark进行改造,确定了测试的benchmark;基于RMIcallback机制,模拟了500个用户并发访问系统的情形。并将测试结果与NFS进行了对比,结果表明,“燕星”系统具有良好的实用性能。  相似文献   

14.
基于分布式共享存储系统的并行文件子系统DPFS   总被引:4,自引:0,他引:4  
为了改进软件 DSM系统中对文件的存取性能以获得更好的应用程序性能 ,基于软件 DSM系统 JIAJIA的并行文件子系统 DPFS被开发出来 .DPFS系统采用文件映射接口作为应用编程接口 ,使得文件存取界面简单 ,并且能充分利用软件 DSM系统的大量特性 ,系统设计相对简单 .在曙光 2 0 0 0并行机上进行的应用测试表明 ,采用DPFS文件子系统后 ,应用程序的整体性能有了很大提高  相似文献   

15.
查看网络日志是调查系统故障,监控系统运行状况的重要手段。管理员可以查看在某段时间内所发生的事件,也可以通过对各个日志文件进行分析获取知识。由于日志具有数据量大,不易读懂的特点,如果仅凭借管理员查看日志记录的手段,其中所蕴含的有用信息也难以发现。分布式计算技术正好可以用来解决这一难题。阐述了syslog日志收集流程,详细介绍了Hadoop分布式计算框架,设计并实现了一套基于Hadoop的网络日志分析系统。实验证明该系统是有效而实用的。  相似文献   

16.
广域网分布式爬虫与局域网爬虫相比有诸多的优势,而现有基于Hadoop分布式爬虫的设计主要是面向局域网环境的。为解决Hadoop分布式计算平台不适合部署于广域网的问题,设计了一个基于Hadoop的广域网分布式爬虫系统框架。爬虫系统利用消息中间件实现分布式可靠通信,数据存储采用可伸缩的Hadoop分布式文件系统HDFS,网页解析利用MapReduce并行处理,并基于模板匹配实现框架可定制。系统的性能仿真显示该框架具有支撑大规模爬虫并发工作的能力。  相似文献   

17.
为了改进软件DSM系统中对文件的存取性能以获得更好的应用程序性能,基于软件DSM系统JIAJIA的并行文件子系统DPFS被开发出来,DPFS系统采用文件映射接口作为编程接口,使得文件存取界面简单,并且能充分利用软件DSM系统的大量特性,系统设计相对简单,在曙光2000并行机上进行的应用测试表明,采用DPFS文件系统后,应用程序的整体性能有了很大提高。  相似文献   

18.
李晨翔  何刚  孙莉 《福建电脑》2013,(11):111-114
为了解决传统的抽取、转换和加栽工具处理数据仓库中海量数据的效率问题,设计并实现了基于Hadoop平台的分布式ETL系统。详细的探讨了渐变维度、雪花维度、大维度数据和事实数据的并行处理。实验结果表明,与Hive数据仓库相比,该分布式ETL系统在并行处理数据仓库中海量数据的问题上,具有更高的效率和扩展性。  相似文献   

19.
伴随云计算和物联网等技术受到推广和使用,以往的存储阵列早已不能达到飞速增长的数据存储需要。分布式存储拥有超规模的数据处置能力,同时无论是扩展性、可靠性还是成本上均表现得极为出色,渐渐变成了公有云存储的主流产品。此外,为提升云计算的运行效率,本文提出了云计算存储的架构和容错技术,并加以探究,论证了其达成过程和重要技术。通过实验发现,该容错技术性能优良。  相似文献   

20.
随着企业信息化在生产实时监测、海量存储和科学分析决策等方面的需求不断提升,运维监控系统已逐渐成为主要的管理手段。采用最新的云计算技术,设计及搭建一个数据规模易扩展、处理速度快、安全性高、成本低的云运维监控系统;针对运维控制系统中海量监控历史数据实时提取响应速度慢的缺点,设计并实现一种基于Hadoop的分布式海量数据处理模型。仿真实验证明,Hadoop在对云监控系统中的海量数据提取效率优于传统方法,随着数据量的快速增长,优势越明显。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号