排序方式: 共有141条查询结果,搜索用时 46 毫秒
1.
2.
The Hadoop Distributed File System (HDFS) is designed to run on commodity hardware and can be used as a stand-alone general purpose distributed file system (Hdfs user guide, 2008). It provides the ability to access bulk data with high I/O throughput. As a result, this system is suitable for applications that have large I/O data sets. However, the performance of HDFS decreases dramatically when handling the operations of interaction-intensive files, i.e., files that have relatively small size but are frequently accessed. The paper analyzes the cause of throughput degradation issue when accessing interaction-intensive files and presents an enhanced HDFS architecture along with an associated storage allocation algorithm that overcomes the performance degradation problem. Experiments have shown that with the proposed architecture together with the associated storage allocation algorithm, the HDFS throughput for interaction-intensive files increases 300% on average with only a negligible performance decrease for large data set tasks. 相似文献
3.
4.
基于HDFS的小文件存储与读取优化策略 总被引:1,自引:0,他引:1
本文对HDFS分布式文件系统进行了深入的研究,在HDFS中以流式的方式访问大文件时效率很高但是对海量小文件的存取效率比较低. 本文针对这个问题提出了一个基于关系数据库的小文件合并策略,首先为每个用户建立一个用户文件,其次当用户上传小文件时把文件的元数据信息存入到关系数据库中并将文件追加写入到用户文件中,最后用户读取小文件时通过元数据信息直接以流式方式进行读取. 此外当用户读取小于一个文件块大小的文件时还采取了数据节点负载均衡策略,直接由存储数据的DataNode传送给客户端从而减轻主服务器压力提高文件传送效率. 实验结果表明通过此方案很好地解决了HDFS对大量小文件存取支持不足的缺点,提高了HDFS文件系统对海量小文件的读写性能,此方案适用于具有海量小文件的云存储系统,可以降低NameNode内存消耗提高文件读写效率. 相似文献
5.
蔡静 《计算机光盘软件与应用》2014,(5):146-147
本文论述了Hadoop的起源与发展,Hadoop是一个在集群上运行大型数据库处理应用程序的开放式源代码框架。它主要包括HDFS和MapReduce两大套件,支持通过编程范例来创建并执行的应用程序,在很多大型网站上都已经得到了应用,可以说是目前最为广泛应用的开源云计算软件平台。但其发展时间较短,研究还不够深入,还有较多值得改进的地方。 相似文献
6.
7.
农业海量信息资源管理平台设计与实现 总被引:1,自引:0,他引:1
随着农业信息化的深入,如何描述、存储、管理和处理海量分布信息资源成为农业应用的首要问题。提出基于XML/XML Schema的统一农业信息资源描述框架,将XML描述与元数据约束相结合,采用层次化管理结构实现元数据与资源信息的组织;在HDFS(Hadoop Distributed File System)云存储架构适应性改进基础之上,设计实现了农业海量信息资源管理平台,实现了海量、分布、异构资源的分类组织、存储和访问服务。平台覆盖了全国6个省市资源节点,实现了3.2 TB农业资源存储管理,与传统资源检索方法相比,平台资源检索时间缩短73%;同时,用户在同一检索条件下能更多地获得相关资源,不仅查准率平均提高5%,而且资源利用率平均提高17.7%。平台在海量资源检索和利用效率方面获得提升。 相似文献
8.
中国科学院计算机网络信息中心与青海湖保护区管理局合作,共同建设了青海湖野外网络视频监控。如何高效地处理每天产出的超过 100GB 的视频数据成为了一个难题。现在的视频处理系统采用计算和存储相分离的架构,这需要配置较高的专门服务器进行支撑,本文基于廉价扩展性能较好的 Hadoop 平台对视频处理做出了分布式的实现,并对单个视频文件做出了分布式转码的实现。同时,本文将基于 Hadoop 的分布式视频处理的实现和基于 HTCondor 的分布式视频的批处理实现进行了对比,实验证明,在不损失视频处理效率的条件下,基于 Hadoop 的分布式视频处理的实现拥有分布式文件系统支撑、完善的任务监控等优势。 相似文献
9.
针对Hadoop Distributed File System(HDFS)的安全机制中密钥管理复杂、用户需进行多次身份认证的问题,提出一个适合HDFS的基于身份的单点登录协议。协议采用了基于身份的密码技术实现了用户的单点登录,同时根据各个节点上一次为用户提供服务的情况对用户登录票据的流转过程进行了优化,并且运用Capser形式化证明工具对协议的安全性进行了证明。协议降低了HDFS在密钥管理上的开销,解决了用户访问HDFS可能需要频繁认证的问题,提高了登录票据流转的效率,同时协议还具有较高的安全性。理论分析和安全性验证表明,本协议对HDFS的安全高效运行有较大的帮助。 相似文献
10.
高效、可扩展的元数据管理系统是提高分布式存储系统整体性能的关键. 传统的元数据分配策略会导致元数据负载不均衡,以及在多进程资源抢占的情况下,会存在响应处理用户请求效率不高,存储文件数目受限等问题. 上述问题在高并发、低延迟的数据存储需求中尤为突出. 提出了一个基于一致性Hash与目录树的元数据管理策略,并实现了相应的分布式元数据管理系统:利用负载均衡算法,对元数据进行迁移,保证了粗粒度负载信息收集,细粒度调整的均衡策略. 多项实验的结果表明,该策略能实现元数据负载均衡,降低用户请求处理延迟,提高分布式系统的可扩展性和可用性. 相似文献