首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 750 毫秒
1.
SQL-DFS:一种基于HDFS的海量小文件存储系统   总被引:1,自引:0,他引:1  
针对Hadoop分布式文件系统(Hadoop distributed file system,HDFS)进行小文件存储时Name Node内存占用率高的问题,通过分析HDFS基础架构,提出了基于元数据存储集群的SQL-DFS文件系统.通过在Name Node中加入小文件处理模块实现了小文件元数据由Name Node内存到元数据存储集群的迁移,借助关系数据库集群实现了小文件元数据的快速读写,并对小文件读取过程进行优化,减少了文件客户端对Name Node的请求次数;通过将部分Data Node文件块的校验工作交由元数据存储集群完成,进一步降低了Name Node节点的负载压力.最终通过搭建HDFS和SQL-DFS实验平台,对HDFS和SQL-DFS 2种架构进行了小文件读写的对比测试,实验结果表明:SQLDFS在文件平均耗时(file average cost,FAC)和内存占用率方面均明显优于原HDFS架构,具有更好的小文件存储能力,可用于海量小文件的存储.  相似文献   

2.
分布式文件系统(HDFS)存取大文件有很好的性能,但存取海量小文件时效率很差。鉴于此,提出一种小文件存取优化策略。存储小文件时,客户端将它们按类型和访问权限分类合并成MapFile,合并后的大文件交给HDFS处理。读取小文件时,引入由Nexist文件缓冲区域、一级缓存和二级缓存组成的缓存模块。实验表明,该策略能有效降低存取海量小文件时主节点中内存的消耗,同时减少了小文件的存取时间,极大提高存取的性能。  相似文献   

3.
Hadoop作为成熟的分布式云平台,对较大的文件提供了可靠高效的存储服务,但在处理海量小文件时效率显著降低。该文提出了基于Hadoop的海量教育资源小文件的存储优化方案,利用教育资源小文件间的关联关系,将小文件进行合并成大文件以减少文件数量,并索引机制访问小文件、元数据缓存和关联小文件预取机制来提高文件的读取效率。实验结果表明,该方法提高了Hadoop文件系统存储小文件的存取效率。  相似文献   

4.
为了对海量存储中的分布式文件系统的容错能力进行测试,设计并实现了基于海量存储下的自动化分布式文件系统测试平台,采用从服务层和目录文件层进行故障注入的技术,其中包括服务器失效和目录文件操作失败等多种故障.该平台集成了注入故障工具、系统监测工具和工作负载工具,工作人员可通过平台的主控端进行评测.通过实验数据表明,该测试平台能够有效评测不同文件系统的容错性能,并对不同存储系统的各项技术指标进行比较.  相似文献   

5.
针对集群渲染系统在三维场景文件输出过程中,海量数据处理以及存储的问题,利用Hadoop框架对现有系统进行分布式模型改造,以基于延迟光照算法的处理方式,对分布式存储和计算的业务逻辑结构部署,实现改进Hadoop集群渲染系统对任务的处理策略,提供高容错、可靠的存储和海量计算数据的方式.通过实验证明改进的Hadoop集群渲染系统可以提高系统利用率和任务处理能力.  相似文献   

6.
针对海量非结构化时态信息存储与快速检索的需求,提出使用Hadoop 平台下的分布式、非结构化数据库HBase对海量时态数据进行存储,构造以时态集合为时态存储单元的时态数据存储模型;设计了多级分布式哈希索引表算法( tDHT),实现对时态列族的时态属性值的高效、快速的检索。通过将时态属性值向二维空间映射,实现时态数据向空间对象的转化,采用对空间数据的处理方法对时态数据区域进行划分,生成多级时态数据子区域,利用分布式哈希表思想设计HBase存储的多级索引表目录。实验结果表明,该索引策略具有较高的性能,可以在一定程度上加快对HBase中时态信息的检索速度。  相似文献   

7.
云存储在校园信息化中的应用与优化   总被引:3,自引:0,他引:3  
针对目前校园海量数据存储面临的服务器资源利用率低、管理维护成本高等问题,在云存储技术的基础上提出了校园云存储服务的设计,并进行了实验.为减少读写速率的损失,系统通过调用HDFS(Hadoop distributed file system)的API接口方式实现数据存储及对集群的状态监控和管理.实验表明:传输文件的大小和集群中数据节点的个数对云存储服务的数据读写速率的影响较大;HDFS并行传输大量小文件的速率相对较低.  相似文献   

8.
针对分布式文件系统的应用存在处理小文件效率不高的问题,提出一种适用于中小规模分布式文件系统集群的应用架构,将传统分布式文件系统集群中的内网划分为两个子网:对外子网和对内子网,对外子网中传输与外网之间的交互数据,对内子网中传输分布件系统集群的管理数据.每个数据结点同时与对外和对内两个子网连接,并代替名称节点负责与外网直接的数据交流;名称节点本身只与对内子网连接.对外子网与外网之间使用防火墙设备加强安全性,并使用负载均衡设备将来自外网的数据请求合理的分配到每个数据节点上;增加了缓存机制对系统处理小文件操作进行优化,部署实验环境,设计一个测试程序对缓存效率测试,对1000个100KB的文件,通过模拟多线程连续读取大量文件来测试缓存的性能,实验证明系统设计方案可行,增加磁盘缓存有利于提高系统处理小文件的存取效率,系统优化效果显著.  相似文献   

9.
针对分布式数据存储算法通常需要较长的等待时间、且对海量数据加密时严重浪费计算资源和时间的问题,提出了一种基于K-距离拓扑的分布式数据存储方法.通过寻找K-距离拓扑子图来实现数据的安全放置,优先选择存取速度更快的节点和自身保护能力强的节点实现总体性能的提升.在Internet 2拓扑图与随机拓扑图下的仿真测试结果表明,所提出的方法能在满足安全距离约束的条件下选择到最优的数据存储节点,从而减小数据存取时间.  相似文献   

10.
为解决海量信息处理中实时访问的"I/O墙"问题,提高海量信息分布式存储系统的性能,提出了一种基于HPC的存储部件新型访问策略.首先分析了传统访问模型存在的问题;其次研究了存储部件直通路模式的工作机理,建立了存储系统的多层次、分布式模型,根据不同层次和映射策略实现存储空间物理地址、缓存地址、存储系统逻辑空间地址的连续映射;继而分析了直通路访问模式下的存储路径时间开销;最后在模拟环境下进行存储部件访问的性能测试,并在实际应用系统中对该策略进行验证.验证测试结果表明,该方法能够有效提高存储系统性能,满足海量信息处理的实时性需要.  相似文献   

11.
1INTRODUCTION Withthedevelopmentofcomputertechnolo gies,dataprocessing,transferringandstoringareadvancedgreatly.ButtheperformanceofI/Osub systemisnotimprovedaccordingly.SotheI/Osubsystembecomesabottleneckofthehighper formancecomputing[13].Theeffectivemethodofsolvingtheproblemreliesonsoftware,thatis,tostoreandaccessdatainparallelI/Oacrossmulti nodesofclusterintermsofsomefileallocatingstrategies[4].TheprofessionalpracticeprovesthatparallelI/Oisaneffectivemethodtoeliminatethebottleneck.T…  相似文献   

12.
针对互联网Web应用特别是Web2.0应用的特殊存储需求,提出一种基于容器的自组织存储模型(CSS-M).CSS-M使用容器管理存储空间,聚簇存放用户文件,提高用户数据备份、迁移和恢复效率.一方面模型通过文件唯一标识提供文件的快速访问,另一方面它采用文件集来组织用户文件成树状,提供灵活的文件管理功能.模型使用容器作为数据定位和复制的基本单元,并利用对等覆盖网络技术自组织地维护容器元数据.另外,主从容器复制技术和基于容器状态的容器恢复技术保证了数据的可靠性和一致性.利用CSS-M实现了一个存储系统原型,初步的实验结果表明,CSS-M提供良好的性能和可扩展性,能够满足互联网WEB应用的存储需求.  相似文献   

13.
本文介绍了在一个分布式文件系统——3DFS中共享目录和数据文件一致性的控制机构的设计。对共享目录的互斥更改采用令牌控制方式,而对数据文件一致性控制采用主副本上锁方法。本文还讨论了主副本上锁时死锁问题的解决方法——死锁预测避免法。  相似文献   

14.
基于网络存储的异构集群文件系统研究与实现   总被引:3,自引:0,他引:3  
分析了存储区域网络环境下多平台文件共享所面临的主要问题及解决途径,提出了一个基于网络存储的开放系统与大型机集群文件系统,该系统采用第三方数据传送和大型机文件系统模拟的方法,解决了开放系统的字节流型文件系统与大型机的记录型文件系统的互操作问题,进而利用一些I/O性能优化策略实现了一个高性能的用户态运行库(Runtime Library),使得开放系统上的应用程序利用该运行库可以实现对网络存储上大型机文件的高速访问。实验结果表明,与传统的客户/服务器文件共享模式相比,该系统具有更高的性能。  相似文献   

15.
为了解决Hadoop分布式文件系统(HDFS)平台上小文件的存在带来MapReduce程序运行能耗成本偏高问题,建立Hadoop节点集群的能耗模型进行分析推导,证明了在Hadoop平台上,存在能使程序运行能耗成本最低的最优文件大小,并在此基础上结合经济学边际分析理论提出一种基于能耗成本和访问成本考虑的最优文件大小判定策略. 此策略可以对存放在HDFS上的小文件合并进行效益计算,将小文件合并为成本最优文件大小以获得最佳收益. 通过实验证明了能效最优数据块大小的存在,并通过实验证明了成本和效益相结合利用边际分析理论来确定数据块大小的合理性和有效性.  相似文献   

16.
An optimal algorithmic approach to task scheduling for,triplet based architecture(TriBA),is proposed in this paper.TriBA is considered to be a high performance,distributed parallel computing architecture.TriBA consists of a 2D grid of small,programmable processing units,each physically connected to its three neighbors.In parallel or distributed environment an efficient assignment of tasks to the processing elements is imperatire to achieve fast job turnaround time.Moreover,the sojourn time experienced by each individual job should be minimized.The arriving jobs are comprised of parallel applications,each consisting of multiple-independent tasks that must be instantaneously assigned to processor queues,as they arrive.The processors indeDendently and concurrently service these tasks.The key scheduling issues is,when some queue backlogs are small,an incoming job should first spread its tasks to those lightly loaded queues in order to take advantage of the parallel processing gain.Our algorithmic approach achieves optimality in task scheduling by assigning consecutive tasks to a triplet of processors exploiting locality in tasks.The experimental results show that tasks allocatian to triplets of processing elements is efficient and optimal.Comparison to well accepted interconnection strategy,2D mesh,is shown to prove the effectiveness of our algorithmic approach for TriBA.Finally we conclude that TriBA can be an efficient interconnection strategy for computations intensive applications,if tasks assignment is carried out optimally using algorithmic approach.  相似文献   

17.
An optimal algorithmic approach to task scheduling for, triplet based architecture(TriBA), is proposed in this paper. TriBA is considered to be a high performance, distributed parallel computing architecture. TriBA consists of a 2D grid of small, programmable processing units, each physically connected to its three neighbors. In parallel or distributed environment an efficient assignment of tasks to the processing elements is imperative to achieve fast job turnaround time. Moreover, the sojourn time experienced by each individual job should be minimized. The arriving jobs are comprised of parallel applications, each consisting of multiple-independent tasks that must be instantaneously assigned to processor queues, as they arrive. The processors independently and concurrently service these tasks. The key scheduling issues is, when some queue backlogs are small, an incoming job should first spread its tasks to those lightly loaded queues in order to take advantage of the parallel processing gain. Our algorithmic approach achieves optimality in task scheduling by assigning consecutive tasks to a triplet of processors exploiting locality in tasks. The experimental results show that tasks allocation to triplets of processing elements is efficient and optimal. Comparison to well accepted interconnection strategy, 2D mesh, is shown to prove the effectiveness of our algorithmic approach for TriBA. Finally we conclude that TriBA can be an efficient interconnection strategy for computations intensive applications, if tasks assignment is carried out optimally using algorithmic approach.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号