首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
海量小文件存储文件系统研究综述   总被引:3,自引:0,他引:3  
随着互联网的发展,存储的小文件数量也呈几何级的增长。传统文件系统已不能满足存储性能的需求,对于小文件存储,尤其是海量小文件存储的优化已变得越来越重要。首先提出对小文件存储的系统进行优化的必要性,然后对小文件存储中存在的问题进行分析并阐述优化的方式,并介绍三种具有代表性的适合小文件存储的文件系统,最后总结归纳。  相似文献   

2.
为改善应用Hadoop分布式文件系统存储大量小文件时效率低下的问题,将NameNode职责分离,使用单独的NFS服务器同步存储元数据信息,以降低Client数据请求压力,提供大吞吐量数据访问并改善访问延迟;设计文件与数据块的对应模式,允许在同一块中存储多个小文件,并对系统加以实现,为海量小文件的存储提供了一个有效的解决方案。实验结果表明,该机制可以在数据迅速增长的背景下实现海量小文件的高效存取。  相似文献   

3.
HDFS(HadoopDistributedFileSystem)凭借其高容错、可伸缩和廉价存储的优点,在当前面向云计算的应用场景中得到了广泛应用.然而,HDFS设计的初衷是存储超大文件,对于海量小文件,由于NameNode内存开销等问题,其存储和读取性能并不理想.提出一种基于小文件合并的方法HIFM(HierarchyIndexFileMerging),综合考虑小文件之间的相关性和数据的目录结构,来辅助将小文件合并成大文件,并生成分层索引.采用集中存储和分布式存储相结合的方式管理索引文件,并实现索引文件预加载.此外,HIFM采用数据预取的机制,提高顺序访问小文件的效率.实验结果表明,HIFM方法能够有效提高小文件存储和读取效率,显著降低NameNode和DataNode的内存开销,适合应用在有一定目录结构的海量小文件存储的应用场合.  相似文献   

4.
基于光盘库的Hadoop分布式文件系统(HDFS光盘库)在单位存储成本、数据安全性、使用寿命等方面非常符合当前大数据存储要求,但是HDFS不适合存储大量小文件和实时数据读取。为了使HDFS光盘库能更好地运用到更多大数据存储场景,本文提出一种更加适合大数据存储的磁光虚拟存储系统(MOVS, Magneto-optical Virtual Storage System)。系统在HDFS光盘库与用户之间加入磁盘缓存,并在磁盘缓存内通过文件标签分类、虚拟存储、小文件合并等技术将磁盘缓存内小文件合并为适合HDFS光盘库存储的大文件,提高系统的数据传输速度。系统还使用了文件预取、缓存替换等文件调度算法对磁盘缓存内文件进行动态更新,减少用户访问HDFS光盘库次数。实验结果表明,MOVS相对HDFS光盘库在响应时间和数据传输速度方面得到很大改善。  相似文献   

5.
为解决早期云计算模型对医学小文件存储出现的单节点问题,数据高冗余造成数据的不一致性以及检索效率低等方面的问题,提出一种新型云存储模式。模型中,引入BWFS算法实现优化海量医学小文件序列化合并,优化纠删码算法实现数据块编码,减少数据块的冗余存储,而且引入位图索引技术与HBase索引结合形成新型并行索引策略,优化HBase主索引的缺点。实验表明,新型存储模型通过使用BWFS算法和纠删码技术减少了集群主控节点的内存消耗,在保证数据快速恢复的情况下,减少了集群数据的冗余存储,并行索引技术提高了医学数据影像的检索效率。  相似文献   

6.
为了解决航空物流领域海量小文件存储效率和访问效率不高的问题,提出一种基于Nosql的海量小文件分布式多级存储方法,充分考虑到数据的时效性、本地性、操作的并发性以及文件之间的相关性,先根据相关性将文件合并,然后采用分布式多级存储,使用内存式Redis数据库做缓存,HDFS做数据的持久化存储,其过程采用预取机制。实验结果表明,该方法有效提高了小文件的存取效率和磁盘的利用率,显著地降低了网络的带宽占用和集群NameNode的内存消耗,适合解决航空领域海量小文件存储问题。  相似文献   

7.
为缓解单一存储设备存储海量小文件的压力,提出了一种国产化环境下的海量小文件数据分布式存储技术。利用聚类算法实现海量小文件合并。以达到最大均衡度为目标,在多项约束条件下利用人工鱼群算法求解分布式存储方案。按照分布式存储方案将海量小文件数据迁移到存储节点及其存储设备上,完成海量小文件数据分布式存储。结果表明:14个存储节点和28个存储设备的内存占用较为均衡,内存资源利用率较高。将小文件样本迁移并存储到节点的过程中,分布式存储均衡度整体波动均超过设定的阈值1.0,说明分布式存储均衡度较好,证明了所提存储技术的有效性。  相似文献   

8.
Hadoop分布式文件系统(HDFS)通常用于大文件的存储和管理,当进行海量小文件的存储和计算时,会消耗大量的NameNode内存和访问时间,成为制约HDFS性能的一个重要因素.针对多模态医疗数据中海量小文件问题,提出一种基于双层哈希编码和HBase的海量小文件存储优化方法.在小文件合并时,使用可扩展哈希函数构建索引文件存储桶,使索引文件可以根据需要进行动态扩展,实现文件追加功能.在每个存储桶中,使用MWHC哈希函数存储每个文件索引信息在索引文件中的位置,当访问文件时,无须读取所有文件的索引信息,只需读取相应存储桶中的索引信息即可,从而能够在O(1)的时间复杂度内读取文件,提高文件查找效率.为了满足多模态医疗数据的存储需求,使用HBase存储文件索引信息,并设置标识列用于标识不同模态的医疗数据,便于对不同模态数据的存储管理,并提高文件的读取速度.为了进一步优化存储性能,建立了基于LRU的元数据预取机制,并采用LZ4压缩算法对合并文件进行压缩存储.通过对比文件存取性能、NameNode内存使用率,实验结果表明,所提出的算法与原始HDFS、HAR、MapFile、TypeStorage以及...  相似文献   

9.
针对Ceph存储系统面对小文件存储时存在元数据服务器性能瓶颈、文件读取效率低等问题.本文从小文件之间固有的数据关联性出发,通过轻量级模式匹配算法,提取出关联特征并以此为依据对小文件进行合并,提高了合并文件之间的合理性,并在文件读取时将同一合并文件内的小文件存入客户端缓存来提高缓存读取命中率,经过实验验证本文的方案有效的提高了小文件的访问效率.  相似文献   

10.
一种性能优化的小文件存储访问策略的研究   总被引:1,自引:0,他引:1  
在分布式文件系统中,小文件的管理一般存在访问性能较差和存储空间浪费较大等缺点.为了解决这些问题,提出了一种性能优化的小文件存储访问(SFSA)策略.SFSA将逻辑上连续的数据尽可能存储在物理磁盘的连续空间,使用Cache充当元数据服务器的角色并通过简化的文件信息节点提高Cache利用率,提高了小文件访问性能;写数据时聚合更新数据及其文件夹域中的相关数据为一次I/O请求写入,减少了文件碎片数量,提高了存储空间利用率;文件传输时利用局部性原理,提前发送批量的高访问率的小文件,降低了建立网络连接开销,提升了文件传输性能.理论分析和实验证明,SFSA的设计思想和方法能有效地优化小文件的存储访问性能.  相似文献   

11.
随着现代科学技术的不断迭代升级,人类生产生活中产生的数据量呈爆炸式增长,传统的硅基存储介质(如硬盘、闪存等)逐渐无法满足全球范围内的数据存储需求。DNA 因其存储密度大、存储时间长、能源消耗低等颠覆性的优势被认为是新一代的理想存储介质。该文围绕 DNA 存储技术,首先阐述了其基本原理与流程;其次,在传统数据安全的范畴下,结合近期 DNA 存储领域的相关研究,归纳介绍了 DNA 存储技术的数据安全研究现状,包括数据加密、数据弹性、恶意攻击检测等;最后,讨论了现阶段 DNA 存储技术的数据安全所面临的挑战及发展趋势。随着多学科交叉协同发展,在广角度多层面的数据安全保护下,DNA 存储技术有望解决海量数据存储需求与有限存储资源间的供需不平衡问题,实现多场景的商业化应用。  相似文献   

12.
文章介绍了云计算的产生和云计算的全新概念,分析了云计算的体系结构,然后总结了云计算的一些关键技术,像虚拟化技术、海量数据存储技术、海量数据管理技术、编程模式和云平台管理技术等,并指出了云计算带给人们的好处。  相似文献   

13.
目前,关系数据库中的分区技术应用相当广泛,但是用分区策略管理海量要素图层数据的存储与索引没有比较系统的技术方法。采用不同管理方式、不同分区粒度、不同索引方式及其组合的分区技术来系统地管理海量空间图层数据,进一步研究了不同的分区粒度及索引方式对查询效率的影响,并通过实验验证了关系数据库中的分区技术对海量要素图层数据的存储与管理具有优化作用。结果表明,在不使用分区键作为查询条件时,分区粒度越大查询效率越高;使用分区键作为查询条件时,本地分区索引查询效率更高等。利用合理的分区方案使得海量要素图层数据存储和管理得以优化,对矢量大数据的存储和管理研究具有重要意义,为更好地应用分区技术来解决实际遇到的存储与检索效率问题提供决策支持。  相似文献   

14.
基于共享存储池的元数据服务器机群的设计研究   总被引:1,自引:0,他引:1  
在大型分布式对象存储系统中,元数据服务系统是一个潜在的访问瓶颈.本文提出一种通过分层式文件系统构建共享存储池的采用两次分布式哈希函数方式的元数据服务系统.其具有不需要人工干预的故障恢复性和易扩展特性,而且最大程度减少了MDS之间大量元数据的物理迁移.实验测试证明系统具有良好的I/O性能.  相似文献   

15.
网络存储技术研究   总被引:6,自引:0,他引:6  
网络存储技术在驱动程序级分离数据和命令 ,为提高网络数据传输速度提供了一个新的研究方向。网络存储技术利用网络存储设备形成网络服务器 ,这种新的网络服务器具有不同于传统服务器的系统结构。介绍了网络存储技术 ,并分析了高性能存储系统。  相似文献   

16.
IP网络存储技术研究   总被引:7,自引:0,他引:7  
IP网络存储已经成为存储技术的热门发展方向,但还缺乏一个统一的业界标准。文章对IP网络存储的功能进行了总结,并提出实现可管理的IP-SAN系统的体系结构,最后对该系统结构中涉及的相关技术进行了简要描述。  相似文献   

17.
伴随着高速网络传输技术的发展,存储区域网络逐渐兴起并得到广泛应用。存储区域网络具有专用的存储设备、连接方式和网络协议,为海量数据安全存储提供了解决方案。本文介绍了基于存储区域网络的海量数据容灾和备份系统的设计与实现方法,探讨了如何利用存储区域网络为企业关键业务提供海量数据信息管理服务。  相似文献   

18.
虚拟化技术在存储系统中的应用研究   总被引:1,自引:0,他引:1  
随着围绕数字化、网络化开展的各种多媒体处理业务的不断增加,存储系统网络平台已经成为一个核心平台,同时各种应用对平台的要求也越来越高,不光是在存储容量上,还包括数据访问性能、数据传输性能、数据管理能力、存储扩展能力等等多个方面。为达到这些要求,一种新兴的技术正越来越受到大家的关注,即虚拟存储化技术。本文从虚拟存储技术的概念,虚拟存储技术的分类,虚拟存储技术的应用等方面,详细地介绍了虚拟存储化技术及其应用。  相似文献   

19.
在过去的几十年里,互联网技术的发展和普及推动人类进入了数字信息时代,互联网已成为人类生活的重要组成部分。随着数字化生活方式的到来,人们每时每刻都在产生大规模的数字信息,如何将这些信息进行便捷有效的存储是个必须面对的问题。针对数据存储面临的种种问题,该文从现有的存储方式和存储介质出发,对当前存储领域进行深入研究,分析了 DNA 作为未来大数据存储介质的优势,以及 DNA 存储的核心技术和潜在的应用前景。另外,该文通过对 DNA 信息存储的核心技术进行剖析和讨论,提出了未来 DNA 信息存储发展的趋势和见解,以期对 DNA 信息存储发展提供新的思路。  相似文献   

20.
国家电网公司信息化程度越来越高,单机运维审计系统产生的数据量日益增多,对海量数据高效率存储分析性能严重下降,系统稳定性降低。为满足国家电网当前对运维审计系统数据存储分析以及系统稳定性的需求,在Hadoop开源架构的基础上,本文提出基于Hadoop集群的海量数据分布式存储方法和基于Heartbeat的心跳检测技术,实现基于Hadoop的电力运维审计系统。〖JP2〗实验测试结果表明,基于Hadoop的电力运维审计系统相比单机系统可用性提高了8.42%,大大提升了存储分析海量数据的性能,具有系统工作稳定和服务不间断等优势。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号