首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
城轨线网小文件数据量巨大,传统的分布式文件系统很难为海量小文件存储提供符合需求的高吞吐、低延迟读写过程。根据城轨线网级业务的数据特点和以天为周期的数据访问方式,提出基于FastDFS分布式文件系统和Redis键值数据库的城轨线网海量小文件存储方法,将具有相关性的城轨小文件合并成大文件进行聚合写操作;根据FastDFS返回的大文件索引、小文件存储起始偏移量和小文件长度建立全局索引,利用Redis存储小文件名和全局索引的键值对;采用数据预取机制,预取创建时间相邻的数据。实验结果表明,相较于FastDFS系统,FastDFS-Redis系统的小文件读写吞吐量分别提高了9.35%和4.45%,达到明显改善城轨线网海量小文件的访问效率的目的。  相似文献   

2.
陈渝 《计算机测量与控制》2014,22(8):2669-2672,2676
针对Hadoop分布式文件系统(Hadoop distributed file system,HDFS)存储海量图片效率低下的问题,在分析HDFS的基本框架以及其固有的文件读写流程基础上,提出了基于Cache的海量图片存储优化方案(HDFS based on Cache,CHDFS);该方案引入了Cache、预读、文件合并等机制,来提高图片读写的性能,弥补了HDFS存储海量图片时的缺陷;采用图片合并的方式减少Namenode中元数据的个数,同时提高Datanode存储空间的利用率;由于Cache、预读以及图片合并等操作对用户都是透明的,所以,该方案并没有增加用户使用HDFS的复杂性;实验结果表明,CHDFS方法可以有效地提高图片的存取效率。  相似文献   

3.
曙光星云分布式文件系统:海量小文件存取   总被引:2,自引:0,他引:2  
随着互联网应用的发展和云计算的兴起,在线图片、音频、视频以及微博等服务逐渐广泛发展,这些应用展示了与传统应用截然不同的数据访问和存储模式.数据中心内每秒钟都有大量较小文件的生成、分析和返回,这些应用对高并发海量文件的高吞吐、低延迟读写提出了新的挑战.提出基于分布式表存储的全新的分布式文件系统HVFS来管理数以十亿计的文件,并同时支持高吞吐和低延迟的文件访问.HVFS通过改进分布式可扩展哈希来管理元数据、日志结构的格式和列存储来利用时空局部性.本文描述了HVFS的设计和实现并进行了中等规模的实验.实验显示HVFS的表存储结构能够线性的扩展,并在82个结点上提供超过240,000次/秒、100,000次/秒的数据(<1KB)写和读;基于FUSE的实现在32个节点上提供超过180,000个/秒的文件创建速度.  相似文献   

4.
为缓解单一存储设备存储海量小文件的压力,提出了一种国产化环境下的海量小文件数据分布式存储技术。利用聚类算法实现海量小文件合并。以达到最大均衡度为目标,在多项约束条件下利用人工鱼群算法求解分布式存储方案。按照分布式存储方案将海量小文件数据迁移到存储节点及其存储设备上,完成海量小文件数据分布式存储。结果表明:14个存储节点和28个存储设备的内存占用较为均衡,内存资源利用率较高。将小文件样本迁移并存储到节点的过程中,分布式存储均衡度整体波动均超过设定的阈值1.0,说明分布式存储均衡度较好,证明了所提存储技术的有效性。  相似文献   

5.
游小容  曹晟 《计算机科学》2015,42(10):76-80
Hadoop作为成熟的分布式云平台,能提供可靠高效的存储服务,常用来解决大文件的存储问题,但在处理海量小文件时效率显著降低。提出了基于Hadoop的海量教育资源中小文件的存储优化方案,即利用教育资源小文件间的关联关系,将小文件合并成大文件以减少文件数量,并用索引机制访问小文件及元数据缓存和关联小文件预取机制来提高文件的读取效率。实验证明,以上方法提高了Hadoop文件系统对小文件的存取效率。  相似文献   

6.
为改善应用Hadoop分布式文件系统存储大量小文件时效率低下的问题,将NameNode职责分离,使用单独的NFS服务器同步存储元数据信息,以降低Client数据请求压力,提供大吞吐量数据访问并改善访问延迟;设计文件与数据块的对应模式,允许在同一块中存储多个小文件,并对系统加以实现,为海量小文件的存储提供了一个有效的解决方案。实验结果表明,该机制可以在数据迅速增长的背景下实现海量小文件的高效存取。  相似文献   

7.
为了解决航空物流领域海量小文件存储效率和访问效率不高的问题,提出一种基于Nosql的海量小文件分布式多级存储方法,充分考虑到数据的时效性、本地性、操作的并发性以及文件之间的相关性,先根据相关性将文件合并,然后采用分布式多级存储,使用内存式Redis数据库做缓存,HDFS做数据的持久化存储,其过程采用预取机制。实验结果表明,该方法有效提高了小文件的存取效率和磁盘的利用率,显著地降低了网络的带宽占用和集群NameNode的内存消耗,适合解决航空领域海量小文件存储问题。  相似文献   

8.
很多大企业采用Hadoop分布式文件系统来存储海量数据,而传统的病毒扫描主要针对单机系统环境。研究如何并行化病毒扫描中的核心特征匹配算法来处理分布式海量数据。在Hadoop平台下,基于MapReduce并行编程模型来实现大数据高效的病毒扫描,特别是针对Hadoop处理海量小文件效率低的问题,通过将小文件合并,再利用索引来提高海量小文件的处理效率。实验结果表明,提出的并行特征匹配算法可以显著降低处理时间,适用于大数据的病毒扫描。  相似文献   

9.
数据的海量存储需求对传统数据存储模式带来了巨大的挑战.目前大多数集群/分布式文件系统都被设计用来管理大文件.当在处理海量的小文件时,这些文件系统并不具有良好的性能表现.论文提出了一种面向海量小文件的元数据模型,该模型是基于具有超级节点的混合P2P拓扑结构,对小文件的优化管理具有一定的普适性.通过测试对比发现,在小文件读写性能上有数量级的提升.  相似文献   

10.
基于HDFS的小文件存储与读取优化策略   总被引:1,自引:0,他引:1  
本文对HDFS分布式文件系统进行了深入的研究,在HDFS中以流式的方式访问大文件时效率很高但是对海量小文件的存取效率比较低. 本文针对这个问题提出了一个基于关系数据库的小文件合并策略,首先为每个用户建立一个用户文件,其次当用户上传小文件时把文件的元数据信息存入到关系数据库中并将文件追加写入到用户文件中,最后用户读取小文件时通过元数据信息直接以流式方式进行读取. 此外当用户读取小于一个文件块大小的文件时还采取了数据节点负载均衡策略,直接由存储数据的DataNode传送给客户端从而减轻主服务器压力提高文件传送效率. 实验结果表明通过此方案很好地解决了HDFS对大量小文件存取支持不足的缺点,提高了HDFS文件系统对海量小文件的读写性能,此方案适用于具有海量小文件的云存储系统,可以降低NameNode内存消耗提高文件读写效率.  相似文献   

11.
HDFS(HadoopDistributedFileSystem)凭借其高容错、可伸缩和廉价存储的优点,在当前面向云计算的应用场景中得到了广泛应用.然而,HDFS设计的初衷是存储超大文件,对于海量小文件,由于NameNode内存开销等问题,其存储和读取性能并不理想.提出一种基于小文件合并的方法HIFM(HierarchyIndexFileMerging),综合考虑小文件之间的相关性和数据的目录结构,来辅助将小文件合并成大文件,并生成分层索引.采用集中存储和分布式存储相结合的方式管理索引文件,并实现索引文件预加载.此外,HIFM采用数据预取的机制,提高顺序访问小文件的效率.实验结果表明,HIFM方法能够有效提高小文件存储和读取效率,显著降低NameNode和DataNode的内存开销,适合应用在有一定目录结构的海量小文件存储的应用场合.  相似文献   

12.
I/O系统软件栈是影响NVM存储系统性能的重要因素。针对NVM存储系统的读写速度不均衡、写寿命有限等问题,设计了同异步融合的访问请求管理策略;在使用异步策略管理数据量较大的写操作的同时,仍然使用同步策略管理读请求和少量数据的写请求。针对多核处理器环境下不同计算核心访问存储系统时地址转换开销大的问题,设计了面向多核处理器地址转换缓存策略,减少地址转换的时间开销。最后实现了支持高并发访问NVM存储系统(CNVMS)的原型,并使用通用测试工具进行了随机读写、顺序读写、混合读写和实际应用负载的测试。实验结果表明,与PMBD相比,所提策略能提高1%~22%的读写速度和9%~15%的IOPS,验证了CNVMS策略能有效提高NVM存储系统的I/O性能和访问请求处理速度。  相似文献   

13.
Hadoop分布式文件系统( HDFS) 在大数据存储中具有优良的性能,适用于处理和存储大文件,但在海量小文件处理时性能显著下降,过多的小文件使得整个系统内存消耗过大。为了提高HDFS处理小文件的效率,改进了HDFS的存储方案,提出了海量小文件的存储优化方案。根据小文件之间的相关性进行分类,然后将同一类小文件合并上传,并生成索引文件,读取时采用客户端缓存机制以提高访问效率。实验结果表明,该方案在数据迅速增长的情况下能有效提高小文件访问效率,降低系统内存开销,提高HDFS处理海量小文件的性能。  相似文献   

14.
KYLIN-2是中国核动力研究设计院自主研发的先进中子学栅格(组件)计算软件,针对KYLIN-2软件中海量数据存储和处理的问题,提出一种基于对分层数据存储格式v5(HDF5)的计算数据存储方案。首先,对HDF5文件格式进行了研究;其次,根据KYLIN-2软件需求,设计了基于HDF5文件格式的组件库KYMRES;最后,通过自开发的HDF5文件读写工具完成了KYMRES库的实现过程。通过性能测试表明,基于HDF5文件格式的组件库KYMRES较常规存储方案具有更高的I/O效率,其读、写效率平均提升到旧算法的2.3倍和4.5倍。KYMRES库在海量数据存储和处理方面具有显著优越性,为KYLIN-2软件提供了一种新型的数据存储和管理方案。  相似文献   

15.
董豪宇  陈康 《计算机应用》2020,40(9):2577-2585
针对在使用高速存储硬件时常规网络文件系统会被软件开销影响整体性能的问题,提出了利用存储性能开发套件(SPDK)搭建文件系统的方法,并在此基础上实现了一个网络文件系统RUFS的原型。该系统通过键值存储模拟文件系统的目录树结构以及对文件系统的元数据进行管理,通过SPDK存储文件的内容。另外,利用远程直接内存访问(RDMA)技术对外提供文件系统服务。RUFS相较于NFS+ext4,在4 KB随机访问上,读写吞吐性能分别提高了202.2%和738.9%,读写平均延迟分别降低了74.4%和97.2%;在4 MB顺序访问上,读写吞吐性能分别提高了153.1%和44.0%。在大部分元数据操作上,RUFS相比NFS+ext4也有显著优势,特别是文件夹创建操作,RUFS的吞吐性能提高了约5 693.8%。该系统能够充分发挥高速网络和高速存储设备的性能优势,为用户提供延时更低、吞吐性能更好的文件系统服务。  相似文献   

16.
分布式共享存储(DSM)使得在分布式存储机器上,对显式消息传递编程的需要得到减轻。为降低存储问题延迟,DSM系统将数据复制多个拷贝。文中考查了几种用于控制因伪共享问题造成的存储抖动的方法,提出了一种新的存储一致性协议:写者拥有协议,它在运行时检测并消除伪共享。迭代运算中,由于数据在每次迭代中被地存取,写者拥有协议只要消除一次伪共享,所以额外开销非常小。实验数据表明,写者拥有协议通常情况下优于已有的  相似文献   

17.
郑通  郭卫斌  范贵生 《计算机科学》2017,44(Z11):516-519, 541
HDFS在存储海量文件时具有明显的优势, 但在存储小文件占绝大多数的海量文件时,HDFS单个NameNode的存储架构会导致其性能严重降低。为此,提出一种基于合并思想的方案,即将小文件合并为大文件,同时建立小文件到合并文件的映射关系,并将其存于HBase中。为了提高读取速度,建立了基于LRU的预取机制。实验表明,该方法能明显提高HDFS在处理海量文件时的整体性能。  相似文献   

18.
基于Hadoop分布式文件系统(HDFS)研发的海量小文件系统(SMDFS)遗留了HDFS不兼容可移植操作系统接口(POSIX)约束的问题,为解决SMDFS的这一问题,提出基于本地缓存的POSIX兼容技术和基于数据暂存区的元数据高效管理技术。首先,通过设置数据暂存区来实现读写模式文件流的重定向,然后建立异步线程池模型,实现数据暂存区镜像文件的同步,从而完成用户层到存储层的所有POSIX相关的文件操作。此外,借助跳表结构的元数据缓存实现List目录等元数据操作效率优化。测试表明,相较于HDFS的Linux客户端,基于技术成果实现的SMDFS3.0的随机读性能有10倍以上的性能提升,顺序读和顺序写性能有约3~4倍的提升,随机写性能可以达到本地文件系统的20%,基于目录的元数据缓存的设计使目录的List操作效率提升近10倍。但是,由于用户空间文件系统(FUSE)挂载的客户端会引入额外的内核态和用户态切换等带来的开销,因此SMDFS3.0的Linux客户端相对于系统的Java接口会有大约50%的性能损耗。  相似文献   

19.
董豪宇  陈康 《计算机应用》2005,40(9):2577-2585
针对在使用高速存储硬件时常规网络文件系统会被软件开销影响整体性能的问题,提出了利用存储性能开发套件(SPDK)搭建文件系统的方法,并在此基础上实现了一个网络文件系统RUFS的原型。该系统通过键值存储模拟文件系统的目录树结构以及对文件系统的元数据进行管理,通过SPDK存储文件的内容。另外,利用远程直接内存访问(RDMA)技术对外提供文件系统服务。RUFS相较于NFS+ext4,在4 KB随机访问上,读写吞吐性能分别提高了202.2%和738.9%,读写平均延迟分别降低了74.4%和97.2%;在4 MB顺序访问上,读写吞吐性能分别提高了153.1%和44.0%。在大部分元数据操作上,RUFS相比NFS+ext4也有显著优势,特别是文件夹创建操作,RUFS的吞吐性能提高了约5 693.8%。该系统能够充分发挥高速网络和高速存储设备的性能优势,为用户提供延时更低、吞吐性能更好的文件系统服务。  相似文献   

20.
We have designed and implemented Tianwang File System(TFS), which is a distributed file system much like Google File System(GFS). The system has its origins in our Tianwang search engine and web mining research work. Our system has the same assumptions and the same architectures with GFS. But the key design choice that the chunk size is variable lets our system to adopt simpler system interactions which significantly improves the performance of the record append operation. In this paper, we discuss many aspects of our design which are different from GFS, and verify their pros and cons by performance experiments. The experiment results shows that the utilization ratio of our record append operation excels GFS by 25%. And the throughput of record append of TFS is also several times better.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号