共查询到20条相似文献,搜索用时 15 毫秒
1.
为提高Hadoop分布式文件系统(HDFS)的小文件处理效率,提出了一种面向HDFS的智能小文件存取优化方法--SmartFS。SmartFS通过分析小文件访问日志,获取用户访问行为,建立文件关联概率模型,并根据基于文件关联关系的合并算法将小文件组装成大文件之后存至HDFS;当从HDFS获取文件时,根据基于文件关联关系的预取算法来提高文件访问效率,并提出基于预取的缓存替换算法来管理缓存空间,从而提高文件的命中率。实验结果表明,SmartFS有效减少了HDFS中NameNode的元数据空间,减少了用户与HDFS的交互次数,提高了小文件的存储效率和访问速度。 相似文献
2.
曙光星云分布式文件系统:海量小文件存取 总被引:2,自引:0,他引:2
随着互联网应用的发展和云计算的兴起,在线图片、音频、视频以及微博等服务逐渐广泛发展,这些应用展示了与传统应用截然不同的数据访问和存储模式.数据中心内每秒钟都有大量较小文件的生成、分析和返回,这些应用对高并发海量文件的高吞吐、低延迟读写提出了新的挑战.提出基于分布式表存储的全新的分布式文件系统HVFS来管理数以十亿计的文件,并同时支持高吞吐和低延迟的文件访问.HVFS通过改进分布式可扩展哈希来管理元数据、日志结构的格式和列存储来利用时空局部性.本文描述了HVFS的设计和实现并进行了中等规模的实验.实验显示HVFS的表存储结构能够线性的扩展,并在82个结点上提供超过240,000次/秒、100,000次/秒的数据(<1KB)写和读;基于FUSE的实现在32个节点上提供超过180,000个/秒的文件创建速度. 相似文献
3.
针对Ceph存储系统面对小文件存储时存在元数据服务器性能瓶颈、文件读取效率低等问题.本文从小文件之间固有的数据关联性出发,通过轻量级模式匹配算法,提取出关联特征并以此为依据对小文件进行合并,提高了合并文件之间的合理性,并在文件读取时将同一合并文件内的小文件存入客户端缓存来提高缓存读取命中率,经过实验验证本文的方案有效的提高了小文件的访问效率. 相似文献
4.
《计算机应用与软件》2016,(8)
城轨线网小文件数据量巨大,传统的分布式文件系统很难为海量小文件存储提供符合需求的高吞吐、低延迟读写过程。根据城轨线网级业务的数据特点和以天为周期的数据访问方式,提出基于FastDFS分布式文件系统和Redis键值数据库的城轨线网海量小文件存储方法,将具有相关性的城轨小文件合并成大文件进行聚合写操作;根据FastDFS返回的大文件索引、小文件存储起始偏移量和小文件长度建立全局索引,利用Redis存储小文件名和全局索引的键值对;采用数据预取机制,预取创建时间相邻的数据。实验结果表明,相较于FastDFS系统,FastDFS-Redis系统的小文件读写吞吐量分别提高了9.35%和4.45%,达到明显改善城轨线网海量小文件的访问效率的目的。 相似文献
5.
Hadoop分布式文件系统(HDFS)是为可靠地存储和管理海量文件而设计。在HDFS中,所有的文件由单一的服务器NameNode来管理。因此,随着小文件数量的增加,会使HDFS系统性能下降。为了提高存储和访问HDFS上小文件的效率,本文提出了一个解决方案,即:扩展的Hadoop分布式文件系统(EHDFS)。这种方法把一组相关文件组合成一个大文件来减少文件的数量,然后建立一种索引机制,从这个组合文件中识别并访问客户所要的单个文件。实验结果表明EHDFS提高了存储和访问大量小文件的效率。 相似文献
6.
一种性能优化的小文件存储访问策略的研究 总被引:1,自引:0,他引:1
在分布式文件系统中,小文件的管理一般存在访问性能较差和存储空间浪费较大等缺点.为了解决这些问题,提出了一种性能优化的小文件存储访问(SFSA)策略.SFSA将逻辑上连续的数据尽可能存储在物理磁盘的连续空间,使用Cache充当元数据服务器的角色并通过简化的文件信息节点提高Cache利用率,提高了小文件访问性能;写数据时聚合更新数据及其文件夹域中的相关数据为一次I/O请求写入,减少了文件碎片数量,提高了存储空间利用率;文件传输时利用局部性原理,提前发送批量的高访问率的小文件,降低了建立网络连接开销,提升了文件传输性能.理论分析和实验证明,SFSA的设计思想和方法能有效地优化小文件的存储访问性能. 相似文献
7.
分布式内存文件系统将所有数据存放在内存中,能够大大提高数据吞吐率和降低数据访问延迟.采用高带宽、低延迟的互联方案连接各个存储节点,是实现高性能分布式内存文件系统的关键.主要研究InfiniBand接口技术,通过通信接口直连、层次结构精简和报文格式优化等途径,基于FPGA设计并实现一种低延迟的互联方案.测试结果表明,采用该方案在16B数据负载的情况下可以达到1.31μs的低延迟. 相似文献
8.
9.
针对分布式文件系统应用于海量小文件访问模式时, 元数据请求过多导致系统性能下降的问题, 提出了客户端元数据缓存授权机制的解决方案. 客户端从服务器读取元数据时, 申请相应类型的授权, 服务器分析请求并决定是否授予此客户端所访问的元数据的授权. 若客户端成功获取授权, 则将其与本地缓存的元数据相关联, 作为缓冲有效性的凭证. 当再次访问本地缓存的元数据时, 若有相关授权, 则可以直接从本地获取元数据, 无需向服务器发送缓存数据的有效性验证RPC. 仿真实验表明, 文中的方法有效的降低了客户端发送元数据请求RPC的数量, 节省了宝贵的网络带宽资源, 降低了元数据服务器的负载. 相似文献
10.
由于内存云RAMCloud采用日志段的方式存储数据,因此当大量小文件存储于RAMCloud集群时,每个小文件独占整个段,会产生较多的段内碎片,从而导致内存的有效利用率较低以及大量的内存空间浪费。为了解决这个问题,提出基于文件分类的RAMCloud小文件存储优化策略。该策略首先根据文件的相关特性将小文件分为结构相关文件、逻辑相关文件以及相互独立文件三类;然后在存储时对结构相关的文件使用文件合并算法,逻辑相关和相互独立的小文件则使用分组算法。实验结果表明:同未进行优化的RAMCloud存储策略相比,该策略能有效提高集群内存利用率。 相似文献
11.
12.
13.
14.
基于HDFS的小文件存储与读取优化策略 总被引:1,自引:0,他引:1
本文对HDFS分布式文件系统进行了深入的研究,在HDFS中以流式的方式访问大文件时效率很高但是对海量小文件的存取效率比较低. 本文针对这个问题提出了一个基于关系数据库的小文件合并策略,首先为每个用户建立一个用户文件,其次当用户上传小文件时把文件的元数据信息存入到关系数据库中并将文件追加写入到用户文件中,最后用户读取小文件时通过元数据信息直接以流式方式进行读取. 此外当用户读取小于一个文件块大小的文件时还采取了数据节点负载均衡策略,直接由存储数据的DataNode传送给客户端从而减轻主服务器压力提高文件传送效率. 实验结果表明通过此方案很好地解决了HDFS对大量小文件存取支持不足的缺点,提高了HDFS文件系统对海量小文件的读写性能,此方案适用于具有海量小文件的云存储系统,可以降低NameNode内存消耗提高文件读写效率. 相似文献
15.
16.
针对HDFS最初是为流式访问大文件而开发的,而对于大量小文件的存储效率不高问题,采用MapFile设计一个HDFS中存储小文件的方案.该方案的主要思想是在上传HDFS时增加一个文件类型判断模块,建立一个小文件队列,将小文件序列化存入一个MapFile容器,合并成大文件,并建立相应的索引文件,有效降低文件数目和提高访问效率.通过和现有的HadoopArchives(HARfiles)文件归档解决小文件问题的方案对比,实验结果表明,基于MapFile的存储小文件方案可以更为有效的提高小文件存储性能和减少HDFS文件系统的节点内存消耗. 相似文献
17.
随着擦除码技术的流行,分布式存储中高数据可靠性和高空间效率存储性能逐渐实现,但是降低尾部延迟仍然是一个有待解决的问题。为此,提出一种量化和优化擦除编码存储系统尾延迟的算法框架。对于任意服务时间分布和异构文件,推导给出尾部延迟上界。提出了一个优化模型,使得所有文件在服务器上放置的加权延迟尾概率和访问请求文件的服务器选择共同最小化,并证明了其非凸问题特性,以便采用一种高效的交替优化算法求解。此外,通过描述延迟分布尾部的渐近行为,以闭合形式对任意擦除编码存储的服务延迟的尾部指数进行数学量化,证明了基于概率调度的算法是(渐近)最优的。实验结果表明,在实际工作负载下擦除编码存储系统的尾部延迟显著降低。 相似文献
18.
19.
20.
现有的低延迟语音编码算法(LD-CELP)需要16 kb/s比特率,无疑会妨碍它的应用。提出了一种采用两阶段码书搜索的方法可以在提高低延迟语音编码算法性能的同时降低码率。首先构造了两个子码书:一个后向更新的自适应码书和一个具有代数结构的固定码书;然后设计了两阶段码书搜索方法使滤波后的激励矢量和目标矢量之间的均方误差保持最小。这样就得到了一个在8 kHz采样率下具有2.5 ms延迟的10 kb/s两阶段码书搜索的CELP编码器。用平均分段信噪比(SSNR)和感知语音质量评价(PESQ)测试,本算法具有和16 kb/s的G.728相当的编码质量。 相似文献