首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 274 毫秒
1.
提出了一种基于确定性随机分布算法分布元数据和数据对象的可伸缩集群文件系统结构。其中目录路径属性与目录对象分离的元数据管理方法,在提高系统性能、均衡元数据分布和减少元数据迁移等方面具有明显优势。提出的基于动态区间映射的数据对象布局算法,支持权重分布和副本,在均衡数据分布和最少迁移数据方面都具有统计意义上的最优性,有效解决了动态存储系统的数据均衡分布与可伸缩性问题。  相似文献   

2.
一种性能优化的小文件存储访问策略的研究   总被引:1,自引:0,他引:1  
在分布式文件系统中,小文件的管理一般存在访问性能较差和存储空间浪费较大等缺点.为了解决这些问题,提出了一种性能优化的小文件存储访问(SFSA)策略.SFSA将逻辑上连续的数据尽可能存储在物理磁盘的连续空间,使用Cache充当元数据服务器的角色并通过简化的文件信息节点提高Cache利用率,提高了小文件访问性能;写数据时聚合更新数据及其文件夹域中的相关数据为一次I/O请求写入,减少了文件碎片数量,提高了存储空间利用率;文件传输时利用局部性原理,提前发送批量的高访问率的小文件,降低了建立网络连接开销,提升了文件传输性能.理论分析和实验证明,SFSA的设计思想和方法能有效地优化小文件的存储访问性能.  相似文献   

3.
为解决高能物理海量存储系统由于存储规模不断扩大所面临的问题,设计一种分布式元数据管理系统,包括元数据管理、元数据服务、缓存服务以及监控信息采集4个部分,在此基础上提出自适应目录子树划分算法,以目录为粒度进行元数据划分,根据集群负载情况调整目录子树,实现元数据信息在元数据集群中的合理存储和分布。实验结果证明,该算法能提高元数据的访问和检索性能,提供可扩展及动态负载均衡的元数据服务,以保证该元数据管理系统的可用性、扩展性及I/O性能不会因存储规模扩大而受到影响,满足高能物理实验日益增长的存储需求。  相似文献   

4.
《计算机工程》2017,(8):69-73
现有分布式文件存储系统存在数据组织低效和访问语义冗余等问题,严重限制了系统性能。为此,借鉴对象存储思想,设计面向高性能计算的分布式对象存储系统。分离数据访问和数据管理,实现更精简高效的访问语义,同时采用分布式全局对象数据组织方式,运用基于内存的元数据管理方法提升系统性能。实验结果表明,在大规模并发访问时,该系统的读/写聚合带宽相比Lustre系统分别提升22.5%和50.4%,文件创建、删除性能分别达到Lustre系统的2.15倍和5.13倍。此外,该系统还具有拟线性的数据读/写和元数据管理功能,可扩展性较好。  相似文献   

5.
传统方法在删除重复数据时逻辑顺序较为混乱,导致重复数据消除效果欠佳.为解决上述问题,基于文件路径,对信息集群中重复数据消除方法展开研究.根据重复数据消除方法分块理念与文件系统中的目录名称,探析文件路径的重复数据消除原理.通过分块筛选存储数据完成数据对比,从而去除数据备份并用指向唯一的实例指针代替.在界定元数据信息的基础...  相似文献   

6.
数据库中文件夹的整体存储与随机访问   总被引:1,自引:0,他引:1  
当前的数据库系统不能提供对文件夹存取的直接支持。针对该问题,综合数据库二进制大对象(BLOB)技术、流技术和序列化技术,提出一种数据库中文件夹的整体存储和随机访问方法。将文件夹打包成连续的文件数据块和目录结构对象,序列化目录结构对象为目录结构数据块,保存文件数据块和目录结构数据块至数据库的BLOB列。访问数据库文件时,读取目录结构BLOB为目录结构数据块,通过反序列化将其恢复成目录结构对象。从目录结构对象中可选择欲访问的文件,确定其在文件数据BLOB中的位置和大小,读取其对应的数据,从而实现对数据库中文件夹的随机访问。  相似文献   

7.
面向大数据分析的分布式文件系统关键技术   总被引:1,自引:0,他引:1  
大数据时代的来临使数据分析和处理能力成为数据中心和互联网公司日益倚重的技术手段.信息规模的扩大和数据结构的多样化,使海量数据存储成为大数据分析研究的热点.传统的分布式文件系统在扩展性、可靠性和数据访问性能等方面难以满足新形势下的需求.设计并实现了一个面向大数据分析、专为大规模集群应用的分布式文件系统Clover.该系统采用基于目录划分和一致性Hash映射的名字空间管理方法,解决了元数据扩展性问题;通过改进的两阶段提交协议,保证了多元数据服务器下分布式元数据操作的一致性;提出了基于共享存储池的高可用机制,通过热备和全局状态恢复机制提高了元数据的可靠性.评测结果表明,Clover的元数据处理能力随服务器的数量线性增长,增加单个服务器的元数据操作性能平均提升了5.13%~159.32%.由于名字空间管理和分布式事务的开销,多元数据服务器会导致复杂操作的性能下降,但是这种下降的幅度很小(小于10%).与HDFS相比,Clover的文件读写带宽与之接近,并能够保证在元数据服务器失效后文件系统快速恢复,适合于构建高可扩展和高可用的存储系统.  相似文献   

8.
数据规模和并发访问的需求日益增长,可扩展能力成为并行文件系统的重要需求之一.文中提出了一种基于非对称并行文件系统Redbud的高可扩展资源管理机制.该管理机制根据数据的访问特征,使用不同的树形结构管理不同类型的数据,满足了文件数据和元数据的并发检索需求;该管理机制还使用文件级的数据分布机制,允许用户利用各种策略进行目录和文件的管理,能满足文件级的数据访问性能、目录级数据可靠性等实际应用需求.多个基准测试程序和实际应用程序的测试结果表明,文件的独占访问能达到磁盘95%的性能;同时,随着设备和应用节点的增加,数据和元数据的并发访问性能线性增长.  相似文献   

9.
基于空间数据面向对象存储思想和云存储可扩展架构,将控制信息集中在元数据服务器集群中管理,而实际的空间数据基于对象存储分布到存储设备集群中,实现控制信息路径与数据传输路径的分离,并缓存热点空间数据对象接口,以减少元数据访问次数和降低其服务器负载;基于对象存储设备的并行性和CDMI标准对元数据进行自上而下的功能分层管理,增...  相似文献   

10.
为解决SaaS(Software as a Service)应用中多租户重复定制造成的数据冗余存储问题,提出一种基于元数据的差异数据存储方法。该方案研究传统元数据驱动的存储模式,通过对元数据的分类定义,给出差异存储方案的形式化语义和数据存储策略。最后分别对增删改查操作提出该方案的数据访问算法。计算表明,差异存储方法在冗余减少的概率分析下显示出较高的存储空间利用效率,有效地减少了租户的冗余存储。同时性能测试结果还反映出该方案具有较好的数据访问性能。  相似文献   

11.
Data explosion introduces new challenges to storage systems. In a file system for big data, a large number of directories and files exist, which are usually organized in a large tree. Parsing directories in a large tree is difficult. In this paper, we propose an accelerator, which helps file systems to fetch the metadata of files rapidly. Contributions of this work include two aspects. First, we propose an accelerator for directory parsing. The accelerator is actually an SSD-based (Solid State Drive-based) cache, which keeps the metadata of frequently or recently accessed files and directories. When a file is demanded, the accelerator attempts to obtain its metadata directly from SSD. If the metadata is kept in SSD, the file system can rapidly obtain the metadata. However, if the metadata is not in SSD, the accelerator consumes a long time to access SSD, but to no avail. In order to avoid non-beneficial SSD accesses, the accelerator predicts whether the metadata is kept by SSD before issuing a read request. Only if the metadata has a high probability of being kept in SSD, the accelerator issues a request to the SSD. The second contribution of this paper is a new bloom filter used to predict whether a piece of data is kept in SSD. Bloom filter is a space-efficient data structure supporting membership query. But, the standard bloom filter cannot support element deletion. Whereas, our accelerator is a cache, which evicts items periodically. The standard bloom filter is not suitable for our accelerator. In this work, we designed a new bloom filter with low overhead, which supports element deletion. The new bloom filter perfectly suits the proposed accelerator. With the prediction of our bloom filter, the accelerator can accelerate the process of directory parsing with nearly no negative impact. We evaluated the accelerator by using a prototype. Experimental results demonstrate that, the accelerator can speed up the directory parsing process by nearly four times compared with a file system without an accelerator.  相似文献   

12.
在大规模分布式存储系统中,元数据高性能服务和扩展性已成为一个重要的研究热点.在元数据服务器(metadata server,MDS)中,将元数据分解为目录对象和文件对象.目录对象为定位性元数据,提供文件所在位置和访问控制;文件对象为描述性元数据,描述文件的数据特性.每个MDS负责所有目录对象和自身的文件对象,同时,以目录对象ID和文件名为关键字的Hash值作为局部元数据查找表的索引,通过Bloom Filter算法将每个MDS的局部元数据查找表压缩成一个摘要,这样既可利用MDS中Cache,提高Cache的命中率,减少磁盘I/O次数,动态扩展MDS,又能够实现快速的元数据查找.  相似文献   

13.
针对气象水文应用中,大量常规观探测报文批量访问出现的低效问题,研究文件存储特性,定量分析了目录级数和文件数量对访问性能的影响,发现文件数相对于文件大小,对于系统的访问效率影响更大,当单个目录下文件数目过大时,文件存取延时较大,严重影响用户体验与服务性能。根据NTFS下的实验数据,设计了一种高效的目录组织方法,优化用户态文件存储管理算法。实验表明,优化后的文件目录结构和组织形式,能极大地提高批量文件的读取效率,降低20%—73%的访问延时,改善网络环境下的大规模文件接收处理效率。  相似文献   

14.
游小容  曹晟 《计算机科学》2015,42(10):76-80
Hadoop作为成熟的分布式云平台,能提供可靠高效的存储服务,常用来解决大文件的存储问题,但在处理海量小文件时效率显著降低。提出了基于Hadoop的海量教育资源中小文件的存储优化方案,即利用教育资源小文件间的关联关系,将小文件合并成大文件以减少文件数量,并用索引机制访问小文件及元数据缓存和关联小文件预取机制来提高文件的读取效率。实验证明,以上方法提高了Hadoop文件系统对小文件的存取效率。  相似文献   

15.
Hadoop分布式文件系统(HDFS)通常用于大文件的存储和管理,当进行海量小文件的存储和计算时,会消耗大量的NameNode内存和访问时间,成为制约HDFS性能的一个重要因素.针对多模态医疗数据中海量小文件问题,提出一种基于双层哈希编码和HBase的海量小文件存储优化方法.在小文件合并时,使用可扩展哈希函数构建索引文件存储桶,使索引文件可以根据需要进行动态扩展,实现文件追加功能.在每个存储桶中,使用MWHC哈希函数存储每个文件索引信息在索引文件中的位置,当访问文件时,无须读取所有文件的索引信息,只需读取相应存储桶中的索引信息即可,从而能够在O(1)的时间复杂度内读取文件,提高文件查找效率.为了满足多模态医疗数据的存储需求,使用HBase存储文件索引信息,并设置标识列用于标识不同模态的医疗数据,便于对不同模态数据的存储管理,并提高文件的读取速度.为了进一步优化存储性能,建立了基于LRU的元数据预取机制,并采用LZ4压缩算法对合并文件进行压缩存储.通过对比文件存取性能、NameNode内存使用率,实验结果表明,所提出的算法与原始HDFS、HAR、MapFile、TypeStorage以及...  相似文献   

16.
基于Erasure Code的分布式文件存储系统   总被引:1,自引:0,他引:1       下载免费PDF全文
在局域网环境下,实现一种基于Erasure Code的分布式文件存储系统。该系统由元数据服务器和多个文件存储节点组成,通过对元数据与文件数据分离存储以提高文件访问效率,将Erasure Code有效冗余存储技术应用于文件编解码以增强可靠性,采用MD5消息摘要技术保证文件完整性。对30 MB~600 MB大小的文件测试结果表明,该系统具有更高的可靠性、安全性以及资源利用率。  相似文献   

17.
针对Ceph存储系统面对小文件存储时存在元数据服务器性能瓶颈、文件读取效率低等问题.本文从小文件之间固有的数据关联性出发,通过轻量级模式匹配算法,提取出关联特征并以此为依据对小文件进行合并,提高了合并文件之间的合理性,并在文件读取时将同一合并文件内的小文件存入客户端缓存来提高缓存读取命中率,经过实验验证本文的方案有效的提高了小文件的访问效率.  相似文献   

18.
在文件存储系统中,文件系统整体性能的提升对于保证文件的安全性和可靠性具有重要意义,而在此过程中,元数据访问性能与文件系统性能有密切关系,要想进一步满足大规模文件存储系统需要,就必须建立相应的文件元数据预取模型。本文通过对基于数据挖掘的文件元数据预取进行分析,以期满足文件数据的大量存取访问需求。  相似文献   

19.
针对Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)在海量样本数据集存储方面存在内存占用多、读取效率低的问题,以及分布式数据库HBase在存储文件名重复度和类似度高时产生访问热点的问题,结合样本数据集的特点、类型,提出一种面向样本数据集存取优化方案,优化样本数据集中小文件的写入、读取、添加、删除和替换策略。该方案根据硬件配置测得大、小文件的分界点,通过变尺度堆栈算法按样本数据集的目录结构将小文件合并存储至HDFS;结合行键优化策略将文件索引存储在HBase数据表中;搭建基于Ehcache缓存框架的预取机制。实验结果表明,该方案降低了主节点的内存消耗,提高了文件的读取效率,实现了对海量样本数据集中小文件的高效存取。  相似文献   

20.
针对石油勘探行业海量数据过大以及非结构化的特点导致地震数据合并处理时的效率低、消耗磁盘等问题, 提出对地震数据文件建立元数据, 将多个独立地震数据文件通过文件元数据合并方式生成一个逻辑上完整的地震数据文件即虚拟地震数据文件, 提高地震数据合并效率, 并根据地震数据并行访问模型实现对虚拟地震数据文件的IO访问.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号