首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 218 毫秒
1.
在分布式存储系统中,节点故障已成为一种常态,为了保证数据的高可用性,系统通常采用数据冗余的方式.目前主要有2种冗余机制:一种是多副本,另一种是纠删码.伴随着数据量的与日俱增,多副本机制带来的效益越来越低,人们逐渐将目光转向存储效率更高的纠删码.但是纠删码本身的复杂规则导致使用纠删码的分布式存储系统的读、写、更新操作的开销相比于多副本较大.所以纠删码通常被用于冷数据或者温数据的存储,热数据这种需要频繁访问更新的场景仍然用多副本机制存储.专注于纠删码存储系统内的数据更新,从硬盘I/O、网络传输、系统优化3方面综述了目前纠删码更新相关的优化工作,对目前具有代表性的编码方案的更新性能做了对比分析,最后展望了未来研究趋势.通过分析发现目前的纠删码更新方案仍然无法获得和多副本相近的更新性能.如何在纠删码更新规则和系统架构角度优化纠删码存储系统,使其能够替换掉热数据场景下的多副本机制,降低热数据存储开销仍是未来值得深入研究的问题.  相似文献   

2.
纠删码存储集群已经成为适应大规模数据中心的典型容错存储方案.纠删码存储研究主要从新型编码和存取过程优化2个方面展开,从存取过程角度来优化纠删码存储集群的可靠性和能效性.具体地,结合系统运行状态,建立一种与运行状态相匹配的弹性I/O调度策略,即,节点正常运行时,在保证用户性能的前提下,将一部分节点切换到休眠状态,以降低存储系统的当前功率;节点失效时,以提升系统可靠性为目标,对失效数据进行流水线高速重构,最小化数据恢复时间.分别设计了具有节能特性的正常模式方案ECS2和能够加速恢复的Pipe-Rec方案,并在Reed-Solomon码存储集群(其中,编码参数k=6,r=3)中实现了原型.能耗对比测试表明:ECS2在读密集型和写密集型负载下分别能节约29.8%和28%的能耗;而重构对比测试表明:Pipe-Rec方案的重构性能是传统同步式重构方案的5.76倍.  相似文献   

3.
随着多媒体数据的爆发式增长,云端数据呈现出大规模多模态混合并存的特性.服务于数据分析的传统存储系统因为缺乏数据的语义管理而面临读取延时超长的挑战.针对图像和文本2种模态数据,在传统存储系统之上提出一种跨模态图文数据内容筛选存储机制(cross-modal image and text content sifting storage, CITCSS),用于提供大规模在线相似性内容筛选服务,从存储系统层面缓解数据分析时必须从存储中读出所有数据的读带宽压力.机制分为离线与在线2个阶段.离线阶段中,引入基于自监督的生成对抗式Hash方法,系统利用这种方法生成语义元数据.然后,将元数据注入独立的元数据空间.最后,根据相似性Hash码间汉明距离能够度量语义距离的特点,利用Neo4j图数据库构建Hash元数据图谱,并在语义图谱中建立Hash码与存储路径之间的映射.在线阶段中,用户发送与分析相关的图像或文本,存储系统首先转化数据为Hash码.然后,在筛选半径内通过Hash元数据图谱寻找相似节点,进而找到相似文件的底层存储路径返回筛选数据.实验结果表明,与传统语义存储系统相比,CITCSS在召回率超过98%的性能下,读取延迟相对降低了99.07%~99.77%.  相似文献   

4.
在大规模云存储系统中,由于磁盘或网络故障造成的存储节点失效事件频发,系统需要数据冗余技术以保证数据的可靠性和可用性。纠删码,相对于副本方式而言,能大大提高存储空间的利用率,但纠删码在冗余数据修复方面的代价较副本方式高很多。目前针对纠删码的冗余数据修复研究大都无差别对待每个存储节点,然而实际分布式存储系统中,节点通常存在带宽资源、计算资源、存储容量资源等方面的差异性,这些资源的异构性对冗余数据修复性能影响很大。本文指出影响修复性能的关键因素,选取带宽开销、磁盘访问开销、修复时间、参与修复的节点数量和修复代价作为修复性能的评价标准;分析了现有研究方法如何降低这五种开销,重点讨论了这些方法的优缺点;阐述当前异构分布式存储系统中纠删码修复技术的研究现状;最后指出纠删码数据修复技术中尚未解决的一些难题和未来纠删码修复技术可能的发展方向。  相似文献   

5.
由于纠删码具备高可用性和高存储空间有效性的特点,采用纠删码为大规模分布式存储系统提供数据持久性已成为事实标准.然而,纠删码的密集型更新操作将导致大量的数据传输和I/O开销.如何减少数据传输量,优化现有网络资源的利用率,以提高纠删码的更新效率,成为纠删码存储系统面临的重要挑战.然而,在多重服务质量(quality of service, QoS)指标下,目前对纠删码更新效率的优化研究很少.针对此问题,提出一种基于蚁群优化算法的多数据节点更新方案(ant colony optimization algorithm based multiple data nodes update scheme, ACOUS),采用2阶段数据更新方式以优化多数据节点更新过程.具体而言,基于多目标蚁群优化更新路由算法(multi-objective ant colony optimization update routing algorithm, MACOU)所构建的多目标更新树,2阶段数据更新方式能有效地进行数据增量收集和校验增量分发.大量的实验结果表明,在典型的数据中心网络拓扑结构下,与TA-Update方案相比,所提方案能够在保证算法收敛的前提下,以可忽略的计算开销为代价,将更新时延降低26%~37%.  相似文献   

6.
随着云存储的迅猛发展与大数据时代的来临,越来越多的存储系统开始采用纠删码技术,以保障数据的可靠性.在基于纠删码的存储系统中,一旦有磁盘出错,系统需根据其他磁盘里存储的冗余信息,重构所有失效数据.由于当前存储系统中绝大部分磁盘错误都是单磁盘错误,因此,如何快速地在单磁盘错误的情况下重构失效数据,已成为存储系统的研究热点.首先介绍了存储系统中基于纠删码的单磁盘错误重构优化方法的研究背景与研究意义,给出了纠删码的基本概念与定义,并分析了单磁盘错误重构优化的基本原理;接着归纳了现有的一些主流单磁盘错误重构方法的构造算法及其优缺点与适用范围,并分类介绍了一些用于优化单磁盘错误重构效率的新型纠删码技术;最后指出了存储系统中基于纠删码的磁盘错误重构方法的进一步研究方向.  相似文献   

7.
随着互联网数据的爆发式增长,越来越多的分布式存储系统开始引入纠删码存储机制,以在提供数据可靠性的同时降低存储开销。但纠删码机制的引入改变了数据放置模式,从而影响分布式系统上层业务的数据访问和运行效率。在异构Hadoop集群环境中,一类典型的离线批处理作业——MapReduce应用在条带式纠删码存储模式下需要从多个节点访问数据,该“一对多”的数据访问模式由于节点性能差异造成应用执行效率下降。对此,该文提出了一种基于异构环境的数据放置和任务分配策略。通过对异构集群中各节点的硬件参数和历史负载进行分析,将同一纠删码条带的数据块尽可能分布在性能相近的节点上;在系统进行任务分配时,针对各节点当前负载和运算能力确定节点的任务并发度,以平衡各节点计算资源的占用情况,从而避免因数据访问或计算过程中的资源竞争产生极端缓慢任务以致降低整个MapReduce应用的运行效率。实验结果表明,相比当前Hadoop默认的随机数据放置和任务分配策略,该文提出的异构感知数据放置策略和动态任务分配策略能够在不同类型的MapReduce应用中有效削弱任务的长尾效应,使得作业整体运行时间节约10.5%~42%,验证了该方案的...  相似文献   

8.
云数据存储的快速发展对数据的可用性提出了较高要求.目前,主要采用纠删码计算数据编码块进行分布式冗余数据存储来保证数据的可用性.虽然这种数据编码技术保证了存储数据的安全性并减少了额外的存储空间,但在损坏数据恢复时会产生较大的计算和通信开销提出一种基于多级网络编码的多副本生成和损坏数据恢复算法算法基于多级网络编码对纠删码的...  相似文献   

9.
目前分布式存储系统的规模越来越大,不论存储设备是磁盘还是固态盘,系统都始终面临着数据丢失的风险.传统分布式存储系统大多采用基于三副本的高可靠性技术,但为了追求较低的存储开销,大量系统正在转向基于纠删码的可靠性方法.但是在纠删码方案下,重建故障数据需要读取多个存储设备,这将导致大量的网络传输和存储I/O操作,增大系统恢复开销.为了能够在不损失其他性能的同时降低恢复开销,利用软件定义网络(software defined networking, SDN)技术,提出一种基于网络计算的高效故障重建方案——网络流水线(in-network pipeline, INP),其中SDN 控制器利用网络的全局拓扑信息构造重建树,系统依据重建树进行数据传输,并在交换机上完成部分计算,减少向后传输的网络流量,从而消除网络瓶颈,提升恢复性能.测试评估了不同网络带宽下INP的恢复效率.实验结果表明:与传统的纠删码系统相比,INP总是能大幅减少网络流量,并且在一定带宽条件下,能够接近正常读的时间开销.  相似文献   

10.
丁尚  童鑫  陈艳  叶保留 《软件学报》2017,28(8):1940-1951
分布式存储系统为保证可靠性会采用一定存储冗余策略如多副本策略、纠删码策略.纠删码相对于副本具有存储开销小的优点,但节点修复网络开销大.针对修复网络开销优化,业界提出再生码与以简单再生码为代表的局部可修复码,显著降低了修复网络开销.然而,现有基于编码的分布式容错存储方案大都假设节点处于星型逻辑网络结构中,忽略了实际的物理网络拓扑结构和带宽信息.为实现拓扑感知的容错存储优化,相关研究在纠删码和再生码修复过程结合网络链路带宽能力,建立树型修复路径,进一步提高了修复效率.但由于编码和修复过程的差异性,上述工作并不适合于简单再生码修复.针对该问题,本文结合实际物理网络拓扑结构,将链路带宽能力引入到简单再生码的修复过程中,对带宽感知的简单再生码修复优化技术开展研究.论文建立了带宽感知节点修复时延模型,提出了基于最优瓶颈路径和最优修复树的并行修复树构建算法.并通过实验对所提算法性能进行了评估.实验结果表明,与星型修复方式相比,论文所提算法有效地降低了节点修复时延,提高了修复效率.  相似文献   

11.
提出了一种基于确定性随机分布算法分布元数据和数据对象的可伸缩集群文件系统结构。其中目录路径属性与目录对象分离的元数据管理方法,在提高系统性能、均衡元数据分布和减少元数据迁移等方面具有明显优势。提出的基于动态区间映射的数据对象布局算法,支持权重分布和副本,在均衡数据分布和最少迁移数据方面都具有统计意义上的最优性,有效解决了动态存储系统的数据均衡分布与可伸缩性问题。  相似文献   

12.
结合对象存储的特点,提出基于QoS的存储系统模型。该模型将迁移任务划分为细粒度的迁移请求,使对象存储设备在实现数据迁移的同时能响应I/O请求。元数据服务器按相同的标准给I/O请求和迁移请求分配相应的收益,使对象存储设备能采用收益最大算法调度I/O请求和迁移请求,从而提供更高的服务质量。通过收益预测和带宽预留实现在线最大收益调度算法。实验表明,最大收益算法与通常的迁移优先算法和固定平均迁移率算法相比,对系统的I/O性能影响最小。  相似文献   

13.
杨文晖  李国强  苗放 《计算机应用》2015,35(5):1276-1279
为了有效管理海量空间数据存储的元数据,引入了一种基于一致性哈希的分布式元数据服务器管理架构,并在此基础上提出了一种元数据轮式备份策略,将经过一致性哈希算法散列后存储元数据的节点按轮转方式进行数据备份,有效缓解了元数据管理的单点问题与访问瓶颈.最后对轮式备份策略进行测试,得出最佳元数据节点个数备份方案,与单点元数据服务器相比提高了元数据的安全性,降低了访问延迟,并结合虚拟节点改善了分布式元数据服务器的负载均衡.  相似文献   

14.
基于SSD的机群文件系统元数据存储系统   总被引:1,自引:0,他引:1  
随着数据量的增加和元数据操作性能需求的提高,传统基于磁盘(HDD)存储架构的机群文件系统元数据存储系统由于HDD成为性能瓶颈而无法满足需求.将SSD应用到元数据存储中,设计实现了一个基于SSD+HDD的异构元数据存储系统Hybrid MDSL.针对SSD的I/O特性设计了基于追加写的元数据存储组织,并通过基于访问热度的数据迁移机制提高SSD空间利用率.测试结果表明,Hybrid MDSL明显提高了元数据I/O的性能.  相似文献   

15.
高效的、去中心化的元数据管理方案对大型分布式存储系统的可靠性、可扩展性起至关重要的作用.针对基于Hash划分和基于子树划分的元数据管理方案扩展代价巨大、对集群变动敏感等问题,提出一种基于一致性Hash结构的元数据服务器(metadata server, MDS)集群化方案——CH-MMS(consistent Hash based metadata management schema).CH-MMS在一致性MDS集群上引入虚拟MDS(Virtual MDS),有效平衡MDS集群负载;将Standby机制与延迟更新策略融合并应用于MDS集群,实现MDS快速失效恢复以及集群变动时零数据迁移量.阐述了CH-MMS的体系结构,介绍了核心数据结构layout-table、虚拟MDS结构、延迟更新机制及相关算法,并对CH-MMS扩展性、容错性作了定性分析.最后通过原型系统和模拟实验说明,CH-MMS具有元数据平衡分布、快速失效恢复、灵活的扩展性以及零结点变动数据迁移量等特点,能满足数据量不断增加的大规模存储集群元数据灵活、高效管理的需求.  相似文献   

16.
郑胜  郝毫毫 《计算机工程》2009,35(19):59-61
数据量的快速增长,使得研究能够自动适应存储节点动态变化的数据分布方法成为分布式文件系统领域的难点和热点。基于贝努利大数定律提出一种自适应存储节点规模动态变化的数据分布算法,通过理论分析和实验证明,该算法能够实现在节点规模动态变化过程中数据分布的均衡性,并能保证迁移的数据量从统计意义上最优。  相似文献   

17.
针对P2P网络中由于查询条件的弱语义和粗粒度、检索效率低下以及网络带宽消耗的问题提出了一个基于元数据的高效查询算法,通过在任意P2P数据管理层的基础上建立一个统一的元数据层,各个节点自动抽取共享数据的详细的元数据信息,每个节点不仅保存本地共享数据的元数据信息,而且存储访问过的最感兴趣的数据的元数据信息,并使用数据库对元数据信息进行高效管理,从而使所有节点都具有自我学习的能力,充分利用元数据信息提高检索效率。  相似文献   

18.
基于共享存储池的元数据服务器机群的设计研究   总被引:1,自引:0,他引:1  
在大型分布式对象存储系统中,元数据服务系统是一个潜在的访问瓶颈.本文提出一种通过分层式文件系统构建共享存储池的采用两次分布式哈希函数方式的元数据服务系统.其具有不需要人工干预的故障恢复性和易扩展特性,而且最大程度减少了MDS之间大量元数据的物理迁移.实验测试证明系统具有良好的I/O性能.  相似文献   

19.
徐丽萍  李珺 《计算机工程》2007,33(21):72-74,7
通过对网格及元数据特点分析,给出了一种数据网格环境下的元数据管理模型。该模型目的在于实现分布式的元数据管理平台,负责对元数据的注册、访问及管理。通过建立元数据到存储系统的映射,用户可进行元数据资源的透明访问。为了适应网格中资源的多变性,提出改进的动态区间映射布局算法对元数据进行动态的、均衡的、可伸缩的重布局,以提高存储系统的自适应能力。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号