期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

Robust Redundancy Scheme for the Repair Process: Hierarchical Codes in the Bandwidth-Limited Systems

Zhen Huang Yisong Lin Yuxing Peng 《Journal of Grid Computing》2012,10(3):579-597

High performance computing can be well supported by the Grid or cloud computing systems. However, these systems have to overcome the failure risks, where data is stored in the “unreliable” storage nodes that can leave the system at any moment and the nodes’ network bandwidth is limited. In this case, the basic way to assure data reliability is to add redundancy using either replication or erasure codes. As compared to replication, erasure codes are more space efficient. Erasure codes break data into blocks, encode these blocks and distribute them into different storage nodes. When storage nodes permanently or temporarily abandon the system, new redundant blocks must be created to guarantee the data reliability, which is referred to as repair. Later when the churn nodes rejoin the system, the blocks stored in these nodes can reintegrate the data group to enhance the data reliability. For “classical” erasure codes, generating a new block requires to transmit a number of k blocks over the network, which brings lots of repair traffic, high computation complexity and high failure probability for the repair process. Then a near-optimal erasure code named Hierarchical Codes, has been proposed that can significantly reduce the repair traffic by reducing the number of nodes participating in the repair process, which is referred to as the repair degree d. To overcome the complexity of reintegration and provide an adaptive reliability for Hierarchical Codes, we refine two concepts called location and relocation, and then propose an integrated maintenance scheme for the repair process. Our experiments show that Hierarchical Code is the most robust redundancy scheme for the repair process as compared to other famous coding schemes. 相似文献

2.

图书馆云存储系统中一种自适应容错策略

下载免费PDF全文

田华鄢喜爱杨金民《计算机工程与应用》2019,55(7):95-99

云存储的优势吸引着越来越多的图书馆采用云存储解决馆藏数字资源的存储需求。但随着海量数据的增长,云存储节点的失效概率越来越大。单一的容错策略,如单一的复制或纠删码,不可避免地存在一些缺点,不能满足当今容错技术的需要。因此,根据馆藏文献访问的频率和大小,提出了一种自适应切换的容错策略,该策略可以在整个生命周期中动态地选择复制方案或纠删码方案。实验结果表明,该方案较单一复制策略节约了43%的存储空间,较单一纠删码策略提升了52%的节点故障恢复时间。相似文献

3.

一种混合局部恢复码及Hitchhiker码的存储策略

王梓仲王海霞邵艾然汪东升《计算机学报》2020,43(4):618-630

我们正处于一个大数据的时代.如今一个分布式存储系统需要存放PB数量级数据的情况越来越常见.这些系统一般由普通商用组件构成,其出错率相对较高.由此,分布式存储系统需要保证数据的可靠性和可用性.多副本和纠删码是现在最为常用的技术.相比多副本技术,采用纠删码能在同等容错能力下大幅降低存储开销.然而,在进行数据恢复时,使用传统的纠删码(如Reed-Solomon码)会导致系统中产生大量的网络带宽消耗及磁盘读写操作,进而导致退化读延迟过高.注意到在系统中数据的访问频率呈Zipf分布,大多数数据访问只涉及到少量数据,而绝大多数数据的被访频率很低.根据这种数据访问的偏斜性,本文提出如下存储策略以解决采用纠删码的系统退化读延迟过高的问题:对被访频率高的热数据采用低恢复延迟的纠删码(如局部恢复码Local Reconstruction Code,LRC)进行编码,而对被访频率低的冷数据采用保证最小存储开销的纠删码(如Hitchhiker码)进行编码.由于热数据占据了绝大多数的数据访问,因此绝大多数的退化读也将应用在这些热数据上,这样这一策略就能在整个系统的角度获取低恢复开销的优势.同时,冷数据占据了系统绝大多数的数据量,且冷数据由保证最小存储开销的编码进行存储,因此这一策略的存储开销会很低.然而,对于混合存储策略而言,热数据可能会变冷,而冷数据也可能会变热,因此它需要配置一种编码切换过程.一个不恰当的编码切换过程会引起巨大的数据传输量,这是难以让人接受的.为了避免这一缺陷,本文提出了一种LRC和Hitchhiker码之间的高效切换算法.这一算法可以避免上述策略在部署时因冷热数据的转换出现系统瓶颈.在精心选取了两种编码并提出它们之间的高效切换算法后,本文提出的混合存储策略避免了现阶段其余混合存储策略的主要缺点.通过实验验证,此存储策略相较传统的Reed-Solomon码在退化读延迟方面降低了55.8%.在编码切换方面,切换延迟能分别降低为重新编码算法用时的13.4%及33.1%,且当数据从LRC切换为Hitchhiker码时(更为频繁出现的情况)的数据传输量能降至10%. 相似文献

4.

基于多级网络编码的多副本云数据存储

徐光伟史春红冯向阳罗辛石秀金韩松桦李玮《计算机研究与发展》2021,58(2):291-304

云数据存储的快速发展对数据的可用性提出了较高要求.目前,主要采用纠删码计算数据编码块进行分布式冗余数据存储来保证数据的可用性.虽然这种数据编码技术保证了存储数据的安全性并减少了额外的存储空间,但在损坏数据恢复时会产生较大的计算和通信开销.提出一种基于多级网络编码的多副本生成和损坏数据恢复算法.算法基于多级网络编码对纠删码的编码矩阵进行改进形成多级编码矩阵,利用其级联性生成多级编码(hierarchical coding,HC码)来构成多副本数据,使得各副本之间存在编码关系.在损坏数据恢复时,利用数据所有者提供的数据编码信息和云存储中保存的数据块直接计算进行恢复,从而避免从云存储中远程下载数据.理论分析和实验表明,所提算法在相同的存储空间下显著减少了损坏数据恢复时的通信开销并提高了数据的可用性. 相似文献

5.

基于混合策略的低成本云存储方案

李松涛金欣《计算机应用》2014,34(10):2800-2805

为了保证云存储系统数据的高可用性、降低数据存储成本和带宽成本、缩短数据对象的访问时间,提出一种称为缓存大小自适应确定(CAROM)的新方案。CAROM结合传统的基于缓存策略的方法和纠错码方法来提高云文件系统的弹性和效率。另外,为了在缓存大小及其效益间实现平衡,提出一种基于总体成本凸函数特性的自适应方法来实现缓存大小的自适应选择。在基于现实世界文件系统数据的性能评估中,CAROM方案的存储成本和带宽成本分别比复制策略和纠错码策略下降60%和43%,同时访问延时与复制策略相当。结果表明,CAROM方案在支持当前云文件系统语义一致性的同时,兼具带宽成本低、存储成本低和访问成本低等特性。相似文献

6.

基于纠删码的细粒度云存储调度方案

廖辉薛广涛钱诗友李明禄《计算机应用》2017,37(3):613-619

针对云存储系统中数据获取时延长以及数据下载不稳定的问题,提出了一种基于存储节点负载信息和纠删码技术的调度方案。首先,利用纠删码对文件进行编码存储以降低每份数据拷贝的大小,同时利用多个线程并发下载以提高数据获取的速度;其次,通过分析大量存储节点的负载信息确定影响时延的性能指标并对现有的云存储系统架构进行优化,设计了一种基于负载信息的云存储调度算法LOAD-ALGORITHM;最后,利用开源项目OpenStack搭建了一个云计算平台,根据真实的用户请求数据在云平台上进行部署和测试。实验结果表明,相比于现有的工作,调度算法在数据获取时延方面最高能减少15%的平均时延,在数据下载稳定性方面最高能降低40%的时延波动。该调度方案在真实的云平台环境下能有效地提高数据获取速度和稳定性,降低数据获取时延,达到更好的用户体验。相似文献

7.

高顽存性存储网格模型

下载免费PDF全文

徐公华张申《计算机工程与应用》2010,46(26):91-94

结合网格技术和存储技术,提出了基于域的存储网格模型。在域模型架构下,深入分析了域划分原则、元数据目录服务和数据容错等问题,重点探讨了数据高顽存性存储策略的设计。在比较复制、分片冗余等不同数据冗余策略特点的基础上,提出了一种混合式的数据冗余策略。模拟实验表明它兼具复制策略和分片冗余策略的优点,既保持了存储数据的整体可靠性水平,又弥补了低冗余度下编码复制可靠性偏低的不足,使冗余存储数据具有更好的可靠性效果。相似文献

8.

基于DHT的P2P系统中高可用数据冗余机制 总被引：3，自引：0，他引：3

陈贵海吴帆李宏兴邱彤庆《计算机学报》2008,31(10)

在基于DHT的P2P系统中需要采用冗余机制以保证数据的高可用性.文中结合用户下载行为来衡量数据存储与共享系统中的不同冗余机制.此外,作者提出了一种混合式的数据冗余策略,它兼具传统的复制策略和分片冗余策略的优点.实验表明,复制策略虽然比分片冗余策略需要更多的存储空间,但当节点平均可用性高于47%时,更节省网络维护带宽.混合式冗余策略在各种网络环境中均能较传统冗余策略更节省网络带宽,并且冗余因子适中. 相似文献

9.

网格环境下基于编码机制的数据复制研究

陶钧沙基昌王晖《计算机科学》2008,35(2):120-123

本文提出了基于编码机制的网格数据复制思想,通过对副本数据进行线性分组编码,并将其分散保存到网格存储节点,可形成具有纠删能力的编码子副本组.针对目前热点研究的线性分组编码,探讨基于Cauchy Reed-Solo-mon Code、Tornado Code和Random Linear Code的编码数据复制方案,通过建模手段讨论三者的副本数据访问性能和副本数据可靠性,并与传统的完整数据复制和分块数据复制进行时比分析,证明所提出的编码数据复制有着较优的综合性能.具体实验数据进一步说明,编码副本的编码开销占整个数据复制开销的较小比例,表明编码数据复制是具有可行性的技术方案. 相似文献

10.

基于RBEC的副本动态存储方法

洪海诚陈丹伟《计算机科学》2020,47(2):313-319

随着云存储技术的飞速发展,现有的云存储架构和存储模式都以一种静态的方式呈现在用户和攻击者面前,使得数据面临着更多的安全威胁。针对这种数据静态存储模式的不足,文中提出了一种基于二元随机扩展码(RBEC)的副本动态存储方法。该方法利用一种网络编码将数据块存储在云节点上,通过基于二元随机扩展码进行节点数据变换,可随机时变地改变节点的数据信息,通过变换攻击面来增加攻击者实施攻击的复杂度和成本,降低系统的脆弱性曝光和被攻击的概率,提高系统的弹性。理论分析和仿真实验结果表明,该方法对变换时的编码计算时间开销在整个动态变换中的占比不高,主要的时间开销是在节点间数据编码块的传输上。此外,文中还将该方法与一般再生码拟态变换方案做了性能对比分析。REBC的特性,即重新生成的编码矩阵满足MDS性质的概率几乎为1,所以文中所提方法的编码过程的性能开销优于一般再生码可能多次变换的性能开销。相似文献

11.

减少重建数据量的冗余编码技术研究

马良荔柳青《计算机科学》2017,44(Z6):463-469

为防止硬件故障或机器宕机导致的数据丢失,冗余编码技术被广泛应用于分布式存储系统中来保证数据的可靠性。然而,传统的冗余编码技术,如里德-所罗门码,存在着重建数据量大的问题。副本技术在重建丢失数据时只需要读取和传输丢失的数据,而冗余编码需要读取和传输更大的数据量,从而消耗更多的磁盘I/O带宽和网络带宽。因此,基于冗余编码的分布式存储系统在重建数据时将消耗更长的时间,从而将整个系统长时间暴露在一种降级的模式下,进而增加了发生永久性数据丢失的风险。为解决这个问题,减少重建数据量的冗余编码技术不断被提出,然而只有这些冗余编码与传统的里德-所罗门码的比较,缺少它们在存储系统的综合比较。系统地从减少重建数据量等几个重要方面研究了这些减少重建数据量的冗余编码技术,从而为实际系统中采用合适的编码提供重要参考和依据。相似文献

12.

分布式存储系统中的预测式纠删码研究

张航唐聃蔡红亮《计算机科学》2021,48(5):130-139

纠删码消耗的存储空间较少,获得的数据可靠性较高,因此被分布式存储系统广泛采用。但纠删码在修复数据时较高的修复成本限制了其应用。为了降低纠删码的修复成本,研究人员在分组码和再生码上进行了大量的研究。由于分组码和再生码属于被动容错方式,对于一些容易出现失效的节点,采用主动容错的方式能更好地降低修复成本,维护系统的可靠性,因此,提出了一种主动容错的预测式纠删(Proactive basic-Pyramid,PPyramid)码。PPyramid码利用硬盘故障预测方法来调整basic-Pyramid码中冗余块和数据块之间的关联,将预测出的即将出现故障的硬盘划分到同一小组,使得在修复数据时,所有的读取操作在小组内进行,从而减少读取数据块的个数,节省修复成本。在基于Ceph搭建的分布式存储系统中,在修复多个硬盘故障时,将PPyramid码与其他常用的纠删码进行对比。实验结果表明,相比basic-Pyramid码,PPyramid码能降低6.3%~34.9%的修复成本和减少7.6%~63.6%的修复时间,相比LRC码、pLRC码、SHEC码、DLRC码,能降低8.6%~52%的修复成本和减少10.8%~52.4%的修复时间。同时,PPyramid码构造灵活,具有很强的实际应用价值。相似文献

13.

基于数据挖掘的存储数据纠删码容错方法仿真

郭亮《计算机仿真》2020,37(4):142-146

在存储数据的纠删码容错中,针对传统存储数据纠删码容错方法容错速度较低的问题,提出一种基于数据挖掘的存储数据纠删码容错方法。采用数据挖掘方法对存储数据纠删码进行重构,计算存储数据纠删码的丢失片段;利用CHR算法对存储数据纠删码进行异构修复,通过建立存储数据纠删码容错模型实现存储数据的纠删码容错。为了验证存储数据纠删码容错方法的有效性,将存储数据纠删码容错方法与传统存储数据纠删码容错方法进行对比,实验结果得出:上述方法与基于流水线的存储数据纠删码容错方法、基于RapidRaid码的存储数据纠删码容错方法、基于非规则LDPC码的存储数据纠删码容错方法的容错速度分别为:286Mbps/s、262Mbps/s、243Mbps/s、232Mbps/s,比较可知,所提方法的容错速度最快,证明了上述方法的优越性。相似文献

14.

Hierarchical codes: A flexible trade-off for erasure codes in peer-to-peer storage systems

Alessandro Duminuco Ernst W. Biersack 《Peer-to-Peer Networking and Applications》2010,3(1):52-66

Redundancy is the basic technique to provide reliability in storage systems consisting of multiple components. A redundancy scheme defines how the redundant data are produced and maintained. The simplest redundancy scheme is replication, which however suffers from storage inefficiency. Another approach is erasure coding, which provides the same level of reliability as replication using a significantly smaller amount of storage. When redundant data are lost, they need to be replaced. While replacing replicated data consists in a simple copy, it becomes a complex operation with erasure codes: new data are produced performing a coding over some other available data. The amount of data to be read and coded is d times larger than the amount of data produced, where d, called repair degree, is larger than 1 and depends on the structure of the code. This implies that coding has a larger computational and I/O cost, which, for distributed storage systems, translates into increased network traffic. Participants of Peer-to-Peer systems often have ample storage and CPU power, but their network bandwidth may be limited. For these reasons existing coding techniques are not suitable for P2P storage. This work explores the design space between replication and the existing erasure codes. We propose and evaluate a new class of erasure codes, called Hierarchical Codes, which allows to reduce the network traffic due to maintenance without losing the benefits given by traditional erasure codes. 相似文献

15.

Data error locations reported by public auditing in cloud storage service

Min-Shiang Hwang Cheng-Chi Lee Tsuei-Hung Sun 《Automated Software Engineering》2014,21(3):373-390

Public auditing is an important issue in cloud storage service because a cloud service provider may try to hide management mistakes and system errors from users or even steal or tamper with a user’s data for monetary reasons. Without the protection of a proper auditing mechanism, cloud users would have to run high risks of having their legal rights and interests spoiled without their knowledge. Therefore, many data integrity, assurance, and correctness schemes have been proposed for data auditing. Most of these schemes work by randomly sampling and aggregating signatures from bilinear maps (for more efficiency) to check whether the cloud storage service is honest and whether the data stored in the cloud is correct. Although aggregating signatures can reduce the auditor’s computing overhead and time, unfortunately, none of these schemes have offered any workable solution to giving detailed information on where the errors are when the cloud data as a whole fails the auditing. To fix this problem, we shall propose a new public auditing scheme with a mechanism integrated into it especially to locate the problematic data blocks when they exist. With efficiency, the proposed scheme is capable not only of giving an accurate pass/fail report but also providing detailed information on the locations of the errors detected. 相似文献

16.

支持错误定位的远程数据完整性批量验证方案

下载免费PDF全文

王田琪庞晓琼任孟琦《计算机工程与应用》2018,54(4):90-97

远程数据完整性验证技术是保证云数据安全的一种重要技术,能通过与服务器进行少量交互,验证外包数据是否完整。在现实中,云存储服务通常是在多用户与多服务器之间存在的,最近多用户与多服务器环境下的批处理验证方案陆续被提出。但这些方案在数据出错后,往往于一次挑战中无法判定错误数据的拥有者或所在服务器。利用Merkle Hash Tree（MHT）提出了一种支持错误数据定位的批处理校验方案,可以在批处理校验不通过后,同时定位出错误数据的拥有者与其所存储的服务器。相似文献

17.

可验证的云存储医疗加密数据统计分析方案

张晓均张经伟黄超唐伟《计算机工程》2021,47(6):32-37,43

为满足当前云存储医疗数据对敏感性、完整性以及统计分析可用性的需求,提出一种可验证的医疗加密数据统计分析方案。采用同态加密技术实现密文数据聚合并提高医疗数据的机密性,通过同态签名算法确保外包医疗加密数据的完整性。用户上传经过同态加密和签名的医疗数据到云服务器,云服务器在收到医疗数据分析中心的外包数据聚合请求后对密文医疗数据以及签名值进行聚合运算,并将相应结果返回给医疗数据分析中心,医疗数据分析中心验证云服务器外包同态加密数据聚合的完整性。在此基础上,医疗数据分析中心仅需使用私钥解密就能获得所有用户正确的原始医疗数据聚合结果,并据此进行统计分析。实验结果表明,该方案在医疗隐私大数据分析领域相对SPPDA等方案具有效率优势,医疗数据分析中心在验证数据完整性和分析聚合数据时计算开销保持恒定,与用户数量无关。相似文献

18.

云文件系统中纠删码技术的研究与实现

程振东栾钟治孟由李亮淑和荣杨婷婷钱德沛管刚陈伟《计算机科学与探索》2013,(4)

云文件系统凭借高性能、高扩展、高可用、易管理等特点,成为云存储和大数据的基础和核心。云文件系统一般采用完全副本技术来提升容错能力,提高数据资源的使用效率和系统性能。但完全副本的存储开销随着副本数目的增加呈线性增长,存储副本时造成额外的写带宽和数据管理开销。纠删码在没有增加过量的存储空间的基础上,通过合理的冗余编码来保证数据的高可靠性和可用性。研究了纠删码技术在云文件系统中的应用,从纠删码类型、编码对象、编码时机、数据更改、数据访问方式和数据访问性能等六个方面,对云文件系统中纠删码的设计进行了探究,以增强云文件系统的存储模型。在此基础上,设计并实现了纠删码原型系统,并通过实验证明了纠删码能有效地保障云文件系统的数据可用性,并且节省存储空间。相似文献

19.

Towards Public Integrity Audition for Cloud-IoT Data Based on Blockchain

Hao Yan Yanan Liu Shuo Qiu Shengzhou Hu Weijian Zhang Jinyue Xia 《计算机系统科学与工程》2022,41(3):1129-1142

With the rapidly developing of Internet of Things (IoT), the volume of data generated by IoT systems is increasing quickly. To release the pressure of data management and storage, more and more enterprises and individuals prefer to integrate cloud service with IoT systems, in which the IoT data can be outsourced to cloud server. Since cloud service provider (CSP) is not fully trusted, a variety of methods have been proposed to deal with the problem of data integrity checking. In traditional data integrity audition schemes, the task of data auditing is usually performed by Third Party Auditor (TPA) which is assumed to be trustful. However, in real-life TPA is not trusted as people thought. Therefore, these schemes suffer from the underlying problem of single-point failure. Moreover, most of the traditional schemes are designed by RSA or bilinear map techniques which consume heavy computation and communication cost. To overcome these shortcomings, we propose a novel data integrity checking scheme for cloud-IoT data based on blockchain technique and homomorphic hash. In our scheme, the tags of all data blocks are computed by a homomorphic hash function and stored in blockchain. Moreover, each step within the process of data integrity checking is signed by the performer, and the signatures are stored in blockchain through smart contracts. As a result, each behavior for data integrity checking in our scheme can be traced and audited which improves the security of the scheme greatly. Furthermore, batch-audition for multiple data challenges is also supported in our scheme. We formalize the system model of our scheme and give the concrete construction. Detailed performance analyses demonstrate that our proposed scheme is efficient and practical without the trust-assumption of TPA. 相似文献

20.

基于GlusterFS的分布式数据完整性验证系统

张富成付绍静夏竟罗玉川《信息网络安全》2021,(1)

云存储为用户提供了弹性而可靠的数据存储方案,使得用户可以在任何时刻通过网络访问云服务器存取数据,大大降低了用户自己维护数据的成本,但也引发了一系列安全问题。对于云存储而言,采取审计措施用于检查数据的完整性至关重要,但已有的大多数云数据完整性审计机制只是通过模拟实验证明了方案具有高效性,并未结合具体云存储场景进行分析实验。针对上述问题,文章结合GlusterFS分布式文件系统与BLS短签名机制设计了一种分布式并行数据审计方案。利用GlusterFS的多个存储节点并行计算数据块所对应的标签,通过验证数据块对应标签的完整性来验证数据块的完整性,实现数据的单块审计、多块审计、多用户审计和异步审计,且不会泄露用户的隐私信息。此外,还进行了安全性分析。实验结果表明,文章方案可实现多块数据的高效并行审计,且并发量随节点的增加而线性增长。相似文献