首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 31 毫秒
1.
针对传统远程备份中大量冗余数据导致备份效率低下和存储空间浪费的问题,设计并实现了一个基于重复数据删除的远程备份系统。首先根据文件的内容用Rabin指纹将备份文件划分为变长的数据块,把每个数据块的相关信息发送到备份中心,在备份中心利用Google Bigtable及Leveldb的索引算法辅以布隆过滤器对数据块进行判重,最后只传输和存储不重复的数据块。实验结果表明,采用该系统备份相似的数据集能够有效删除其中的重复数据。对数据集进行增量备份,在增量数据变化不大时,相比Rsync备份有更少的网络流量。  相似文献   

2.
重复数据删除技术是现在存储领域广泛应用的一种数据缩减技术.重复数据预测技术能够在执行重复数据删除之前,让用户了解系统的效用,为用户如何使用存储系统提供参考.当前,重复数据预测技术不断发展,并已经有企业将其广泛应用.现有的几种重复数据删除预测技术都拥有了很高的准确性和很好的应用环境,一种基于应用感知的重复数据预测技术能够进一步减小预测索引表的大小,进一步地提升了预测算法的性能.索引表的自适应更新算法能够将来访数据内部的冗余度考虑在内,进一步提高了重复数据预测的准确性.  相似文献   

3.
随着重复数据删除技术应用的普及,性能已成为影响其应用效果的核心要素.已有研究提出了基于二级索引结构的重复数据删除模型以提升系统读写性能,但没有对模型中一些参数的选择进行量化分析.对基于二级索引结构的重复数据删除模型中块大小等一些性能相关的参数进行了分析研究,设计了相关实验,对这些参数与读写性能的关系进行了量化描述,对本类模型在实际环境中的应用有很好的指导意义,同时为下一步性能优化工作提供了重要的数据基础.  相似文献   

4.
数据存储优化一直是众多系统管理员关心的问题,如何在有限的空间存储更多的数据,并保证数据的有效性和完整性,本文就这些问题对Windows Server2012下的重复数据删除功能进行一番体验。  相似文献   

5.
《中国信息化》2012,(2):68-68
惠普近日宣布推出业内第一个提供全自动高可用性的大型重复数据删除设备。惠普B6200Store Once备份系统实现了创纪录的性能,其数据处理和存储速度达每小时28TB,超出竞争对手三倍以上。如今企业正面临着数据总量和多样性的双重挑战,其中既有结构化数据,也有人们在即时沟通时产生的思想和理念等非结构化  相似文献   

6.
马建庭  杨频 《计算机工程与设计》2011,32(11):3586-3589,3617
针对在文件备份服务器中存在大量重复数据的问题,设计了一种基于重复数据删除的文件备份系统,为位于不同地理位置的多个用户提供备份服务。该系统不仅删除用户内部的重复数据,也删除不同用户之间的重复数据,进一步节省存储空间,与此同时,采用了一定的安全机制来防止数据丢失以及用户数据信息泄漏。实验结果表明了系统的可行性,为多用户构建统一的备份中心提供了一种新的解决方案。  相似文献   

7.
重复数据删除技术   总被引:2,自引:0,他引:2       下载免费PDF全文
敖莉  舒继武  李明强 《软件学报》2010,21(5):916-929
重复数据删除技术主要分为两类:相同数据的检测技术和相似数据的检测与编码技术,系统地总结了这两类技术,并分析了其优缺点.此外,由于重复数据删除技术会影响存储系统的可靠性和性能,又总结了针对这两方面的问题提出的各种技术.通过对重复数据删除技术当前研究现状的分析,得出如下结论:a) 重复数据删除中的数据特性挖掘问题还未得到完全解决,如何利用数据特征信息有效地消除重复数据还需要更深入的研究;b) 从存储系统设计的角度,如何引入恰当的机制打破重复数据删除技术的可靠性局限并减少重复数据删除技术带来的额外系统开销也是一个需要深入研究的方面.  相似文献   

8.
重复数据删除技术   总被引:12,自引:2,他引:12       下载免费PDF全文
敖莉  舒继武  李明强 《软件学报》2010,21(4):916-929
重复数据删除技术主要分为两类:相同数据的检测技术和相似数据的检测与编码技术,系统地总结了这两类技术,并分析了其优缺点.此外,由于重复数据删除技术会影响存储系统的可靠性和性能,又总结了针对这两方面的问题提出的各种技术.通过对重复数据删除技术当前研究现状的分析,得出如下结论:a) 重复数据删除中的数据特性挖掘问题还未得到完全解决,如何利用数据特征信息有效地消除重复数据还需要更深入的研究;b) 从存储系统设计的角度,如何引入恰当的机制打破重复数据删除技术的可靠性局限并减少重复数据删除技术带来的额外系统开销也是一个需要深入研究的方面.  相似文献   

9.
张沪寅  周景才  陈毅波  查文亮 《软件学报》2015,26(10):2581-2595
通过大量的实验分析发现:在云桌面场景下,数据拥有者之间的工作相关度越大,则该用户之间存在重复数据的概率越大.基于该实验结果,提出了用户感知的重复数据删除算法.该算法打破了数据空间局部性特征的限制,实现了以用户为单位的更粗粒度的查重计算,可以在不影响重删率的前提下,减少5~10倍常驻内存指纹的数量,并可将每次查重计算的指纹检索范围控制在一个常数范围内,不随数据总量的增加而线性增加,从而有效避免了因为数据总量增加而导致内存不足的问题.除此之外,该算法还能根据存储系统的负载情况自动调整重复指纹检索范围,在性能与重删率之间加以平衡,从而更好地满足主存储场景的需要.原型验证表明,该算法可以很好地解决云计算场景下海量数据的重复数据删除性能问题.与OpenDedup算法相比,当数据指纹总量超出内存可用空间时,该算法可以表现出巨大的优势,减少200%以上的读磁盘操作,响应速度提升3倍以上.  相似文献   

10.
为进一步提高重复数据删除系统的性能,提出基于数据分块的后缀数组SA和最长公共前缀LCP进行数据块优化的重复数据删除系统。系统首先将输入的数据流进行第一次分块,识别出相同的分块并给分块编号,创建分块编号序列的SA和LCP表,识别出最大重复队列和非重复数据块,进一步得出优化的超级块大小,然后以超级块为单元进行第二次数据分块并保存数据压缩结果。实验表明,相比于固定分块,该系统能实现给定输入流较好的压缩性和数据重构性。  相似文献   

11.
大数据时代到来,备份数据量增大给存储空间带来新的挑战。重复数据删除技术在备份存储系统中正逐渐流行,但大量数据访问,造成了磁盘的很大负担。针对重复数据删除技术存在的块索引查询磁盘瓶颈问题,文中提出了文件相似性与数据流局部性结合方法改善磁盘I/O性能。该方法充分发挥了各自的优势,相似性优化了索引查找,可以检测到相同数据检测技术不能识别的重复数据;而数据局部性保留了数据流的序列,使得cache的命中率提高,减少磁盘访问次数。布鲁过滤器存储数据块索引可节省大量查询时间和空间开销。对于提出的解决方法所涉及的重要参数如块大小、段大小以及对误判率的影响做了深入分析。通过相关实验评估与性能分析,实验数据与结果为进一步系统性能优化问题提供了重要的数据依据。  相似文献   

12.
相似图片搜索是当前搜索技术研究的一大热点。利用相似图片搜索的原理结合Java语言的技术特点,对要进行搜索的图片首先进行图像变换缩小尺寸,然后进行灰度化和二值化的处理计算出对应的哈希值形成图片的指纹,最后计算出图片指纹的海明距离得出图片的相似度,实现了一个简单快速的相似图片搜索模型。  相似文献   

13.
    
Secure deduplication and data auditing are significant in improving the resource utilization and data integrity protection of data outsourcing services. However, existing audit-enabled deduplication schemes cannot implement block-level deduplication over audit tags since they contain file information, and have to bear the consequent storage burden. Also, they suffer from the low coupling problem caused by the difference in optimal data chunking between deduplication and auditing. In this paper, we propose a blockchain-based compact audit-enabled deduplication scheme in decentralized storage. Specifically, we introduce the concept of N-ary tag commitment tree (NTCT), which integrates the information of all data blocks into a file authenticator to support integrity verification and enable block-level deduplication over audit tags. On this basis, we propose a blockchain-based compact audit-enabled deduplication protocol, which adopts an aggregatable vector commitment to generate audit tags, thereby overcoming the low coupling problem between deduplication and auditing. Notably, data users can outsource the task of tag generation to storage servers. Meanwhile, the capabilities of duplication detection, proof of ownership (PoW), and integrity verification are integrated into audit tags to reduce tag redundancy. Furthermore, we present an update protocol to allow data users to achieve a lightweight data update without uploading the entire new data. Finally, security analysis and performance evaluation demonstrate that our scheme is practical.  相似文献   

14.
张桂鹏  陈平华 《计算机科学》2018,45(11):187-192, 203
重复数据删除技术是云存储系统中一种高效的数据压缩和存储优化技术,能够通过检测和消除冗余数据来减少存储空间、降低传输带宽消耗。针对现有的云存储系统中数据安全去重方案所采用的收敛加密算法容易遭受暴力攻击和密文计算时间开销过大等问题,提出了一种混合云环境下基于Merkle哈希树的数据安全去重方案MTHDedup。该方案通过引入权限等级函数和去重系数来计算去重标签,高效地实现了支持访问控制的数据安全去重系统;同时通过执行额外的加密算法,在文件级和数据块级的数据去重过程中构造Merkle哈希树来生成加密密钥,保证了生成的密文变得不可预测。安全性分析表明,该方案能够有效地抵制内部和外部攻击者发起的暴力攻击,从而提高数据的安全性。仿真实验结果表明,MTHDedup方案能有效地降低密文生成的计算开销,减少密钥的存储空间,而且随着权限集数目的增加,性能优势将更加明显。  相似文献   

15.
基于重复数据删除的虚拟桌面存储优化技术   总被引:1,自引:0,他引:1  
虚拟桌面基础架构依靠数据中心海量的云基础设施,为用户按需提供虚拟桌面部署所需的软硬件资源,但同时面临存储资源利用率低和虚拟机启动慢的困境.针对虚拟桌面存储中具有大量数据冗余的特性,采用重复数据删除技术缩减虚拟桌面基础架构的存储空间需求;并利用服务器本地磁盘缓存以及共享存储池内的固态硬盘来优化虚拟机的启动性能.通过原型实现,发现相比于基于内容分块的策略,静态分块策略更适合虚拟桌面存储进行重复数据删除,最优的分块大小为4KB,并能够缩减85%的存储空间容量;通过服务器本地磁盘缓存和基于闪存的固态硬盘进行I/O优化,虚拟机的启动速度能够获得35%的提升.  相似文献   

16.
可去重云存储系统中一般采用收敛加密算法,通过计算数据的哈希值作为其加密密钥,使得重复的数据加密后得到相同的密文,可实现对重复数据的删除;然后通过所有权证明(PoW),验证用户数据的真实性来保障数据安全。针对可去重云存储系统中所有权证明时间开销过高导致整个系统性能下降问题,提出了一种基于布隆过滤器进行所有权证明的高效安全方法,实现用户计算哈希值与初始化值的快速验证。最后,提出一种支持细粒度重复数据删除的BF方案,当文件级数据存在重复时进行所有权证明,否则只需要进行局部的文件块级数据重复检测。通过仿真对比实验,结果表明所提BF方案空间开销低于经典Baseline方案,同时时间开销低于经典Baseline方案,在数据文件越大的情况下性能优势更加明显。  相似文献   

17.
电信行业由于在话单采集过程中的某些异常可能会产生重复话单,如果不及时剔除,将导致用户的费用统计有误,引起客户投诉,造成客源流失。本文通过对电信行业海量数据的分析提出了一个利用文件索引、Swap技术、事务控制和并发处理相结合的方法解决话单判重和去重的问题,为设计去重算法提供了一个可以借鉴的方案。  相似文献   

18.
电信行业由于在话单采集过程中的某些异常可能会产生重复话单,如果不及时剔除,将导致用户的费用统计有误,引起客户投诉,造成客源流失。本文通过对电信行业海量数据的分析提出了一个利用文件索引、Swap技术、事务控制和并发处理相结合的方法解决话单判重和去重的问题,为设计去重算法提供了一个可以借鉴的方案。  相似文献   

19.
    
Cloud storage is essential for managing user data to store and retrieve from the distributed data centre. The storage service is distributed as pay a service for accessing the size to collect the data. Due to the massive amount of data stored in the data centre containing similar information and file structures remaining in multi-copy, duplication leads to increase storage space. The potential deduplication system doesn’t make efficient data reduction because of inaccuracy in finding similar data analysis. It creates a complex nature to increase the storage consumption under cost. To resolve this problem, this paper proposes an efficient storage reduction called Hash-Indexing Block-based Deduplication (HIBD) based on Segmented Bind Linkage (SBL) Methods for reducing storage in a cloud environment. Initially, preprocessing is done using the sparse augmentation technique. Further, the preprocessed files are segmented into blocks to make Hash-Index. The block of the contents is compared with other files through Semantic Content Source Deduplication (SCSD), which identifies the similar content presence between the file. Based on the content presence count, the Distance Vector Weightage Correlation (DVWC) estimates the document similarity weight, and related files are grouped into a cluster. Finally, the segmented bind linkage compares the document to find duplicate content in the cluster using similarity weight based on the coefficient match case. This implementation helps identify the data redundancy efficiently and reduces the service cost in distributed cloud storage.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号