首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 0 毫秒
1.
重复数据删除技术   总被引:2,自引:0,他引:2  
敖莉  舒继武  李明强 《软件学报》2010,21(5):916-929
重复数据删除技术主要分为两类:相同数据的检测技术和相似数据的检测与编码技术,系统地总结了这两类技术,并分析了其优缺点.此外,由于重复数据删除技术会影响存储系统的可靠性和性能,又总结了针对这两方面的问题提出的各种技术.通过对重复数据删除技术当前研究现状的分析,得出如下结论:a) 重复数据删除中的数据特性挖掘问题还未得到完全解决,如何利用数据特征信息有效地消除重复数据还需要更深入的研究;b) 从存储系统设计的角度,如何引入恰当的机制打破重复数据删除技术的可靠性局限并减少重复数据删除技术带来的额外系统开销也是一个需要深入研究的方面.  相似文献   

2.
重复数据删除技术   总被引:12,自引:2,他引:12  
敖莉  舒继武  李明强 《软件学报》2010,21(4):916-929
重复数据删除技术主要分为两类:相同数据的检测技术和相似数据的检测与编码技术,系统地总结了 这两类技术,并分析了其优缺点.此外,由于重复数据删除技术会影响存储系统的可靠性和性能,又总结了针对这 两方面的问题提出的各种技术.通过对重复数据删除技术当前研究现状的分析,得出如下结论:a) 重复数据删除 中的数据特性挖掘问题还未得到完全解决,如何利用数据特征信息有效地消除重复数据还需要更深入的研 究;b) 从存储系统设计的角度,如何引入恰当的机制打破重复数据删除技术的可靠性局限并减少重复数据删除技术带来的额外系统开销也是一个需要深入研究的方面.  相似文献   

3.
提出了一种基于重复数据删除技术的SQL Server数据库备份系统.系统在临时备份文件生成后将其划分成变长数据块并计算其指纹值作为数据块的惟一标志,在传输文件到远程灾备中心时只传输数据块的单一实例,减小传输量,节省远程灾备中心处存储空间;在灾备中心建立hash表记录已存储数据块指纹值;为了提高数据可靠性,引入受限的冗余...  相似文献   

4.
重复数据删除技术已逐渐应用到以云计算为代表的主存储系统中,这些系统对读响应时间的高要求使读性能成为重复数据删除系统中需要解决的重要问题,而已有研究对如何提高重复数据删除系统读性能关注很少.针对这一问题,对重复数据删除系统中读取流程和性能瓶颈进行了量化分析,提出了一种基于流水线的数据读取模型,然后通过并行计算机制对模型进行了进一步的优化.基于这一模型设计实现了实验系统,通过实验证明:对于网络安全监测日志文本数据和虚拟机镜像文件,应用此模型后,重复数据删除系统读速度的提高可达5倍以上;基于流水线的数据读取模型适用性强,对提高不同消冗率的数据读速度均有明显作用.  相似文献   

5.
重复数据删除技术是现在存储领域广泛应用的一种数据缩减技术.重复数据预测技术能够在执行重复数据删除之前,让用户了解系统的效用,为用户如何使用存储系统提供参考.当前,重复数据预测技术不断发展,并已经有企业将其广泛应用.现有的几种重复数据删除预测技术都拥有了很高的准确性和很好的应用环境,一种基于应用感知的重复数据预测技术能够进一步减小预测索引表的大小,进一步地提升了预测算法的性能.索引表的自适应更新算法能够将来访数据内部的冗余度考虑在内,进一步提高了重复数据预测的准确性.  相似文献   

6.
数据存储优化一直是众多系统管理员关心的问题,如何在有限的空间存储更多的数据,并保证数据的有效性和完整性,本文就这些问题对Windows Server2012下的重复数据删除功能进行一番体验。  相似文献   

7.
应对数据增长的重磅武器过去几年,重复数据删除作为能够对抗数据资料大规模增长的武器,在数据中心中已获得广泛认可。IT部门几乎在任何事物中都能为重复数据删除找到一席之地,从主存储到长期数据保留,但是重复数据删除在数据中心里值得称道的职责却在于备份和灾难恢复(DR)。在这里,重复数据删除技术提供  相似文献   

8.
重复数据删除通过删除冗余数据的方式减小实际的存储容量需求。重复数据删除需要把数据分成块,并与系统中现存的数据集相比较。如果数据内容相同,重复数据仅记录实际保存数据的物理地址。这一过程的代价是增加写延迟。为了提高查找相同块的性能,一般采用布隆过滤器,它利用位数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合。它在能容忍低错误率的应用场合下,重复数据删除通过很少的错误换取了存储空间的节省。  相似文献   

9.
首先介绍了烟草工业灾备中重复数据删除技术重要要性,然后介绍了重复数据删除的最主要两种方法:基于哈希算法的重复数据删除和基于内容识别的重复数据删除。最后重点分析设计了适用于某综合营销平台系统数据备份恢复的重复数据删除策略,以减少网络带宽占用、节省存储空间、保护业务数据,为综合营销和智能决策的发展提供强有力的支撑。  相似文献   

10.
李锋  陆婷婷  郭建华 《计算机科学》2016,43(Z11):495-498
在云计算环境中,基础设施即服务的日益发展导致虚拟机和虚拟机镜像的急剧增加,例如,Amazon Elastic Compute Cloud(EC2)有6521个公共虚拟机镜像文件,这给云环境的管理带来了极大的挑战,特别是大量镜像文件带来的重复数据的空间存储问题。为解决这一问题,提出一种基于固定分块的镜像文件重复数据删除的存储方案。当存储一个镜像文件时,先计算该镜像文件的指纹,并与指纹库的指纹比较,若存在则用指针替代,否则采用固定分块对镜像文件分割存储。为此,可以设计镜像文件元数据格式和镜像文件MD5索引表来解决上述问题。实验结果表明,内容相同的镜像文件只是元数据的开销并实现秒传,而相同版本、相同系统、不同软件的镜像组的重删率约达到58%。因此,本方案是非常有效的。  相似文献   

11.
重点分析了重复数据删除技术和这种技术对系统性能影响等有关方面的问题。  相似文献   

12.
在大数据时代,为了提高存储空间利用率,重复数据删除技术被广泛应用.然而,重复数据删除技术的重删效果如何评价,它对存储系统的存储空间利用率影响程度如何等问题,目前还没有有效的测评指标和测评方法来解决.为此,对3种典型的重复数据删除技术进行了分析,研究了存储空间利用率的测评指标和测评方法,然后通过理论分析和真实数据实验对其可行性和有效性进行了验证.分析和实验结果表明:设计的测评指标和测评方法实际可行,能定量的评估存储空间利用率,有利于数据中心存储效率的提高,从而实现绿色存储和节能减排,并能减少企业的资源浪费和提高投资回报率.  相似文献   

13.
重复数据删除技术有效地提升了备份系统的备份效率,但重复数据的匹配开销也随之增加.针对该问题,设计并实现了一种基于重复数据删除的备份系统THBS,该系统提出了高精简的数据备份方法HAD(hierachical approach of data deduplication),依次从目录、文件、块、字节粒度分层多步,由粗及细地匹配删除重复数据,同时采用bloomfilter和倒排索引技术,以减少不必要的数据匹配与磁盘访问,提高匹配查找速度.通过两组真实数据集的实验发现,THBS在备份过程中节省了63.1%~96.7%的存储空间,比Scp和Rsync分别节约了71.3%~97.6%,41.2%~66.7%的网络带宽,累计备份时间分别为Scp和Rsync的75%~86%和91%~97%.  相似文献   

14.
存储系统重复数据删除技术研究综述   总被引:2,自引:1,他引:2  
谢平 《计算机科学》2014,41(1):22-30,42
目前企业对数据量不断增长的需求使得数据中心面临严峻的挑战。研究发现,存储系统中高达60%的数据是冗余的,如何缩减存储系统中的冗余数据受到越来越多科研人员的关注。重复数据删除技术利用CPU计算资源,通过数据块指纹对比能够有效地减少数据存储空间,已成为工业界和学术界研究的热点。在分析和总结近10年重复数据删除技术文献后,首先通过分析卷级重删系统体系结构,阐述了重删系统的原理、实现机制和评价标准。然后结合数据规模行为对重删系统性能的影响,重点分析和总结了重删系统的各种性能改进技术。最后对各种应用场景的重删系统进行对比分析,给出了4个需要重点研究的方向,包括基于主存储环境的重删方案、基于分布式集群环境的重删方案、快速指纹查询优化技术以及智能数据检测技术。  相似文献   

15.
张沪寅  周景才  陈毅波  查文亮 《软件学报》2015,26(10):2581-2595
通过大量的实验分析发现:在云桌面场景下,数据拥有者之间的工作相关度越大,则该用户之间存在重复数据的概率越大.基于该实验结果,提出了用户感知的重复数据删除算法.该算法打破了数据空间局部性特征的限制,实现了以用户为单位的更粗粒度的查重计算,可以在不影响重删率的前提下,减少5~10倍常驻内存指纹的数量,并可将每次查重计算的指纹检索范围控制在一个常数范围内,不随数据总量的增加而线性增加,从而有效避免了因为数据总量增加而导致内存不足的问题.除此之外,该算法还能根据存储系统的负载情况自动调整重复指纹检索范围,在性能与重删率之间加以平衡,从而更好地满足主存储场景的需要.原型验证表明,该算法可以很好地解决云计算场景下海量数据的重复数据删除性能问题.与OpenDedup算法相比,当数据指纹总量超出内存可用空间时,该算法可以表现出巨大的优势,减少200%以上的读磁盘操作,响应速度提升3倍以上.  相似文献   

16.
针对广域网中网络备份系统存在备份速度低、网络带宽需求高和数据冗余等问题,提出并实现一种具有重复数据删除功能的网络文件备份系统。通过在客户端实现重复数据删除技术,对文件进行分块和在备份过程中去除重复数据块,减少客户端与服务期间需要传输的数据量,使得文件备份的速度获得较大提高,也较大地降低网络带宽要求,显著提高了网络备份系统的性能。此外,备份过程中客户端去除了重复的数据块使得服务器中存储的数据块都是唯一的,极大地降低了系统所需要的存储空间,同时,服务器端的数据块引用管理的设计很好地解决了空闲数据块耗费存储空间的问题。  相似文献   

17.
一种基于重复数据删除技术的云中云存储系统   总被引:1,自引:0,他引:1  
随着云存储技术的快速发展和应用,越来越多的企业和用户都开始将数据从本地转移到云存储服务提供商进行存储.但是,在享受云存储高质量服务的同时,将数据仅仅存储于单个云存储服务商中会带来一定的风险,例如云存储服务提供商的垄断、数据可用性和安全性等问题.为了解决这个问题,提出了一种基于重复数据删除技术的云中云存储系统架构,首先消除云存储系统中的冗余数据量,然后基于重复数据删除集中的数据块引用率将数据块以复制和纠删码2种数据布局方式存储在多个云存储服务提供商中.基于复制的数据布局方式易于实现部署,但是存储开销大;基于纠删码的数据布局方式存储开销小,但是需要编码和解码,计算开销大.为了充分挖掘复制和纠删码数据布局的优点并结合重复数据删除技术中数据引用的特点,新方法用复制方式存储高引用数据块,用纠删码方式存储其他数据块,从而使系统整体性能和成本达到较优.通过原型系统的实现和测试验证了相比现有云中云存储策略,新方法在性能和成本上都有大幅度提高.  相似文献   

18.
基于重复数据删除的虚拟桌面存储优化技术   总被引:1,自引:0,他引:1  
虚拟桌面基础架构依靠数据中心海量的云基础设施,为用户按需提供虚拟桌面部署所需的软硬件资源,但同时面临存储资源利用率低和虚拟机启动慢的困境.针对虚拟桌面存储中具有大量数据冗余的特性,采用重复数据删除技术缩减虚拟桌面基础架构的存储空间需求;并利用服务器本地磁盘缓存以及共享存储池内的固态硬盘来优化虚拟机的启动性能.通过原型实现,发现相比于基于内容分块的策略,静态分块策略更适合虚拟桌面存储进行重复数据删除,最优的分块大小为4KB,并能够缩减85%的存储空间容量;通过服务器本地磁盘缓存和基于闪存的固态硬盘进行I/O优化,虚拟机的启动速度能够获得35%的提升.  相似文献   

19.
针对传统远程备份中大量冗余数据导致备份效率低下和存储空间浪费的问题,设计并实现了一个基于重复数据删除的远程备份系统。首先根据文件的内容用Rabin指纹将备份文件划分为变长的数据块,把每个数据块的相关信息发送到备份中心,在备份中心利用Google Bigtable及Leveldb的索引算法辅以布隆过滤器对数据块进行判重,最后只传输和存储不重复的数据块。实验结果表明,采用该系统备份相似的数据集能够有效删除其中的重复数据。对数据集进行增量备份,在增量数据变化不大时,相比Rsync备份有更少的网络流量。  相似文献   

20.
基于现有重复数据删除策略,提出了一种基于负载均衡的C/S双端延迟重复数据删除方法.利用基于类型的数据分块方法将数据块分成若干块;利用MD5提取指纹值,与客户端本地的索引表对比指纹,若相同则用指针取代该数据块,具有数据块指纹和数据类型的索引表一同发送至控制器;控制器在收到客户端的请求后,首先根据自己实时监控得到的各服务器的当前状态来选择最佳目标存储节点;服务器端根据数据类型查询不同的索引表以缩小查找范围.对提出的方法的重复数据删除率进行了实验验证,结果表明该机制具有较好的性能表现.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号