首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 187 毫秒
1.
重复数据删除技术已逐渐应用到以云计算为代表的主存储系统中,这些系统对读响应时间的高要求使读性能成为重复数据删除系统中需要解决的重要问题,而已有研究对如何提高重复数据删除系统读性能关注很少.针对这一问题,对重复数据删除系统中读取流程和性能瓶颈进行了量化分析,提出了一种基于流水线的数据读取模型,然后通过并行计算机制对模型进行了进一步的优化.基于这一模型设计实现了实验系统,通过实验证明:对于网络安全监测日志文本数据和虚拟机镜像文件,应用此模型后,重复数据删除系统读速度的提高可达5倍以上;基于流水线的数据读取模型适用性强,对提高不同消冗率的数据读速度均有明显作用.  相似文献   

2.
重复数据删除技术   总被引:2,自引:0,他引:2  
敖莉  舒继武  李明强 《软件学报》2010,21(5):916-929
重复数据删除技术主要分为两类:相同数据的检测技术和相似数据的检测与编码技术,系统地总结了这两类技术,并分析了其优缺点.此外,由于重复数据删除技术会影响存储系统的可靠性和性能,又总结了针对这两方面的问题提出的各种技术.通过对重复数据删除技术当前研究现状的分析,得出如下结论:a) 重复数据删除中的数据特性挖掘问题还未得到完全解决,如何利用数据特征信息有效地消除重复数据还需要更深入的研究;b) 从存储系统设计的角度,如何引入恰当的机制打破重复数据删除技术的可靠性局限并减少重复数据删除技术带来的额外系统开销也是一个需要深入研究的方面.  相似文献   

3.
重复数据删除技术   总被引:14,自引:2,他引:12  
敖莉  舒继武  李明强 《软件学报》2010,21(4):916-929
重复数据删除技术主要分为两类:相同数据的检测技术和相似数据的检测与编码技术,系统地总结了 这两类技术,并分析了其优缺点.此外,由于重复数据删除技术会影响存储系统的可靠性和性能,又总结了针对这 两方面的问题提出的各种技术.通过对重复数据删除技术当前研究现状的分析,得出如下结论:a) 重复数据删除 中的数据特性挖掘问题还未得到完全解决,如何利用数据特征信息有效地消除重复数据还需要更深入的研 究;b) 从存储系统设计的角度,如何引入恰当的机制打破重复数据删除技术的可靠性局限并减少重复数据删除技术带来的额外系统开销也是一个需要深入研究的方面.  相似文献   

4.
针对广域网中网络备份系统存在备份速度低、网络带宽需求高和数据冗余等问题,提出并实现一种具有重复数据删除功能的网络文件备份系统。通过在客户端实现重复数据删除技术,对文件进行分块和在备份过程中去除重复数据块,减少客户端与服务期间需要传输的数据量,使得文件备份的速度获得较大提高,也较大地降低网络带宽要求,显著提高了网络备份系统的性能。此外,备份过程中客户端去除了重复的数据块使得服务器中存储的数据块都是唯一的,极大地降低了系统所需要的存储空间,同时,服务器端的数据块引用管理的设计很好地解决了空闲数据块耗费存储空间的问题。  相似文献   

5.
存储系统重复数据删除技术研究综述   总被引:3,自引:1,他引:2  
谢平 《计算机科学》2014,41(1):22-30,42
目前企业对数据量不断增长的需求使得数据中心面临严峻的挑战。研究发现,存储系统中高达60%的数据是冗余的,如何缩减存储系统中的冗余数据受到越来越多科研人员的关注。重复数据删除技术利用CPU计算资源,通过数据块指纹对比能够有效地减少数据存储空间,已成为工业界和学术界研究的热点。在分析和总结近10年重复数据删除技术文献后,首先通过分析卷级重删系统体系结构,阐述了重删系统的原理、实现机制和评价标准。然后结合数据规模行为对重删系统性能的影响,重点分析和总结了重删系统的各种性能改进技术。最后对各种应用场景的重删系统进行对比分析,给出了4个需要重点研究的方向,包括基于主存储环境的重删方案、基于分布式集群环境的重删方案、快速指纹查询优化技术以及智能数据检测技术。  相似文献   

6.
随着信息技术的快速发展,信息化已成为决定企业生存与发展的关键因素之一;然而随着企业数据信息量的不断地增加,海量数据信息的存储和不断备份已经给企业的存储空间带来了巨大的存储压力;为此,深入研究了重复数据删除技术,并针对目前重复数据删除技术中存在的数据丢失及性能低等问题以及MD5算法流程和重复数据删除策略的分析和研究,提出了一种重复数据删除技术优化模型;测试分析表明,该优化模型实现了高效和安全的重复数据删除功能,节省了企业内部存储空间的存储成本开销。  相似文献   

7.
重复数据删除技术是现在存储领域广泛应用的一种数据缩减技术.重复数据预测技术能够在执行重复数据删除之前,让用户了解系统的效用,为用户如何使用存储系统提供参考.当前,重复数据预测技术不断发展,并已经有企业将其广泛应用.现有的几种重复数据删除预测技术都拥有了很高的准确性和很好的应用环境,一种基于应用感知的重复数据预测技术能够进一步减小预测索引表的大小,进一步地提升了预测算法的性能.索引表的自适应更新算法能够将来访数据内部的冗余度考虑在内,进一步提高了重复数据预测的准确性.  相似文献   

8.
随着企业数据信息量的不断地增加,海量数据信息的存储和不断备份给企业的存储空间带来了巨大的存储压力。该文深入研究重复数据删除技术,并针对目前重复数据删除技术中存在的数据丢失及性能低等问题以及BLOOM FILTER算法流程和重复数据删除策略的分析和研究,提出了一种重复数据删除技术优化模型。测试分析表明,该优化模型实现了高效和安全的重复数据删除功能,节省了企业内部存储空问的存储成本开销。  相似文献   

9.
为了挖掘现有存储资源,优化企业存储系统,重复数据删除技术成为当下用户的应用热点。 但是,如何部署重复数据删除技术,是在数据源头还是存储后台,是在备份系统还是归档系统,如何与逐渐普及的虚拟化应用相互融合,所有这些都是影响重复数据删除应用效果的重要问题。  相似文献   

10.
重复数据删除的两种技术方式各有千秋,用户在应用实践中应从需求出发各有侧重。最近,各大存储厂商关于重复数据删除技术动作不断。首当其冲的是IBM,其把之前收购的专注于重复数据删  相似文献   

11.
The exponential growth of digital data in cloud storage systems is a critical issue presently as a large amount of duplicate data in the storage systems exerts an extra load on it. Deduplication is an efficient technique that has gained attention in large-scale storage systems. Deduplication eliminates redundant data, improves storage utilization and reduces storage cost. This paper presents a broad methodical literature review of existing data deduplication techniques along with various existing taxonomies of deduplication techniques that have been based on cloud data storage. Furthermore, the paper investigates deduplication techniques based on text and multimedia data along with their corresponding taxonomies as these techniques have different challenges for duplicate data detection. This research work is useful to identify deduplication techniques based on text, image and video data. It also discusses existing challenges and significant research directions in deduplication for future researchers, and article concludes with a summary of valuable suggestions for future enhancements in deduplication.  相似文献   

12.
新一代测序因其数据量大、数据处理过程复杂、对计算资源要求高等特点,需要通过云计算进行处理。然而,云计算的处理方式要求先将测序数据上传到云平台中。但由于测序过程的随机性,使得同一样本的两次测序、两个相似样本分别测序后所产生的文件在二进制层面会有较大差别。目前已有的去重方法无法有效识别出这样的“重复”测序文件和测序结果中的“重复”内容。重复上传和存储这些重复数据,不仅消耗网络带宽,而且浪费存储空间。针对现存的重复数据删除方法仅仅基于文件的二进制特征,并未有效利用测序结果数据相似性特点的问题,提出一种面向云平台的海量高通量测序数据近似去重方法NPD(Near Probability Deduplication)。该方法对FastQ中的序列和质量信息,使用SimHash计算分块指纹,采用客户端与云平台双布谷过滤器(Cukoo Filter)对指纹值进行快速存在性检测,最后由云平台使用近似算法对指纹值近似去重。实验结果表明,NPD方法在保证高效的同时,大幅提升了去重率,进而减少了网络流量,缩短了数据上传时间,能够支撑海量数据处理,具有良好的实用价值。  相似文献   

13.
随着多云存储市场的快速发展, 越来越多的用户选择将数据存储在云上, 随之而来的是云环境中的重复数据也呈爆炸式增长. 由于云服务代理是相互独立的, 因此传统的数据去重只能消除代理本身管理的几个云服务器上的冗余数据. 为了进一步提高云环境中数据去重的力度, 本文提出了一种多代理联合去重方案. 通过区块链技术促成云服务代理间的合作, 并构建代理联盟, 将数据去重的范围从单个代理管理的云扩大到多代理管理的多云. 同时, 能够为用户、云服务代理和云服务提供商带来利益上的共赢. 实验表明, 多代理联合去重方案可以显著提高数据去重效果、节约网络带宽.  相似文献   

14.
随着多云存储市场的快速发展, 越来越多的用户选择将数据存储在云上, 随之而来的是云环境中的重复数据也呈爆炸式增长. 由于云服务代理是相互独立的, 因此传统的数据去重只能消除代理本身管理的几个云服务器上的冗余数据. 为了进一步提高云环境中数据去重的力度, 本文提出了一种多代理联合去重方案. 通过区块链技术促成云服务代理间的合作, 并构建代理联盟, 将数据去重的范围从单个代理管理的云扩大到多代理管理的多云. 同时, 能够为用户、云服务代理和云服务提供商带来利益上的共赢. 实验表明, 多代理联合去重方案可以显著提高数据去重效果、节约网络带宽.  相似文献   

15.
数据流行度去重方案中存在检测机构不诚实、数据存储不可靠等问题,提出一种面向去中心化存储的数据流行度去重模型。针对检测机构不诚实,模型结合区块链的不可篡改性与智能合约的不可抵赖性,将智能合约作为检测机构执行数据的重复性检测和流行度检测,保障了检测结果的真实性。针对数据存储不可靠问题,提出一种文件链存储结构,该结构满足数据流行度去重的要求,并通过添加辅助信息的方式,建立分布在不同存储节点中实现物理/逻辑上传的分片之间的逻辑关系,为流行度数据去中心化网络存储提供基础;同时,在数据块信息中添加备份标识,借助备份标识将存储网络划分为两个虚拟存储空间,分别实现数据和备份数据的检测与存储,满足了用户备份需求。安全性分析和性能分析表明,该方案具有可行性,保障了检测结果的真实性,并提高了数据存储的可靠性。  相似文献   

16.
针对现有云存储系统中数据去重采用的收敛加密算法容易遭到暴力破解以及猜测攻击等不足,提出一种基于布隆过滤器的混合云存储安全去重方案BFHDedup,改进现有混合云存储系统模型,私有云部署密钥服务器Key Server支持布隆过滤器认证用户的权限身份,实现了用户的细粒度访问控制。同时使用双层加密机制,在传统收敛加密算法基础上增加额外的加密算法并且将文件级别去重和块级别去重相结合实现细粒度去重。此外,BFHDedup采用密钥加密链机制应对去重带来的密钥管理难题。安全性分析及仿真实验结果表明,该方案在可容忍的时间开销代价下实现了较高的数据机密性,有效抵抗暴力破解以及猜测攻击,提高了去重比率并且减少了存储空间。  相似文献   

17.
Deduplication is an important technology in the cloud storage service. For protecting user privacy, sensitive data usually have to be encrypted before outsourcing. This makes secure data deduplication a challenging task. Although convergent encryption is used to securely eliminate duplicate copies on the encrypted data, these secure deduplication techniques support only exact data deduplication. That is, there is no tolerance of differences in traditional deduplication schemes. This requirement is too strict for multimedia data including image. For images, typical modifications such as resizing and compression only change their binary presentation but maintain human visual perceptions, which should be eliminated as duplicate copies. Those perceptual similar images occupy a lot of storage space on the remote server and greatly affect the efficiency of deduplication system. In this paper, we first formalize and solve the problem of effective fuzzy image deduplication while maintaining user privacy. Our solution eliminates duplicated images based on the measurement of image similarity over encrypted data. The robustness evaluation is given and demonstrates that this fuzzy deduplication system is able to duplicate perceptual similar images, which optimizes the storage and bandwidth overhead greatly in cloud storage service.  相似文献   

18.
针对数据中心存在大量数据冗余的问题,特别是备份数据造成的存储容量浪费,提出一种基于Hadoop平台的分布式重复数据删除解决方案。该方案通过检测并消除特定数据集内的冗余数据,来显著降低数据存储容量,优化存储空间利用率。利用Hadoop大数据处理平台下的分布式文件系统(HDFS)和非关系型数据库HBase两种数据管理模式,设计并实现一种可扩展分布式重删存储系统。其中,MapReduce并行编程框架实现分布式并行重删处理,HDFS负责重删后的数据存储,在HBase数据库中构建索引表,实现高效数据块索引查询。最后,利用虚拟机镜像文件数据集对系统进行了测试,基于Hadoop平台的分布式重删系统能在保证高重删率的同时,具有高吞吐率和良好的可扩展性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号