共查询到20条相似文献,搜索用时 76 毫秒
1.
2.
3.
重复数据删除关键技术研究进展 总被引:11,自引:0,他引:11
企业数据量的不断增长和数据传输率要求的不断提高,使得数据中心海量存储空间和高带宽网络传输需求成为当前网络存储领域面临的严峻挑战.利用特定应用数据集内数据高度冗余的特性,重复数据删除技术能够极大地缩减数据存储容量需求,提高网络带宽利用率,降低企业IT运营成本.目前,重复数据删除技术已成为国内外的研究热点.首先介绍重复数据删除技术的概念、分类及其应用;阐述重复数据删除系统的体系结构和基本原理,并与传统存储系统进行对比.然后重点分析和总结重复数据删除各项关键技术的研究现状,包括数据划分方法、I/O优化技术、高可靠数据配置策略以及系统可扩展性.最后对重复数据删除技术的研究现状进行总结,并指出未来可能的研究方向. 相似文献
4.
在备份和归档等存储应用中产生的重复数据在存储空间和能耗上造成的浪费问题日益突出,如何删除重复数据已成为当前存储领域中的研究热点。CDC(Content Defined Chunking)是一种适用于多种应用环境的重复数据删除算法,但缺乏针对具体应用环境的优化。通过对存储环境进行感知和分析,为CIX;算法提出了两个参数选择约束条件:(1)根据存储设备中的数据块存储方式来选择平均分块大小等参数;(2)根据数据的分块边界分布特性来选择分块边界特征值参数。实验表明,与无约束条件的CDC算法相比,这两个约束条件在4个实验数据集上平均可提高16. 3%的数据缩减比。 相似文献
5.
随着云计算的发展,云存储技术通过集群应用、虚拟化技术、分布式文件系统等功能将网络中大量各种不同类型的存储设备集合起来协同工作,缓解了老式数据中心的存储压力.另外,重复数据删除技术是一种缩减存储空间减少网络传输量的技术,随着云的广泛应用也势必会发展应用于云存储中.这两种技术结合将会给IT存储业带来实际效益.本文通过研究重复数据删除技术、云存储技术,设计了基于云存储的重复数据删除架构,提出了一种用In-line方式在客户端进行数据块级与字节级相结合的重复数据删除操作后再将数据存入云中的方案.在本架构下,海量数据存储在HDFS中;而文件数据块的哈希值存储在HBase中. 相似文献
6.
徐阳 《计算机工程与应用》2015,51(2):71-75
基于多服务器架构、为多用户服务的网络文件存储系统普遍存在资源分配不均,重复文件多,存储空间浪费严重的问题。设计并实现了TNS网络文件存储系统,该系统基于多服务器存储架构,分别由用户服务器、索引服务器、数据服务器、共享服务器、管理服务器和登录服务器组成,为多用户服务,采用一致性Hash实现负载均衡,支持在客户端进行文件粒度的重复数据删除。经过实际生产环境运行测试,具有良好的负载均衡能力和重复数据删除功能,可以有效节省存储空间,提高存储设备利用率。 相似文献
7.
基于重复数据删除的虚拟桌面存储优化技术 总被引:1,自引:0,他引:1
虚拟桌面基础架构依靠数据中心海量的云基础设施,为用户按需提供虚拟桌面部署所需的软硬件资源,但同时面临存储资源利用率低和虚拟机启动慢的困境.针对虚拟桌面存储中具有大量数据冗余的特性,采用重复数据删除技术缩减虚拟桌面基础架构的存储空间需求;并利用服务器本地磁盘缓存以及共享存储池内的固态硬盘来优化虚拟机的启动性能.通过原型实现,发现相比于基于内容分块的策略,静态分块策略更适合虚拟桌面存储进行重复数据删除,最优的分块大小为4KB,并能够缩减85%的存储空间容量;通过服务器本地磁盘缓存和基于闪存的固态硬盘进行I/O优化,虚拟机的启动速度能够获得35%的提升. 相似文献
8.
随着高校信息化的发展以及教学、科研和管理应用系统的广泛应用,数据资源如:图片、文档、视频等非结构化资源增长十分迅速。如何应对校园网络环境中不断增大的存储需求,提高存储资源的利用效率,是校园数据中心运维中一个比较重要的问题。本文介绍了基于开源软件 Swift 的云存储平台的搭建,以及带有重复数据删除功能的校园云存储系统(Dedupe_swift) 的设计与实现。通过重复数据删除功能的引入,提高了底层存储空间利用率;采用源端去重机制,为用户缩短了重复文件的上传时间;通过 Web 服务将存储作为服务提供给用户,为用户提供良好的云存储访问体验。 相似文献
9.
随着信息技术的快速发展,信息化已成为决定企业生存与发展的关键因素之一;然而随着企业数据信息量的不断地增加,海量数据信息的存储和不断备份已经给企业的存储空间带来了巨大的存储压力;为此,深入研究了重复数据删除技术,并针对目前重复数据删除技术中存在的数据丢失及性能低等问题以及MD5算法流程和重复数据删除策略的分析和研究,提出了一种重复数据删除技术优化模型;测试分析表明,该优化模型实现了高效和安全的重复数据删除功能,节省了企业内部存储空间的存储成本开销。 相似文献
10.
朱珍 《数字社区&智能家居》2014,(21):4969-4971
随着企业数据信息量的不断地增加,海量数据信息的存储和不断备份给企业的存储空间带来了巨大的存储压力。该文深入研究重复数据删除技术,并针对目前重复数据删除技术中存在的数据丢失及性能低等问题以及BLOOM FILTER算法流程和重复数据删除策略的分析和研究,提出了一种重复数据删除技术优化模型。测试分析表明,该优化模型实现了高效和安全的重复数据删除功能,节省了企业内部存储空问的存储成本开销。 相似文献
11.
随着企业数据信息量的不断地增加,海量数据信息的存储和不断备份已经给企业的存储空间带来了巨大的存储压力;本文分析了当前主要的重复数据检测和删除技术,,并分析了其优缺点。并提出一种基于内容的重复数据删除策略。 相似文献
12.
云存储系统的重复数据作为大量冗余数据的一种,对其有效及时地删除能保证云存储系统的稳定与运行。由于云存储系统中的干扰数据较多,信噪比较低,传统的重删算法会在分数阶Fourier域出现伪峰峰值,不能有效地对重复数据进行检测滤波和删除处理,因此提出一种改进的基于分数阶Fourier变换累积量检测的云存储系统重复数据删除算法。首先分析云存储系统重复数据删除机制体系架构,定义数据存储点的适应度函数,得到云存储节点的系统子集随机概率分布;采用经验约束函数对存储节点中的校验数据块分存,通过分数阶Fourier变换对云存储系统中的幅度调制分量进行残差信号滤波预处理。采用4阶累积量切片后置算子,把每个文件分为若干个块,针对每个文件块进行重删,进行重复数据检测后置滤波处理,实现存储资源上的重复数据检测及其删除。仿真实验表明,该算法能提高集群云存储系统计算资源的利用率,重复数据准确删除率较高,有效避免了数据信息流的干扰特征造成的误删和漏删,性能优越。 相似文献
13.
14.
压缩数据库技术是海量数据管理的重要技术之一.利用海量数据自身及其数据操作的特点,提出了一种海量数据压缩存储结构.该存储结构将第二级和第三级存储器结合起来,以数据操作条件中的谓词为索引,在减少存储空间的同时有效地支持查询、删除和更新等数据操作.理论分析和实验结果表明,这种存储结构可以提高海量数据的存储效率和数据操作的性能. 相似文献
15.
基于现有重复数据删除策略,提出了一种基于负载均衡的C/S双端延迟重复数据删除方法.利用基于类型的数据分块方法将数据块分成若干块;利用MD5提取指纹值,与客户端本地的索引表对比指纹,若相同则用指针取代该数据块,具有数据块指纹和数据类型的索引表一同发送至控制器;控制器在收到客户端的请求后,首先根据自己实时监控得到的各服务器的当前状态来选择最佳目标存储节点;服务器端根据数据类型查询不同的索引表以缩小查找范围.对提出的方法的重复数据删除率进行了实验验证,结果表明该机制具有较好的性能表现. 相似文献
16.
云存储已经成为一种主流应用模式.随着用户及存储数据量的增加,云存储提供商采用重复数据删除技术来节省存储空间和资源.现有方案普遍采用统一的流行度阈值对所有数据进行删重处理,没有考虑到不同的数据信息具有不同的隐私程度这一实际问题.提出了一种基于阈值动态调整的重复数据删除方案,确保了上传数据及相关操作的安全性.提出了理想阈值的概念,消除了传统方案中为所有数据分配统一阈值所带来的弊端.使用项目反应理论确定不同数据的敏感性及其隐私分数,保证了数据隐私分数的适用性,解决了部分用户忽视隐私的问题.提出了基于数据加密的隐私分数查询反馈机制,在此基础上,设计了流行度阈值随数据上传的动态调整方法.实验数据及对比分析结果表明,基于阈值动态调整的重复数据删除方案具有良好的可扩展性和实用性. 相似文献
17.
重复数据删除(Data deduplication)无疑是存储行业近年来最“热闹”的技术。它消除了传统备份技术衍生出的重复存储数据问题.进而为企业节省成本。 相似文献
18.
云存储可以使用户在不扩大自身存储的情况下保存更多数据,而客户端去重技术的引入使用户在本地对重复数据进行有效删除,极大提高云存储利用率,节省通信开销.本文利用文献[10]中基于盲签名随机化收敛密钥的思想,提出了一个新的基于客户端密文去重方案.新方案中重复验证标签和拥有权证明可有效抵抗暴力字典攻击,并利用三方密钥协商方案的思想设计了灵活的加密密钥管理方案.实验结果表明新方案能够有效降低用户存储和计算开销. 相似文献
19.
针对广域网中网络备份系统存在备份速度低、网络带宽需求高和数据冗余等问题,提出并实现一种具有重复数据删除功能的网络文件备份系统。通过在客户端实现重复数据删除技术,对文件进行分块和在备份过程中去除重复数据块,减少客户端与服务期间需要传输的数据量,使得文件备份的速度获得较大提高,也较大地降低网络带宽要求,显著提高了网络备份系统的性能。此外,备份过程中客户端去除了重复的数据块使得服务器中存储的数据块都是唯一的,极大地降低了系统所需要的存储空间,同时,服务器端的数据块引用管理的设计很好地解决了空闲数据块耗费存储空间的问题。 相似文献