首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 382 毫秒
1.
由于Hadoop自身并不适合海量小文件处理,目前的重复数据删除方法主要基于文件的二进制特征,无法识别经过信号处理后的同一首歌曲,也不能满足海量数据在线处理的要求.提出一种采用声学指纹去重的海量MP3文件存储架构,结合音乐文件自身的声学特性和MP3文件包含的元信息,通过索引、在线归并和NAF去重,很好地解决了小文件过多时内存瓶颈问题,同时提供了更好的去重效果;离线归并和副本调整模块根据系统的运行状况不断优化存储.实验结果表明,该架构在性能、去重率、可管理性和可扩展性方面达到了良好的平衡,极大地提高了去重率,与可变分块CDC相比,去重率提高了100%,具有良好的实用价值.  相似文献   

2.
新一代测序因其数据量大、数据处理过程复杂、对计算资源要求高等特点,需要通过云计算进行处理。然而,云计算的处理方式要求先将测序数据上传到云平台中。但由于测序过程的随机性,使得同一样本的两次测序、两个相似样本分别测序后所产生的文件在二进制层面会有较大差别。目前已有的去重方法无法有效识别出这样的“重复”测序文件和测序结果中的“重复”内容。重复上传和存储这些重复数据,不仅消耗网络带宽,而且浪费存储空间。针对现存的重复数据删除方法仅仅基于文件的二进制特征,并未有效利用测序结果数据相似性特点的问题,提出一种面向云平台的海量高通量测序数据近似去重方法NPD(Near Probability Deduplication)。该方法对FastQ中的序列和质量信息,使用SimHash计算分块指纹,采用客户端与云平台双布谷过滤器(Cukoo Filter)对指纹值进行快速存在性检测,最后由云平台使用近似算法对指纹值近似去重。实验结果表明,NPD方法在保证高效的同时,大幅提升了去重率,进而减少了网络流量,缩短了数据上传时间,能够支撑海量数据处理,具有良好的实用价值。  相似文献   

3.
数据去重能消除备份中的冗余数据,节省存储资源和网络带宽,因而成为当前数据存储领域的研究热点。针对常用的块级数据去重技术指纹查询开销高、系统吞吐率低等问题,提出一种批处理块级数据去重方法,通过内存缓冲区对指纹进行排序,实现磁盘索引的顺序查询。同时文件以一种双指针有向无环图的结构存储在系统中,以消除文件读时引起的随机磁盘I/O开销。实验结果表明,该方法有效克服了指纹查询的磁盘I/O瓶颈,提高了数据去重时的系统读写性能。  相似文献   

4.
在实行客户端去重的云存储系统中,通过所有权证明可以解决攻击者仅凭借文件摘要获得整个文件的问题。然而,基于所有权证明的去重方案容易遭受侧信道攻击。攻击者通过上传文件来观察是否发生去重,即可判断该文件是否存在于云服务器中。基于存储网关提出一种改进的所有权证明去重方案,存储网关代替用户与云服务器进行交互,使得去重过程对用户透明,并采用流量混淆的方法抵抗侧信道攻击和关联文件攻击。分析与比较表明,该方案降低了客户端计算开销,并提高了安全性。  相似文献   

5.
基于现有重复数据删除策略,提出了一种基于负载均衡的C/S双端延迟重复数据删除方法.利用基于类型的数据分块方法将数据块分成若干块;利用MD5提取指纹值,与客户端本地的索引表对比指纹,若相同则用指针取代该数据块,具有数据块指纹和数据类型的索引表一同发送至控制器;控制器在收到客户端的请求后,首先根据自己实时监控得到的各服务器的当前状态来选择最佳目标存储节点;服务器端根据数据类型查询不同的索引表以缩小查找范围.对提出的方法的重复数据删除率进行了实验验证,结果表明该机制具有较好的性能表现.  相似文献   

6.
针对搜索引擎在海量数据中搜索速度慢,占用存储空间大,对重复的网页去重性差的现状,提出一种基于Rabin指纹算法的去重方法,不仅对搜索到的URL地址进行去重,还对非重复URL地址对应的网页内容进行相似和相同的去重,试验表明能有效地提高搜索速度、节省存储空间,增强搜索的精度。  相似文献   

7.
基于对象的 OpenXML 复合文件去重方法研究   总被引:3,自引:0,他引:3  
现有的重复数据删除技术大部分是基于变长分块(content defined chunking ,CDC)算法的,不考虑不同文件类型的内容特征。这种方法以一种随机的方式确定分块边界并应用于所有文件类型,已经证明其非常适合于文本和简单内容,而不适合非结构化数据构成的复合文件。分析了 OpenXML 标准的复合文件属性,给出了对象提取的基本方法,并提出基于对象分布和对象结构的去重粒度确定算法。目的是对于非结构化数据构成的复合文件,有效地检测不同文件中和同一文件不同位置的相同对象,在文件物理布局改变时也能够有效去重。通过对典型的非结构化数据集合的模拟实验表明,在综合情况下,对象重复数据删除比 CDC 方法提高了10%左右的非结构化数据的去重率。  相似文献   

8.
基于MD5的迭代冗余加密算法   总被引:7,自引:0,他引:7  
MD5报文摘要算法是一种非常流行的加密方案,是对任意长度的消息提取数字指纹或消息摘要的算法,但是,在计算上难以提供两个具有相同数字指纹的不同消息,并难以由给定的数字指纹推算出相应的消息.基于MD5的迭代冗余加密算法对MD5算法进行了扩展,利用了MD5算法的强大安全性,实现了文件加密、解密和数据完整性保护的功能.  相似文献   

9.
陈露  吴国仕  李晶 《软件》2014,(11):25-30
为了解决传统中文文本去重准确率低的问题,本文提出了一种基于语义指纹和LCS的文本去重方法。针对中文文本,预处理后抽取出文本摘要,然后使用tf-idf算法分别得出文本内容特征向量和摘要特征向量,分别将这两个向量作为simhash算法的输入,计算得到文章的内容指纹和摘要指纹。计算两个文本对应的两个指纹的汉明距离,代入本文公式,最终得到这两文本的指纹距离;使用指纹对文本对进行初步筛选,对判定为相似的两个文本使用LCS算法进行进一步对比,避免误判,最终实现中文文本快速去重。实验过程中,通过与LCS算法、simhash算法等多种算法的结果进行对比,可以体现该方法在算法精确度方面的优势,同时,该方法的运行速度优势也能较好地支持大数据量文本的去重操作。  相似文献   

10.
张沪寅  周景才  陈毅波  查文亮 《软件学报》2015,26(10):2581-2595
通过大量的实验分析发现:在云桌面场景下,数据拥有者之间的工作相关度越大,则该用户之间存在重复数据的概率越大.基于该实验结果,提出了用户感知的重复数据删除算法.该算法打破了数据空间局部性特征的限制,实现了以用户为单位的更粗粒度的查重计算,可以在不影响重删率的前提下,减少5~10倍常驻内存指纹的数量,并可将每次查重计算的指纹检索范围控制在一个常数范围内,不随数据总量的增加而线性增加,从而有效避免了因为数据总量增加而导致内存不足的问题.除此之外,该算法还能根据存储系统的负载情况自动调整重复指纹检索范围,在性能与重删率之间加以平衡,从而更好地满足主存储场景的需要.原型验证表明,该算法可以很好地解决云计算场景下海量数据的重复数据删除性能问题.与OpenDedup算法相比,当数据指纹总量超出内存可用空间时,该算法可以表现出巨大的优势,减少200%以上的读磁盘操作,响应速度提升3倍以上.  相似文献   

11.
刘仲  李凯 《计算机工程》2010,36(7):27-29
针对归档数据的存储管理问题,提出一种归档存储体系结构AStore,采用数据指纹、数据压缩、数据分块和重复数据删除技术,设计归档存储系统的数据存储和管理策略。测试并分析不同参数设置下存储系统的性能,结果表明该策略能减少数据冗余,提高系统存储空间的利用率和访问性能。  相似文献   

12.
在数据备份系统中,使用重复数据删除技术在消除重复数据提高系统存储的空间效率时,将必然会有多个逻辑映像共享去重后的数据实例,如果某个数据实例丢失或者数据被更改,将导致所有引用该实例的逻辑映像均发生错误,因此提出了一种在去重备份系统中数据完整性验证算法.如果当前备份的文件在数据服务器端已经存在数据实例,添加引用之前先对被引用的数据实例进行分块循环顺序校验,判断数据实例的完整性.实验结果证明,这种添加验证码的去重合成备份算法不仅不影响备份速度,而且对备份系统中被引用的数据实例的完整性提供了一种验证的算法.这种数据完整性校验算法提高了去重备份系统的可靠性.  相似文献   

13.
重点分析了重复数据删除技术和这种技术对系统性能影响等有关方面的问题。  相似文献   

14.
提出了一种基于重复数据删除技术的SQL Server数据库备份系统.系统在临时备份文件生成后将其划分成变长数据块并计算其指纹值作为数据块的惟一标志,在传输文件到远程灾备中心时只传输数据块的单一实例,减小传输量,节省远程灾备中心处存储空间;在灾备中心建立hash表记录已存储数据块指纹值;为了提高数据可靠性,引入受限的冗余...  相似文献   

15.
随着云计算的发展,云存储技术通过集群应用、虚拟化技术、分布式文件系统等功能将网络中大量各种不同类型的存储设备集合起来协同工作,缓解了老式数据中心的存储压力.另外,重复数据删除技术是一种缩减存储空间减少网络传输量的技术,随着云的广泛应用也势必会发展应用于云存储中.这两种技术结合将会给IT存储业带来实际效益.本文通过研究重复数据删除技术、云存储技术,设计了基于云存储的重复数据删除架构,提出了一种用In-line方式在客户端进行数据块级与字节级相结合的重复数据删除操作后再将数据存入云中的方案.在本架构下,海量数据存储在HDFS中;而文件数据块的哈希值存储在HBase中.  相似文献   

16.
针对当前备份系统存在的重复数据量大、网络传输数据多、数据安全性低等特点,提出一种新的文件级备份系统。该系统构建于Bacula开源备份系统基础之上,使用磁盘作为存储介质,基于内容地址存储,采用重复删除技术以节省存储空间。性能测试结果表明,该系统能有效缓解存储和网络传输的压力,同时提高数据的安全性。  相似文献   

17.
随着信息技术的快速发展,信息化已成为决定企业生存与发展的关键因素之一;然而随着企业数据信息量的不断地增加,海量数据信息的存储和不断备份已经给企业的存储空间带来了巨大的存储压力;为此,深入研究了重复数据删除技术,并针对目前重复数据删除技术中存在的数据丢失及性能低等问题以及MD5算法流程和重复数据删除策略的分析和研究,提出了一种重复数据删除技术优化模型;测试分析表明,该优化模型实现了高效和安全的重复数据删除功能,节省了企业内部存储空间的存储成本开销。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号