首页 | 本学科首页   官方微博 | 高级检索  
     

相似索引:适用于重复数据删除的二级索引
引用本文:张志珂,蒋泽军,蔡小斌,彭成章. 相似索引:适用于重复数据删除的二级索引[J]. 计算机应用研究, 2013, 30(12): 3614-3617
作者姓名:张志珂  蒋泽军  蔡小斌  彭成章
作者单位:西北工业大学计算机学院, 西安710072
基金项目:陕西省自然科学基金资助项目(2010JM8023); 航空科学基金资助项目(2010ZD53042)
摘    要:由于EB(extreme binning)使用文件的最小块签名作为文件的特征, 它不适合处理主要包括小文件的数据负载, 会导致较差的重复数据删除率。为了改进EB, 提出了相似索引。它把相似哈希作为文件的特征, 是一种适用于以小文件为主的数据负载的重复数据删除的二级索引。实验结果表明, 相似索引的重复数据删除率比EB高24. 8%; 相似索引的内存使用量仅仅是EB的0. 265%。与EB相比, 相似索引需要更少的存储使用量和内存使用量。

关 键 词:重复数据删除  相似哈希  相似索引  块查找磁盘瓶颈问题  二级索引

Similar index: two-level index used for deduplication
ZHANG Zhi-ke,JIANG Ze-jun,CAI Xiao-bin,PENG Cheng-zhang. Similar index: two-level index used for deduplication[J]. Application Research of Computers, 2013, 30(12): 3614-3617
Authors:ZHANG Zhi-ke  JIANG Ze-jun  CAI Xiao-bin  PENG Cheng-zhang
Affiliation:School of Computer, Northwestern Polytechnical University, Xi'an 710072, China
Abstract:However, since EB (extreme binning) utilized the minimum chunk ID of a file as the representative chunk signature, EB was not suitable for backup data stream mainly containing small files. To improve EB, this paper proposed simi index using simi hash as the feature of a file. It was a novel two-level index suitable for workload mainly consisting of small files. Experiment results show that, the deduplication efficiency of simi index is 24. 8% better than EB, and the RAM usage of simiIndex only 0. 265% of that of EB. Compared with EB, simi index needs less storage and less RAM.
Keywords:deduplication  simi hash  similar index  chunk-lookup disk bottleneck problem  two-level index
点击此处可从《计算机应用研究》浏览原始摘要信息
点击此处可从《计算机应用研究》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号