首页 | 本学科首页   官方微博 | 高级检索  
     

基于极值点分块的重复数据检测算法
引用本文:谢垂益,卿斯汉.基于极值点分块的重复数据检测算法[J].信息网络安全,2013(8).
作者姓名:谢垂益  卿斯汉
作者单位:1. 韶关学院数学与信息科学学院,广东韶关,512005
2. 中国科学院软件研究所,北京,100190
基金项目:国家自然科学基金[60970135、61170282]、韶关市创新资金项目[201210]、韶关学院科研项目
摘    要:重复数据检测技术能够大幅降低数据中心的存储量,节省网络带宽,减少建设和运维成本。为了克服基于内容分块(CDC)方法容易出现超长块的缺点,文章提出了基于极值点分块(EDC)的重复数据检测算法。EDC算法先计算出所有右边界在数据块上下限范围内的滑动窗口中数据的指纹,找出最后一个指纹极值,所对应的滑动窗口结束位置作为数据块的分界点,再计算该数据块的哈希值并判断是否重复块。实验结果表明,EDC算法的重复数据检测率、磁盘利用率分别是CDC算法的1.48倍和1.12倍,改进效果显著。

关 键 词:重复数据检测  基于内容分块  基于极值点分块  指纹

A Duplicate Data Detection Algorithm based on Extremum Deifned Chunking
XIE Chui-yi , QING Si-han.A Duplicate Data Detection Algorithm based on Extremum Deifned Chunking[J].Netinfo Security,2013(8).
Authors:XIE Chui-yi  QING Si-han
Abstract:
Keywords:duplicated data detection  content deifned chunking  extremum deifned chunking  ifngerprint
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号