首页 | 本学科首页   官方微博 | 高级检索  
     

基于改进CDC的实验原始记录匹配算法
引用本文:蔡伊娜,陈新,覃志武,王歆,包先雨,彭锦学,林泳奇,李俊霖.基于改进CDC的实验原始记录匹配算法[J].深圳大学学报(理工版),2022(5):509-514.
作者姓名:蔡伊娜  陈新  覃志武  王歆  包先雨  彭锦学  林泳奇  李俊霖
作者单位:1. 深圳市检验检疫科学研究院;2. 深圳海关食品检验检疫技术中心;3. 深圳海关信息中心
基金项目:国家重点研发计划资助项目(2019YFC1605504,2018YFC1603601)~~;
摘    要:针对当前实验室检测报告的生成过程存在时间长和易出现偶然性差错等问题,提出基于栅栏因子的通用实验原始记录文件自动抓取技术.先通过计算文件整体hash值准确过滤当日已读取文件,再使用改进的内容可变长度分块(content-defined chunking,CDC)算法进行文本分块.该CDC算法改进之处主要体现在:设定滑动窗口下一单位为行与行间距之和的高度以及滑动窗口内字节大小的范围.待文本分块结束后,使用基于数据块索引的字符串匹配算法完成匹配.该字符串匹配算法结合数据块索引表构建模式串与数据块的映射关系,之后由模式串Pn通过数据块索引表快速匹配到相应数据块.使用海关实验室的实验原始记录文件进行测试,实验证明,该算法的内存占用量少且分块吞吐量更大.

关 键 词:计算机应用  数据块  模式串  字符串匹配  实验原始记录  内容可变长度分块算法  实验室检测报告
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号