首页 | 本学科首页   官方微博 | 高级检索  
     

一种面向文档复制检测的特征提取方法
引用本文:李旭,刘国华,余靖,王蕾.一种面向文档复制检测的特征提取方法[J].小型微型计算机系统,2008,29(5):813-816.
作者姓名:李旭  刘国华  余靖  王蕾
作者单位:1. 燕山大学,信息科学与工程学院,河北,秦皇岛,066004
2. 燕山大学,机械工程学院,河北,秦皇岛,066004
基金项目:教育部科学技术研究重点项目
摘    要:介绍一种文档复制检测中基于窗口的特征提取方法,并从理论上分析了性能.采用重叠的文本块分割文档,利用滚动的HASH函数把文本块映射成散列值,再从定义的散列值窗口中选择文本特征,实验验证了方法的特性并与具有代表性的文档复制检测系统进行了对比,结果表明该方法能够确保发现文本长度大于保证闽值的复制内容,有效地提高了检测结果的准确性.

关 键 词:数字文档  复制检测  特征提取  相似度  面向文档  文档复制检测系统  特征提取  方法  Detection  Copy  Document  Approach  文本长度  发现  结果  代表  特性  实验验证  文本特征  选择  基于窗口  散列值  映射  文本块
文章编号:1000-1220(2008)05-0813-04
修稿时间:2006年12月29

A Feature Extraction Approach for Document Copy Detection
LI Xu,LIU Guo-hua,YU Jing,WANG Lei.A Feature Extraction Approach for Document Copy Detection[J].Mini-micro Systems,2008,29(5):813-816.
Authors:LI Xu  LIU Guo-hua  YU Jing  WANG Lei
Affiliation:LI Xu1,LIU Guo-hua1,YU Jing1,WANG Lei2 1(College of Information Science , Engineering,Yanshan University,Qinhuangdao 066004,China) 2(College of Mechanical Engineering,China)
Abstract:This paper introduced a window-based feature extraction approach in document copy detection,and analyzes performance theoretically.Overlapping chunks are used to divide documents,and the rolling hash function is proposed to calculate hash values of chunks quickly,text features are selected from defined windows of hash value.The experiment validates the properties of the approach and compares it with the representative copy detection systems for documents.The results show that the approach can find any match...
Keywords:digital document  copy detection  feature extraction  similarity  
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号