首页 | 本学科首页   官方微博 | 高级检索  
     

面向文本拷贝检测的分布式索引
引用本文:张玥,俞昊旻,张奇,黄萱菁.面向文本拷贝检测的分布式索引[J].中文信息学报,2011,25(1):91-98.
作者姓名:张玥  俞昊旻  张奇  黄萱菁
作者单位:复旦大学 计算机科学技术学院,上海 201203
基金项目:国家自然科学基金资助项目(61073069,61003092); 国家高技术研究发展计划(863计划)资助项目(2009AA01A346)
摘    要:如何对大规模文档集进行高效的拷贝检测是长期以来一直受到研究者们关注的问题。通常的拷贝检测算法都需要借助倒排索引。因此良好的索引结构对于算法性能至关重要。同时,随着文档集规模的增大,单机实现的索引已经不能满足拷贝检测的需求,需要引入分布式存储的索引。为了适应文档集规模的不断增大,良好的分布式索引应该同时具备较高的效率和可扩展性。为此该文比较了两种不同的分布式索引结构,Term-Split 索引和Doc-Split 索引,并且给出了Map-Reduce范式下建立这两种索引的实现,以及以这两种索引为基础的文本拷贝检测方法,Term-Split 方法和Doc-Split方法。在WT10G文档集上进行的实验表明Doc-Split 方法具有更好的效率和可扩展性。

关 键 词:拷贝检测  重复检测  Map-Reduce  

Distributed Index for Near Duplicate Detection
ZHANG Yue,YU Haomin,ZHANG Qi,HUANG Xuanjing.Distributed Index for Near Duplicate Detection[J].Journal of Chinese Information Processing,2011,25(1):91-98.
Authors:ZHANG Yue  YU Haomin  ZHANG Qi  HUANG Xuanjing
Affiliation:ZHANG Yue,YU Haomin,ZHANG Qi,HUANG Xuanjing(Fudan University,School of Computer Science and Technology,Shanghai 201203,China)
Abstract:How to effectively detect near duplicate documents on large corpus is a hot topic in recent years.Usually,near duplicate detection algorithms use Inverted Index to improve their efficiency.However,as the corpus size increases,single machine implementation of index structure is intractable.Therefore Distributed Index structure is required for near duplicate detection.To process rapidly increasing data size,the distributed index structures should have both high efficiency and scalability.In this paper,we comp...
Keywords:near duplicate detection  copy detection  Map-Reduce  
本文献已被 CNKI 万方数据 等数据库收录!
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号