首页 | 本学科首页   官方微博 | 高级检索  
     

基于多SimHash指纹的近似文本检测
引用本文:董博,郑庆华,宋凯磊,田锋,马瑞. 基于多SimHash指纹的近似文本检测[J]. 小型微型计算机系统, 2011, 32(11)
作者姓名:董博  郑庆华  宋凯磊  田锋  马瑞
作者单位:1. 西安交通大学计算机科学与技术系,西安710049;西安交通大学教育部智能网络与网络安全重点实验室与陕西省天地网技术重点实验室,西安710049
2. 西安交通大学教育部智能网络与网络安全重点实验室与陕西省天地网技术重点实验室,西安710049;西安交通大学系统工程研究所,西安710049
基金项目:国家自然科学基金项目(60825202,60803079,60921003,61070072)资助; 国家科技支撑计划项目(2009BAH51B02)资助; “核高基”国家科技重大专项(2010ZX01045-001-005)资助; 长江学者奖励计划项目资助; 新世纪优秀人才支持计划项目(NECT-08-0433)资助; IBM Research China University Relation Program资助
摘    要:近似文本检测已成为当前研究热点.基于SimHash指纹的近似文本检测是主流的检测方法之一.但使用SimHash进行近似文本检测存在如下问题:指纹位数单一,丢失了一定量的信息.针对该问题,为使SimHash指纹尽可能多地代表文档的内容或特征,通过对术语集的统计特征分析,提出基于多SimHash指纹和k维超曲面的近似文本检测算法.实验表明基于多SimHash指纹的近似文本检测算法提高了检测的准确率,而且所增加的时间代价很小.

关 键 词:近似文本检测  SimHash  多SimHash指纹  术语统计

Efficient Near-duplicate Detection Based on Multiple SimHash Fingerprints
DONG Bo , ZHENG Qing-hua , SONG Kai-lei , TIAN Feng , MA Rui. Efficient Near-duplicate Detection Based on Multiple SimHash Fingerprints[J]. Mini-micro Systems, 2011, 32(11)
Authors:DONG Bo    ZHENG Qing-hua    SONG Kai-lei    TIAN Feng    MA Rui
Affiliation:DONG Bo1,2,ZHENG Qing-hua1,SONG Kai-lei1,TIAN Feng2,3,MA Rui1,2 1 2 3
Abstract:Near-duplicate detection has attracted significant attention over the past years.The near-duplicate detection based on SimHash is one of the state-of-the-art algorithms.However,there exists a problem for this method: SimHash maps high-dimensional vectors to small-sized and well formatted(fixed length) fingerprints,which lost a certain amount of information.To solve the problem,this paper firstly introduces the analyses of statistical characteristics of term sets.Then a novel and efficient near-duplicate det...
Keywords:near-duplicate detection  SimHash  multiple SimHash fingerprints  term statistics  
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号