首页 | 本学科首页   官方微博 | 高级检索  
     

基于分组指纹的细粒度相似性检测系统
引用本文:盛鑫海,袁鑫攀,满君丰,涂 慧. 基于分组指纹的细粒度相似性检测系统[J]. 湖南工业大学学报, 2014, 28(6): 81-85
作者姓名:盛鑫海  袁鑫攀  满君丰  涂 慧
作者单位:湖南工业大学 计算机与通信学院,湖南工业大学 计算机与通信学院,湖南工业大学 计算机与通信学院,中南大学 信息科学与工程学院
基金项目:国家自然科学基金资助项目(61350011, 61402165),湖南省自然科学面上基金资助项目(14JJ2115, 2015JJ3058),湖南省教育厅科技研究基金资助项目(14C0325),湖南工业大学自然科学研究基金资助项目(2014HZX17)
摘    要:在文档相似性检测中,粗粒度会降低准确度,粒度过细又会大幅增加计算时间。针对基金项目相似性检测,在b位Minwise Hash算法的基础上,提出了一种细粒度文档相似性快速检测方法。先对文档进行预处理,提取文档正文,并生成分组指纹特征,再构建细粒度的分组指纹索引结构,利用海明距离来计算文档之间的相似性,以XML文档形式存储并显示相似信息。通过系统的实现,验证了该方法的有效性,且检索效率有所提高。

关 键 词:分组指纹  细粒度  文档相似性检测  海明距离
收稿时间:2014-09-25

The Fine-Grained Similarity Detection System Based on Grouping Fingerprint
Sheng Xinhai,Yuan Xinpan,Man Junfeng and Tu Hui. The Fine-Grained Similarity Detection System Based on Grouping Fingerprint[J]. Journal of Hnnnan University of Technology, 2014, 28(6): 81-85
Authors:Sheng Xinhai  Yuan Xinpan  Man Junfeng  Tu Hui
Affiliation:Sheng Xinhai;Yuan Xinpan;Man Junfeng;Tu Hui;School of Computer and Communication,Hunan University of Technology;School of Information Science and Engineering,Central South University;
Abstract:In document similarity detection, coarse grain will reduce the accuracy and too small particle size will increase the computation time. Proposes a quick document similarity detection method based on b-bit Minwise Hash. Firstly extracts the document text to generate a grouping fingerprint features; Then establishes the index structure of fine-grained grouping fingerprint; Finally computes the resemblance of document part by Hamming distance, and stores and displays the evidence of similarity by XML document format. Through system practice, verifies the effectiveness of the method and increases the efficiency of retrieval.
Keywords:
本文献已被 CNKI 等数据库收录!
点击此处可从《湖南工业大学学报》浏览原始摘要信息
点击此处可从《湖南工业大学学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号