首页 | 本学科首页   官方微博 | 高级检索  
     

基于分组指纹的细粒度相似性检测系统
作者姓名:盛鑫海  袁鑫攀  满君丰  涂慧
作者单位:湖南工业大学 计算机与通信学院,湖南工业大学 计算机与通信学院,湖南工业大学 计算机与通信学院,中南大学 信息科学与工程学院
基金项目:国家自然科学基金资助项目(61350011, 61402165),湖南省自然科学面上基金资助项目(14JJ2115, 2015JJ3058),湖南省教育厅科技研究基金资助项目(14C0325),湖南工业大学自然科学研究基金资助项目(2014HZX17)
摘    要:在文档相似性检测中,粗粒度会降低准确度,粒度过细又会大幅增加计算时间。针对基金项目相似性检测,在b位Minwise Hash算法的基础上,提出了一种细粒度文档相似性快速检测方法。先对文档进行预处理,提取文档正文,并生成分组指纹特征,再构建细粒度的分组指纹索引结构,利用海明距离来计算文档之间的相似性,以XML文档形式存储并显示相似信息。通过系统的实现,验证了该方法的有效性,且检索效率有所提高。

关 键 词:分组指纹  细粒度  文档相似性检测  海明距离
收稿时间:2014-09-25
本文献已被 CNKI 等数据库收录!
点击此处可从《湖南工业大学学报》浏览原始摘要信息
点击此处可从《湖南工业大学学报》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号