基于分组指纹的细粒度相似性检测系统 |
| |
作者姓名: | 盛鑫海 袁鑫攀 满君丰 涂慧 |
| |
作者单位: | 湖南工业大学 计算机与通信学院,湖南工业大学 计算机与通信学院,湖南工业大学 计算机与通信学院,中南大学 信息科学与工程学院 |
| |
基金项目: | 国家自然科学基金资助项目(61350011, 61402165),湖南省自然科学面上基金资助项目(14JJ2115, 2015JJ3058),湖南省教育厅科技研究基金资助项目(14C0325),湖南工业大学自然科学研究基金资助项目(2014HZX17) |
| |
摘 要: | 在文档相似性检测中,粗粒度会降低准确度,粒度过细又会大幅增加计算时间。针对基金项目相似性检测,在b位Minwise Hash算法的基础上,提出了一种细粒度文档相似性快速检测方法。先对文档进行预处理,提取文档正文,并生成分组指纹特征,再构建细粒度的分组指纹索引结构,利用海明距离来计算文档之间的相似性,以XML文档形式存储并显示相似信息。通过系统的实现,验证了该方法的有效性,且检索效率有所提高。
|
关 键 词: | 分组指纹 细粒度 文档相似性检测 海明距离 |
收稿时间: | 2014-09-25 |
本文献已被 CNKI 等数据库收录! |
| 点击此处可从《湖南工业大学学报》浏览原始摘要信息 |
|
点击此处可从《湖南工业大学学报》下载免费的PDF全文 |
|