排序方式: 共有1条查询结果,搜索用时 0 毫秒
1
1.
在文档相似性检测中,粗粒度会降低准确度,粒度过细又会大幅增加计算时间。针对基金项目相似性检测,在b位Minwise Hash算法的基础上,提出了一种细粒度文档相似性快速检测方法。先对文档进行预处理,提取文档正文,并生成分组指纹特征,再构建细粒度的分组指纹索引结构,利用海明距离来计算文档之间的相似性,以XML文档形式存储并显示相似信息。通过系统的实现,验证了该方法的有效性,且检索效率有所提高。 相似文献
1