基于Simhash的大数据去重改进算法 |
| |
引用本文: | 周春晖.基于Simhash的大数据去重改进算法[J].计算机与现代化,2017,0(7):38. |
| |
作者姓名: | 周春晖 |
| |
摘 要: | 数据去重是大数据预处理过程中最主要的一个步骤。为了提升大数据去重的效率,以及优化其在较差情况下的表现,本文以中文微博的原始数据为基础,在传统的Simhash方法的基础上,改进计算相似度的公式,将文本重复率纳入考虑,并在检索步骤中采用桶排序的思想,进行多次多级的线程分配以提高效率。实验结果表明,改进后的算法可以显著提升传统算法的效率和准确率。
|
关 键 词: | 微博 大数据 去重 Simhash 多线程 |
收稿时间: | 2017-07-20 |
|
| 点击此处可从《计算机与现代化》浏览原始摘要信息 |
|
点击此处可从《计算机与现代化》下载全文 |
|