首页 | 本学科首页   官方微博 | 高级检索  
     

基于Simhash的大数据去重改进算法
引用本文:周春晖.基于Simhash的大数据去重改进算法[J].计算机与现代化,2017,0(7):38.
作者姓名:周春晖
摘    要:数据去重是大数据预处理过程中最主要的一个步骤。为了提升大数据去重的效率,以及优化其在较差情况下的表现,本文以中文微博的原始数据为基础,在传统的Simhash方法的基础上,改进计算相似度的公式,将文本重复率纳入考虑,并在检索步骤中采用桶排序的思想,进行多次多级的线程分配以提高效率。实验结果表明,改进后的算法可以显著提升传统算法的效率和准确率。 

关 键 词:微博  大数据  去重  Simhash  多线程  
收稿时间:2017-07-20
点击此处可从《计算机与现代化》浏览原始摘要信息
点击此处可从《计算机与现代化》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号