首页 | 本学科首页   官方微博 | 高级检索  
     

基于网页正文结构和特征串的相似网页去重算法
作者姓名:熊忠阳  牙漫  张玉芳
作者单位:重庆大学 计算机学院,重庆 400044
摘    要:为了减少重复网页对用户的干扰,提高去重效率,提出一种新的大规模网页去重算法。首先利用预定义网页标签值建立网页正文结构树,实现了层次计算指纹相似度;其次,提取网页中高频标点字符所在句子中的首尾汉字作为特征码;最后,利用Bloom Filter算法对获取的特征指纹进行网页相似度判别。实验表明,该算法将召回率提高到了90%以上,时间复杂度降低到了O(n)。

关 键 词:网页去重  网页标签值  高频标点  特征码  网页指纹相似度  
收稿时间:2012-08-20
修稿时间:2012-09-14
本文献已被 万方数据 等数据库收录!
点击此处可从《计算机应用》浏览原始摘要信息
点击此处可从《计算机应用》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号