首页 | 本学科首页   官方微博 | 高级检索  
     

基于文本相似度的网页消重策略
引用本文:刘书一.基于文本相似度的网页消重策略[J].计算机应用与软件,2011,28(11).
作者姓名:刘书一
作者单位:江苏科技大学南徐学院 江苏镇江212013
摘    要:针对在网页检索结果中经常出现内容相同或相似的问题,提出了一种通过计算网页相似度的方法进行网页消重。该算法通过提取网页特征串,特征串的提取在参考以往特征码提取的基础上,加入了文本结构特征的提取,通过比较特征串之间差异性的基础上得到网页的相似度。经与相似方法比较,结果表明,该方法减少了时间复杂度,具有较高的查全率和查准率,适于大规模网页消重。

关 键 词:网页消重  网页特征码  文本相似度  编辑距离  

STRATEGY OF ELIMINATING DUPLICATED WEB PAGES BASED ON TEXT SIMILARITY
Liu Shuyi.STRATEGY OF ELIMINATING DUPLICATED WEB PAGES BASED ON TEXT SIMILARITY[J].Computer Applications and Software,2011,28(11).
Authors:Liu Shuyi
Affiliation:Liu Shuyi (College of Nanxu,Jiangsu University of Science and Technology,Zhenjiang 212013,Jiangsu,China)
Abstract:In order to solve the problems of identical or similar contents frequently occur in web pages retrieval,a method of eliminating duplicated web pages by calculating the similarity of the web pages was put forward.This algorithm uses the extraction of feature string of the web pages.Such extraction of feature string is based on previous feature code extraction as the reference and is combined with the extraction of text structural features.By comparing differences between the feature strings the similarities ...
Keywords:Elimination of duplicated web pages  Web page feature code  Text similarity  Editing distance  
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号