首页 | 本学科首页   官方微博 | 高级检索  
     

基于Shark-Search和Hits算法的主题爬虫研究
引用本文:罗林波,陈绮,吴清秀. 基于Shark-Search和Hits算法的主题爬虫研究[J]. 计算机技术与发展, 2010, 20(11)
作者姓名:罗林波  陈绮  吴清秀
基金项目:海南省自然科学基金资助项目,海南大学科研项目
摘    要:主题爬虫是实现垂直搜索引擎的核心技术.介绍主题爬虫的两个重要爬行算法:基于网页内容评价的Shark-Search算法和基于网页链接关系的Hits算法,并分析了各自的优缺点,提出了一种新的主题爬行策略:将上述两种算法的优点结合起来即将基于网页内容评价和基于网页链接关系算法结合起来判断待下载url的优劣,并实现了一个主题爬虫.这种新策略正好弥补了两个算法各自的不足.通过与Shark-Search算法和Hits算法实现的主题爬虫对比,发现用新算法实现的主题爬虫查准率比这两种算法高.

关 键 词:主题爬虫  爬行策略  垂直搜索引擎

Research on Topical Crawler of Shark-Search Algorithm and Hits Algorithm
LUO Lin-bo,CHEN Qi,WU Qing-xiu. Research on Topical Crawler of Shark-Search Algorithm and Hits Algorithm[J]. Computer Technology and Development, 2010, 20(11)
Authors:LUO Lin-bo  CHEN Qi  WU Qing-xiu
Abstract:
Keywords:
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号