首页 | 本学科首页   官方微博 | 高级检索  
     

基于Timed-PageRank的聚焦爬虫优化研究
引用本文:李东,王虎强. 基于Timed-PageRank的聚焦爬虫优化研究[J]. 四川兵工学报, 2015, 0(1): 141-144
作者姓名:李东  王虎强
作者单位:装甲兵工程学院信息工程系
摘    要:传统的基于PageRank算法的网络爬虫在抓取网页时由于只考虑了网页的超链接,势必会使爬虫结果覆盖面广、冗余度高,聚焦爬虫由于其可以有效地过滤与主题无关的链接,只保留有用的链接并将其加入到待抓取的URL队列,因此能够有效地降低爬虫冗余;在分析PageRank算法的基础上,将网页的时间维数和页面的内容相关度融于其中,提出了基于Timed-PageRank的改进算法,并将该算法应用于聚焦爬虫过程中,实践证明该算法能够有效地提高爬虫页面相关度及检索结果的查全率和查准率。

关 键 词:传统网络爬虫  PageRank算法  聚焦爬虫  Timed-PageRank改进算法

Optimization Research on Focused Crawler Based on Improved Timed-PageRank Algorithm
LI Dong;WANG Hu-qiang. Optimization Research on Focused Crawler Based on Improved Timed-PageRank Algorithm[J]. , 2015, 0(1): 141-144
Authors:LI Dong  WANG Hu-qiang
Affiliation:LI Dong;WANG Hu-qiang;Department of Information Engineering,Academy of Armored Forces Engineering;
Abstract:
Keywords:
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号