首页 | 本学科首页   官方微博 | 高级检索  
     

基于优先级队列的分布式多主题爬虫
引用本文:范珊珊,李石君.基于优先级队列的分布式多主题爬虫[J].计算机工程与设计,2015(6).
作者姓名:范珊珊  李石君
作者单位:武汉大学计算机学院,湖北武汉,430072
摘    要:在分布式环境中,为提高资源利用率和网页抓取效率,提出一种基于优先级队列的分布式多主题爬虫调度算法PQ‐MCSA。利用基于缓存的扩展式哈希算法对整体任务集进行切割,按照URL逻辑二级节点哈希映射法,将分割后的子任务集均匀地分配到各处理节点中;利用单处理节点的计算能力结合构建的任务优先级队列进行不同主题任务的调度。该算法改善了传统分布式爬虫对单节点的处理资源调度不充分、多主题任务爬取不均匀等缺点。实际项目的应用结果表明,使用该方法能够有效地提高各主题爬取结果的均衡度,具有较强的实用性。

关 键 词:哈希算法  优先级队列  均衡  多主题  任务调度

Distributed multi-topic Web craw ler based on priority queue
FAN Shan-shan,LI Shi-jun.Distributed multi-topic Web craw ler based on priority queue[J].Computer Engineering and Design,2015(6).
Authors:FAN Shan-shan  LI Shi-jun
Abstract:
Keywords:hashing algorithm  priority queue  balance  multi-topic  task scheduling
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号