首页 | 本学科首页   官方微博 | 高级检索  
     

基于GNP算法的分布式爬虫调度策略*
引用本文:刘爽,姜春祥,张伟哲,李东,张鸿. 基于GNP算法的分布式爬虫调度策略*[J]. 计算机应用研究, 2010, 27(2): 446-449. DOI: 10.3969/j.issn.1001-3695.2010.02.011
作者姓名:刘爽  姜春祥  张伟哲  李东  张鸿
作者单位:1. 哈尔滨工业大学,计算机科学与技术学院,哈尔滨,150001
2. 国家计算机网络应急技术处理协调中心,黑龙江分中心,哈尔滨,150001
3. 国家计算机网络应急技术处理协调中心,北京,100029
基金项目:国家“973”重点基础研究发展计划资助项目(G2005CB321806);国家自然科学基金资助项目(60703014);高等学校博士学科点专项科研基金资助课题(20070213044);哈尔滨工业大学优秀青年教师培养计划(HITQNJS.2007.034)
摘    要:针对分布式搜索引擎的任务调度及负载均衡问题,提出了基于GNP算法的分布式爬虫调度策略和负载均衡的方法。利用网络距离预估取代大规模的网络距离测量,不仅提高了系统的响应速度,还减少了系统对广域网造成的压力。通过在广域网上部署爬虫节点,构建分布式搜索引擎,应用该调度策略进行实验,验证了系统性能有较大提高。

关 键 词:分布式爬虫; 任务调度; 负载均衡; 网络测量; 全局网络定位

GNP-based scheduling strategy for distributed crawling
LIU Shuang,JIANG Chun-xiang,ZHANG Wei-zhe,LI Dong,ZHANG Hong. GNP-based scheduling strategy for distributed crawling[J]. Application Research of Computers, 2010, 27(2): 446-449. DOI: 10.3969/j.issn.1001-3695.2010.02.011
Authors:LIU Shuang  JIANG Chun-xiang  ZHANG Wei-zhe  LI Dong  ZHANG Hong
Affiliation:(1.School of Computer Science & Technology, Harbin Institute of Technology, Harbin 150001, China; 2.Heilongjiang Branch of National Computer Network Emergency Response Technical Team/Coordination center of China, Harbin 150001, China; 3.National Computer Network Emergency Response Technical Team/Coordination Center of China, Beijing 100029, China)
Abstract:In order to solve task scheduling and load balancing problems of distributed search engines,this paper proposed a GNP-based scheduling strategy for distributed crawling and a load balancing method.Adopted internet distance estimating mechanism as a replacement for large-scale network distance measurement,which not only improved response time of the system,but also reduced WAN pressure caused by the system.Through deploying crawling nodes at WANs,built a distributed search engine,and implemented several sche...
Keywords:distributed crawling   scheduling strategies   load balancing   network measurement   GNP(global network positioning)
本文献已被 CNKI 万方数据 等数据库收录!
点击此处可从《计算机应用研究》浏览原始摘要信息
点击此处可从《计算机应用研究》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号