首页 | 本学科首页   官方微博 | 高级检索  
     

一种基于Kademlia的全分布式爬虫集群方法
引用本文:黄志敏,曾学文,陈君.一种基于Kademlia的全分布式爬虫集群方法[J].计算机科学,2014,41(3):124-128.
作者姓名:黄志敏  曾学文  陈君
作者单位:中国科学院大学 北京100049;中国科学院声学研究所国家网络新媒体工程技术研究中心 北京100190;中国科学院声学研究所国家网络新媒体工程技术研究中心 北京100190
基金项目:本文受863重大项目课题:融合网络业务体系的开发(2011AA01A102),中科院先导专项课题:海端交互数据实时处理(XDA6030500),国家科技支撑计划课题:支持增强型搜索的重点新闻网站三屏融合服务(2011BAH11B05)资助
摘    要:针对将海量爬虫节点组织成全分布式爬虫集群所遇到的高效、均衡、可靠、可拓展等问题,提出了一种基于Kademlia的全分布式爬虫集群方法。该方法通过改进的Kademlia技术建立起爬虫节点间的底层通信机制。在此基础上,根据Kademlia的异或特性及节点的可用资源情况,设计并实现具有任务划分、异常处理、节点加入退出处理及负载均衡的全分布式爬虫集群模型。在实际网络系统上的实验结果表明,该方法能有效利用海量弱计算终端的计算、存储和带宽资源,构建高效、均衡、可靠、可大规模拓展的全分布式爬虫集群。

关 键 词:Kademlia  分布式爬虫  弱计算终端  海量节点  结构化PP
收稿时间:5/6/2013 12:00:00 AM
修稿时间:9/2/2013 12:00:00 AM

Method for Fully Distributed Crawler Cluster Based on Kademlia
HUANG Zhi-ming,ZENG Xue-weng and CHENG Jun.Method for Fully Distributed Crawler Cluster Based on Kademlia[J].Computer Science,2014,41(3):124-128.
Authors:HUANG Zhi-ming  ZENG Xue-weng and CHENG Jun
Affiliation:Graduate University,Chinese Academy of Sciences,Beijing 100049,China;National Network New Media Engineering Research Center,Institute of Acoustics,Chinese Academy of Sciences,Beijing 100190,China;National Network New Media Engineering Research Center,Institute of Acoustics,Chinese Academy of Sciences,Beijing 100190,China
Abstract:
Keywords:Kademlia  Distributed crawler  Weak computing terminal  Massive nodes  Structured P2P
本文献已被 CNKI 等数据库收录!
点击此处可从《计算机科学》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号