首页 | 本学科首页   官方微博 | 高级检索  
     

分布式多主题网络爬虫系统的研究与实现
引用本文:白鹤,汤迪斌,王劲林.分布式多主题网络爬虫系统的研究与实现[J].计算机工程,2009,35(19):13-16,1.
作者姓名:白鹤  汤迪斌  王劲林
作者单位:1. 中国科学院研究生院,北京,100039;中国科学院声学研究所国家网络新媒体工程技术研究中心,北京,100190
2. 中国科学院声学研究所国家网络新媒体工程技术研究中心,北京,100190
基金项目:国家"863"计划基金资助项目"融合型旅游在线服务业务的研究" 
摘    要:提出一种基于数据抽取器的分布式爬虫架构。该架构采用基于分类标注的多主题策略,解决同一爬虫系统内多主题自适应兼容的问题。介绍二级加权任务分割算法,解决基于目标导向、负载均衡的URL分配问题,增强系统可扩展性。给出基于Trie树的URL存储策略的改进方法,可以高效地支持URL查询、插入和重复性检测。

关 键 词:网络爬虫  多主题  分布式
修稿时间: 

Research and Implementation of Distributed and Multi-topic Web Crawler System
BAI He,TANG Di-bin,WANG Jin-lin.Research and Implementation of Distributed and Multi-topic Web Crawler System[J].Computer Engineering,2009,35(19):13-16,1.
Authors:BAI He  TANG Di-bin  WANG Jin-lin
Affiliation:(1. Graduate University of Chinese Academy of Sciences, Beijing 100039; 2. National Network New Media Technology Engineering Center, Institute of Acoustics, Chinese Academy of Sciences, Beijing 100190)
Abstract:This paper proposes an architecture of distributed Web crawler system based on data-trapper. It implements a multi-topic schema based on classics-label, so that one crawler can contain different topics adaptively and designs a two-tiered weighted task partition algorithm that realizes target-guided URL configuration based on Agents’ load while providing better dynamic scalability. It improves URL storage with Trie tree, which efficiently supports URL search, insertion and repetition judgment.
Keywords:Web crawler  multi-topic  distributed
本文献已被 维普 万方数据 等数据库收录!
点击此处可从《计算机工程》浏览原始摘要信息
点击此处可从《计算机工程》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号