首页 | 本学科首页   官方微博 | 高级检索  
     

分布式Web信息采集系统的研究与设计
引用本文:李盛韬,成绫,余智华.分布式Web信息采集系统的研究与设计[J].计算机工程与应用,2003,39(16):162-166,182.
作者姓名:李盛韬  成绫  余智华
作者单位:中国科学院计算技术研究所软件研究室,北京,100080
基金项目:中科院计算所领域前沿青年基金资助(编号:20016280-8)
摘    要:Web信息的急速膨胀,使得Web信息采集面临一个巨大的挑战。针对这一情况,实现了一个分布式Web信息采集系统,以提高一般Web信息采集的能力。文章论述了分布式信息采集的基本原理、分类、难点以及相应的对策,并就该分布式Web信息采集系统进行了仔细的剖析。最后,对分布式Web信息采集的发展作了一个展望。

关 键 词:信息采集  分布式  搜索引擎信息处理  Web
文章编号:1002-8331-(2003)16-0162-05

Analysis and Design of Distributed Web Crawler
Li,Shengtao Cheng Ling Yu,Zhihua.Analysis and Design of Distributed Web Crawler[J].Computer Engineering and Applications,2003,39(16):162-166,182.
Authors:Li  Shengtao Cheng Ling Yu  Zhihua
Abstract:Great enhancement on the web information brings to web crawler a big challenge.Facing this situation,this paper designs a distributed web crawler in order to improve capability of web crawler.This paper argues the principles,difficulties and measures of the distributed web crawler,and detailedly analyzes the SkyCollect distributed web crawler.Finally,it views the new direction of distributed web crawler.
Keywords:Web Crawler  Web Gathering  Search Engine  Information Processing  Web
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号