首页 | 本学科首页   官方微博 | 高级检索  
     

新型分布式Web Spider的设计
引用本文:何绍荣,鲜乾坤.新型分布式Web Spider的设计[J].计算机工程与应用,2011,47(16):80-82.
作者姓名:何绍荣  鲜乾坤
作者单位:四川理工学院 计算机学院,四川 自贡 643000
基金项目:四川省科技厅重点项目,四川省教育厅科研基金,四川省教育厅青年基金
摘    要:针对日益突出的网页访问问题,设计了一种新型分布式Web Spider。该分布式Web Spider采用中央控制节点来协调各个web spider的行为,利用宽度优先搜索来获得高质量的网页,通过对DNS缓存来提高访问web server的速度,以增加并行线程数量的方式来增加网页下载速度,并能动态地加入web spider节点和子中央控制节点,具有很强的灵活性和扩张能力。实验结果表明该分布式Web Spider作为搜索引擎的前端能够快速有效地下载网页,具有较好的性能。

关 键 词:中央控制节点  宽度优先搜索  线程  搜索引擎  
修稿时间: 

Design of new distributed web spider
HE Shaorong,XIAN Qiankun.Design of new distributed web spider[J].Computer Engineering and Applications,2011,47(16):80-82.
Authors:HE Shaorong  XIAN Qiankun
Affiliation:School of Computer Science,Sichuan University of Science & Engineering,Zigong,Sichuan 643000,China
Abstract:For the increasingly prominent web access problems,a New Distributed Web Spider(NDWS) is proposed.NDWS uses central control node to coordinate actions of all web spiders,employs breadth-first search to obtain high-quality web pages,caches DNS to improve speed of access to web server,increases number of concurrent threads to increase download speed of web pages.NDWS also can dynamically add web spider node and sub-central-control-node so that NDWS has strong flexibility and expansion capability.Experimental results show that as a front-end of search engine,NDWS can quickly and efficiently download web pages,and has better performance.
Keywords:central control node  breadth-first search  thread  search engine
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《计算机工程与应用》浏览原始摘要信息
点击此处可从《计算机工程与应用》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号