首页 | 本学科首页   官方微博 | 高级检索  
     

一种优化的网络爬虫的设计与实现
作者单位:广州大学计算机科学与教育软件学院,广州大学实验中心
摘    要:网络爬虫是搜索引擎的重要组成部分,它在搜索引擎中负责网络信息的采集。详细介绍了Web_Crawler,一种优化的网络爬虫的设计和实现,包括系统框架、主要模块、多线程工作和数据缓冲池的转存技术。Web-Crawler主要从多线程并行下载提高了速度,并利用数据缓冲池转存技术在实现快速检索的同时减少了存储空间需求这两方面来优化网络爬虫。

关 键 词:搜索引擎  信息采集  网络爬虫  数据缓冲池

Design and Implementation of a optimized Web-Crawler
Authors:CAO Zhong  ZHAO Wen-jing
Affiliation:CAO Zhong1,ZHAO Wen-jing2
Abstract:Web-Crawler is a important part of search engine,it is responsible for the network information gathering.The paper introduce the design and implement of a optimized Web-Crawler.It include the frame,Main module, multi-thread work and the data buffer pool Shift memory technology. Web-Crawler depends Multi-thread parallel downloading enhanced the speed,and uses the data buffer pool Shift memory technology to realize Fast retrieval and Reduced the storage space demand.
Keywords:search engine  information gathering  web-crawler  data buffer pool
本文献已被 CNKI 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号