一种基于Redis的分布式爬虫系统设计与实现 Design and Implementation of a Distributed Crawler System Based on Redis期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

一种基于Redis的分布式爬虫系统设计与实现

作者单位：	;1.南京航空航天大学金城学院信息工程系

摘要：	随着互联网技术的飞速发展,互联网信息和资源呈指数级爆炸式增长。如何快速有效的从海量的网页信息中获取有价值的信息,用于搜索引擎和科学研究,是一个关键且重要的基础工程。分布式网络爬虫较集中式网络爬虫具有明显的速度与规模优势,能够很好的适应数据的大规模增长,提供高效、快速、稳定的Web数据爬取。本文采用Redis设计实现了一个主从式分布式网络爬虫系统,用于快速、稳定、可拓展地爬取海量的Web资源。系统实现了分布式爬虫的核心框架,可以完成绝大多数Web内容的爬取,并且节点易于拓展,爬取内容可以定制,主从结构使得系统稳定且便于维护。
关键词：	Redis 分布式主从式爬虫系统
Design and Implementation of a Distributed Crawler System Based on Redis

Abstract:

Keywords: