基于Scrapy-Redis的分布式爬取当当网图书数据期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于Scrapy-Redis的分布式爬取当当网图书数据

作者姓名：	胡学军李嘉诚

作者单位：	上海理工大学机械工程系

摘要：	单机的网络爬虫爬取数据效率较低，而研究分布式网络爬虫能有效提高数据的爬取效率。文中选择使用上更为简单的Scrapy-Redis框架，设计一个架构模式为主从式的分布式网络爬虫系统，实现对当当网图书信息的爬取；并对布隆过滤器算法进行研究，分析影响其性能的参数，将算法集成到Scrapy-Redis的Scheduler的去重模块中。系统使用一台主机做Master，两台从机做Slave，最终运行1 小时后，抓取图书信息18,000余条。
关键词：	网络爬虫 Scrapy框架 Scrapy-Redis框架布隆过滤器算法