基于Scrapy-Redis的分布式爬取当当网图书数据 |
| |
作者姓名: | 胡学军 李嘉诚 |
| |
作者单位: | 上海理工大学机械工程系 |
| |
摘 要: | 单机的网络爬虫爬取数据效率较低,而研究分布式网络爬虫能有效提高数据的爬取效率。文中选择使用上更为简单的Scrapy-Redis框架,设计一个架构模式为主从式的分布式网络爬虫系统,实现对当当网图书信息的爬取;并对布隆过滤器算法进行研究,分析影响其性能的参数,将算法集成到Scrapy-Redis的Scheduler的去重模块中。系统使用一台主机做Master,两台从机做Slave,最终运行1 小时后,抓取图书信息18,000余条。
|
关 键 词: | 网络爬虫 Scrapy框架 Scrapy-Redis框架 布隆过滤器算法 |
|
|