首页 | 本学科首页   官方微博 | 高级检索  
     

基于Scrapy-Redis的分布式爬取当当网图书数据
作者姓名:胡学军  李嘉诚
作者单位:上海理工大学机械工程系
摘    要:单机的网络爬虫爬取数据效率较低,而研究分布式网络爬虫能有效提高数据的爬取效率。文中选择使用上更为简单的Scrapy-Redis框架,设计一个架构模式为主从式的分布式网络爬虫系统,实现对当当网图书信息的爬取;并对布隆过滤器算法进行研究,分析影响其性能的参数,将算法集成到Scrapy-Redis的Scheduler的去重模块中。系统使用一台主机做Master,两台从机做Slave,最终运行1 小时后,抓取图书信息18,000余条。

关 键 词:网络爬虫  Scrapy框架  Scrapy-Redis框架  布隆过滤器算法
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号