首页 | 本学科首页   官方微博 | 高级检索  
     

基于Scrapy框架的分布式网络爬虫的研究与实现
引用本文:匡芳君,华云彬.基于Scrapy框架的分布式网络爬虫的研究与实现[J].智能计算机与应用,2018(5):46-50.
作者姓名:匡芳君  华云彬
作者单位:温州商学院 信息工程学院,浙江 温州,325035
基金项目:国家自然科学基金(61402227)
摘    要:针对网络爬虫开发时面临的攻防、去重和爬取效率等问题,通过着重分析基于Scrapy框架的分布式知乎网络爬虫的工作原理和实现方式以及一些关于分布式运行原理、反爬虫、去重算法、Redis数据库、MongoDB数据库等方面的技术,设计和实现了基于Scrapy框架的分布式网络爬虫.最后通过对该爬虫的对比测试分析,得出了如何提高爬虫的爬取效率和避免网站反爬的应对策略.

关 键 词:网络爬虫  分布式  Scrapy  Redis

Research and implementation of distributed Web crawler based on Scrapy framework
KUANG Fangjun,HUA Yunbin.Research and implementation of distributed Web crawler based on Scrapy framework[J].INTELLIGENT COMPUTER AND APPLICATIONS,2018(5):46-50.
Authors:KUANG Fangjun  HUA Yunbin
Abstract:
Keywords:
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号