基于Scrapy框架的分布式网络爬虫的研究与实现 Research and implementation of distributed Web crawler based on Scrapy framework期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于Scrapy框架的分布式网络爬虫的研究与实现

引用本文：	匡芳君,华云彬.基于Scrapy框架的分布式网络爬虫的研究与实现[J].智能计算机与应用,2018(5):46-50.

作者姓名：	匡芳君华云彬

作者单位：	温州商学院信息工程学院,浙江温州,325035

基金项目：	国家自然科学基金(61402227)

摘要：	针对网络爬虫开发时面临的攻防、去重和爬取效率等问题,通过着重分析基于Scrapy框架的分布式知乎网络爬虫的工作原理和实现方式以及一些关于分布式运行原理、反爬虫、去重算法、Redis数据库、MongoDB数据库等方面的技术,设计和实现了基于Scrapy框架的分布式网络爬虫.最后通过对该爬虫的对比测试分析,得出了如何提高爬虫的爬取效率和避免网站反爬的应对策略.
关键词：	网络爬虫分布式 Scrapy Redis
Research and implementation of distributed Web crawler based on Scrapy framework

KUANG Fangjun,HUA Yunbin.Research and implementation of distributed Web crawler based on Scrapy framework[J].INTELLIGENT COMPUTER AND APPLICATIONS,2018(5):46-50.

Authors:	KUANG Fangjun HUA Yunbin

Abstract:

Keywords:
本文献已被万方数据等数据库收录！