基于Python的三种网络爬虫技术研究期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于Python的三种网络爬虫技术研究

作者姓名：	杨健陈伟

作者单位：	诸暨市公安局

摘要：	针对网络爬虫技术选型较多，影响抓取效率和准确性的问题，对基于Python语言的Requests、Scrapy和Selenium三种主流爬虫技术进行分析。首先，安装配置开发环境，完成单线程和多线程爬虫软件开发；其次，爬取“站长之家”网站10页、100页、500页和1,000页简历数据，计算爬取时间；最后，通过爬取“中国裁判文书网”中的数据验证突破反爬虫机制的能力。实验结果表明，Requests爬虫使用一行代码就能实现数据爬取，开发定制灵活；Scrapy爬虫技术平均每页的抓取时间为0.02 s，并发性能突出；Selenium爬虫技术破解网站反爬虫机制能力强。因此，开发网络爬虫技术要综合考虑业务需求和技术特点，只有这样，才能达到最佳的数据抓取效果。
关键词：	网络爬虫 Requests技术 Scrapy技术 Selenium技术