首页 | 本学科首页   官方微博 | 高级检索  
     

基于Python的三种网络爬虫技术研究
作者姓名:杨健  陈伟
作者单位:诸暨市公安局
摘    要:针对网络爬虫技术选型较多,影响抓取效率和准确性的问题,对基于Python语言的Requests、Scrapy和Selenium三种主流爬虫技术进行分析。首先,安装配置开发环境,完成单线程和多线程爬虫软件开发;其次,爬取“站长之家”网站10页、100页、500页和1,000页简历数据,计算爬取时间;最后,通过爬取“中国裁判文书网”中的数据验证突破反爬虫机制的能力。实验结果表明,Requests爬虫使用一行代码就能实现数据爬取,开发定制灵活;Scrapy爬虫技术平均每页的抓取时间为0.02 s,并发性能突出;Selenium爬虫技术破解网站反爬虫机制能力强。因此,开发网络爬虫技术要综合考虑业务需求和技术特点,只有这样,才能达到最佳的数据抓取效果。

关 键 词:网络爬虫  Requests技术  Scrapy技术  Selenium技术
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号