基于Scrapy的大数据学情分析系统就业岗位数据爬取 |
| |
引用本文: | 汪邦博,胡必波,李满,刘丝雨,刘晓莉.基于Scrapy的大数据学情分析系统就业岗位数据爬取[J].电脑编程技巧与维护,2021(11):92-93,120. |
| |
作者姓名: | 汪邦博 胡必波 李满 刘丝雨 刘晓莉 |
| |
作者单位: | 广州工商学院工学院,广州510850 |
| |
摘 要: | 大数据学情分析系统开发主要涉及构建大数据平台、采集岗位信息、数据存储、数据处理、数据分析、数据可视化、上线部署等关键环节.其中,采集岗位信息环节需要借助Scrapy爬虫框架从招聘网站采集就业岗位数据,配置爬虫数据萃取表达式,对采集到的HTML内容提取出csv格式,数据内容包括岗位、公司、月薪、福利、职位描述、职位要求等.对采集数据进行简单的筛选,保留有价值的信息.在资源条件有限的前提下突破网站的反爬策略实现数据爬取是一个难题,以实现某网站爬虫为具体案例,简要介绍从需求分析、设计方案以及具体技术实现过程,并对爬取过程中页面结构不一致、边界、去重、突破反爬机制等问题进行总结.
|
关 键 词: | 大数据 爬虫 Python语言 Scrapy框架 |
本文献已被 万方数据 等数据库收录! |
|