基于Scrapy的大数据学情分析系统就业岗位数据爬取期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于Scrapy的大数据学情分析系统就业岗位数据爬取

引用本文：	汪邦博,胡必波,李满,刘丝雨,刘晓莉.基于Scrapy的大数据学情分析系统就业岗位数据爬取[J].电脑编程技巧与维护,2021(11):92-93,120.

作者姓名：	汪邦博胡必波李满刘丝雨刘晓莉

作者单位：	广州工商学院工学院,广州510850

摘要：	大数据学情分析系统开发主要涉及构建大数据平台、采集岗位信息、数据存储、数据处理、数据分析、数据可视化、上线部署等关键环节.其中,采集岗位信息环节需要借助Scrapy爬虫框架从招聘网站采集就业岗位数据,配置爬虫数据萃取表达式,对采集到的HTML内容提取出csv格式,数据内容包括岗位、公司、月薪、福利、职位描述、职位要求等.对采集数据进行简单的筛选,保留有价值的信息.在资源条件有限的前提下突破网站的反爬策略实现数据爬取是一个难题,以实现某网站爬虫为具体案例,简要介绍从需求分析、设计方案以及具体技术实现过程,并对爬取过程中页面结构不一致、边界、去重、突破反爬机制等问题进行总结.
关键词：	大数据爬虫 Python语言 Scrapy框架
本文献已被万方数据等数据库收录！