最近到了找工作的季节,利用之前学过的Python爬虫的知识抓取拉勾网的招聘信息,顺便检验一下学习效果,并记录一下
1.思路
首先,打开拉勾网,我设置的是北京地区的数据分析的职位信息
接下来需要提取这些职位信息,直接通过查看网页源码无法获取,因为拉勾网利用了异步加载技术,需要借助chrome浏览器的小工具进行分析,按F12即可打开,界面如下
点击Nerwork进入网络分析界面,此时出现的是空白,刷新网页之后,有某个请求发送到了服务器
点开上面的json网页之后可以看到有我们需要的信息,因此下一步进行代码部分。
2.代码
代码部分我采用的Scrapy框架编写的爬虫
首先,确定需要获取的职位信息包括什么,这一部分在items.py中编写
主要部分为爬虫的编写,由于时间有点紧张就不进行详细的分析了,代码如下:
爬取结果保存到了excel中方便查看,数据写入部分的代码在pipelines.py中编写如下,利用python中的openpyxl库: