利用Python爬虫抓取拉勾网职位信息

      最近到了找工作的季节,利用之前学过的Python爬虫的知识抓取拉勾网的招聘信息,顺便检验一下学习效果,并记录一下

1.思路

首先,打开拉勾网,我设置的是北京地区的数据分析的职位信息

接下来需要提取这些职位信息,直接通过查看网页源码无法获取,因为拉勾网利用了异步加载技术,需要借助chrome浏览器的小工具进行分析,按F12即可打开,界面如下


搜索界面

点击Nerwork进入网络分析界面,此时出现的是空白,刷新网页之后,有某个请求发送到了服务器


找到的json

点开上面的json网页之后可以看到有我们需要的信息,因此下一步进行代码部分。

2.代码

代码部分我采用的Scrapy框架编写的爬虫

首先,确定需要获取的职位信息包括什么,这一部分在items.py中编写


items.py

主要部分为爬虫的编写,由于时间有点紧张就不进行详细的分析了,代码如下:


1


2


3

爬取结果保存到了excel中方便查看,数据写入部分的代码在pipelines.py中编写如下,利用python中的openpyxl库:


信息写入
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容