目标确定
马上就要进入招聘季啦,各大公司和众多求职者都已“蓄势待发”。
我个人也得充分准备下争取拿到个好工作啦
所以对于求职这方面信息就是爬虫的重要目标。
爬取的数据
我个人偏向于对公司信息的了解,这个公司的综合评分啊、环境啊、氛围啊、面试经验啊都需要了解一番,做到心里有谱才好。
对应的网站
1.看准网 (重点)
2.企业口碑网
要爬取的url
筛选的规则
初步是这样规划的
1.首先,得到公司的基本信息,包括公司名称、地点、企业类别、公司规模等
2.其次,筛选出公司的综合评分、平均月薪等待遇
3.再深入探究一点,就是筛选出该公司目前有“数据”、“分析”相关的职位,将职位信息爬取出来
4.在面试一栏中,筛选出有“数据”、“分析”主题的面试信息,包括评论者给公司和面试过程打的标签、评论的文本信息等,后期会主要处理文本信息,得到关键字样。
大体要爬取的内容是这些,而筛选规则在每一条中或多或少涉及到,后续涉及到具体的操作时会有更具体的筛选规则。