你真知道自己加了多少班吗?来来来,用Python分析一下考勤数据就知道了

前段时间给同事做Python爬虫技术分享,为了分享的效果以及听众的兴趣,写了一个爬取考勤数据的小爬虫。内容比较简单,以下做一个梳理:

一、问题分析

先梳理下查询考勤的流程:

  1. 登录公司内网的系统
  2. 切换到考勤查询页面
  3. 根据年份、月份查询对于的考勤数据即可

分析以上流程,主要解决两个核心问题即可:a. 账号登录 b. 找到考勤数据查询的接口

二、解决登录问题

公司的考勤数据、人力系统、会议室等都在同一个系统里面,由于之前已经用Selenium写过抢会议室的脚本,所以登录、验证码等问题算是已经解决了。
但是多想一步,要是每次爬个考勤、调试都要祭出Selenium也有点麻烦的,所以...能不能再优化下呢?
...
当然是有的!

既然可以用Selenium登录,就能得到登录后的cookie。理论上说,只要在cookie的过期时间内都是可以实现免登录的。😄
所以需要实现的工作是:
1、用Selenium模拟登录,登录成功后将cookie保存到本地;
2、抛弃Selenium,用Requests库,带上前面的cookie访问网站即可。然后就能随心所欲爬取数据了。

说干就干,以下是获取登录状态cookie的实现代码:

import time, os, json, requests,sqlite3
from selenium import webdriver
from time import sleep
from lib.mtHelper import MtHelper #自己封装的关于验证码识别、登录等函数
from requests.cookies import RequestsCookieJar

#用selenium登录系统,保存cookie到本地json文件。
def login_savecookie(user, password):
    driver = webdriver.Chrome()
    driver.maximize_window()
    driver.implicitly_wait(5)
    mtHelper = MtHelper(driver)
    driver.get('http://****.com')
    mtHelper.login_auoto(user, password, 15)#之前封装过的登录函数,最多尝试15次验证码识别
    sleep(1)
    dict_cookie = driver.get_cookies()#登录成功后获取当前的cookie
    json_cookie = json.dumps(dict_cookie)
    with open(path + "\cookies.json", "w+") as f:
        f.write(json_cookie)
    driver.quit()

#读取本地json文件获取cookie,用于requests
def parse_cookie():
    jar = RequestsCookieJar()
    with open(path + "\cookies.json", "r") as f:
        json_cookies = json.load(f)
    for cookie in json_cookies:
        jar.set(cookie['name'], cookie['value'])
    return jar

所以从理论上说,在cookie过期时间以内,只用执行一次Selenium登录操作即可。之后的操作直接读取本地的cookie数据,携带它进行request请求即可。这样能大大减少调试、运行的成本。

三、考勤数据查询接口

按照以往的经验,凡是先按F12,观察一下请求的内容再说。
先进入考勤查询系统,调出控制台后,用鼠标点击了一下2018年3月,立马能看到以下请求(没有截图,就手敲了一遍,实际数据做过隐私处理):

#post请求地址:
http://****/EMPL/s/WEBLIB_GP_PAY.ISCRIPT2.FieldFormula.IScript_getPayAbsenceList?MONTHCD=2018-3&EMPLID=111111
#参数:
MONTHCD:2018-3
EMPLID:111111


#返回值(截取部分),Json格式:
"{"code":"success","list_data":
[{"ATT_RESULT_COMMENT":"无请休假","ATT_END_TIME":"19:29:31","ATT_DATE":"2018-03-01","ATT_BGN_TIME":"08:58:40","EMPLID":"111111","DAY_OFWEEK":"星期四","ATT_RESULT":"无异常"},
{"ATT_RESULT_COMMENT":"无请休假","ATT_END_TIME":"18:57:48","ATT_DATE":"2018-03-02","ATT_BGN_TIME":"09:07:43","EMPLID":"111111","DAY_OFWEEK":"星期五","ATT_RESULT":"无异常"}]}"

根据以上内容不难推测,要想获取考勤数据,只需找到该post请求的参数规律即可。至于返回值,明显是按照工作日排序的,只需解析该Json即可得到想要的数据。

请求参数分析:
MONTHCD不用说,肯定是指查询考勤的年月份;至于EMPLID,虽然不知道具体是什么,但该变量名明显是类似员工工号的东西,应该是唯一的。再多尝试了几次,果不其然,它是不变的。
搞定!!!

动手来实现它吧:

#获取某月的考勤数据
#month为需要获取的月份,employeeID为员工工号,jar为cookie数据。也就是上例中从json文件中获取的cookie信息
def request_and_get_json(month = "2018-3", employeeID = "111111", jar = None):
    url = "http://***/EMPLOYEE/EMPL/s/WEBLIB_GP_PAY.ISCRIPT2.FieldFormula.IScript_getPayAbsenceList?MONTHCD=%s&EMPLID=%s" % (month, employeeID)
    print u"正在获取%s的数据!"%month
    response = requests.get(url, cookies = jar)
    text = response.text
    js = json.dumps(text,encoding='utf-8',ensure_ascii=False)
    js = json.loads(js)
    return js

三、数据存储

前面已经找到查询接口的规律了,所以用个循环遍历就能获取任意时间段的考勤数据了。但是仅停留于此是不够的,接下来要考虑下数据存储,只有存储为合理的数据结构后才方便后面的数据分析。

数据存储的方式很多,比如针对少量数据可以存为本地Json、txt、Excel等文件,数据量大也可以考虑数据库。
此处的考勤数据不多,不到1000条。为了便于数据的筛选,以及减少环境搭建成本,采用sqlite3存储。
先使用pip install sqlite3命令安装sqlite3库,接下来就是实现:

#保存数据到数据库
#sql格式:"insert into info(date, week, emplid, beginTime, endTime, comment, result) values ('%s', '%s', '%s', '%s', '%s', '%s', '%s')" % (date, week, emplid, beginTime, endTime, comment, result)
def save_to_db(sql):
    conn = sqlite3.connect(path + '\db\clockData.db')
    cursor = conn.cursor()
    cursor.execute('CREATE TABLE IF NOT EXISTS info (date text(20) primary key, week text(20), emplid text(20), beginTime text(20), endTime text(20), comment text(20), result text(20))')
    cursor.execute(sql)
    cursor.close()
    conn.commit()
    conn.close()

至此,将以上部分串联起来,就能爬取考勤数据了!
下面就看看爬取的成果:


爬取下来的考勤数据

四、数据分析

当然,数据分析这个范畴实在是太大了,在此只做个简单的数据统计(常用的sql查询命令),用于娱乐😜,顺便模仿一波网易云的情怀文案:


考勤数据分析

不说了,我要找老板加薪去!😭😭😭

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,012评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,628评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,653评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,485评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,574评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,590评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,596评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,340评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,794评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,102评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,276评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,940评论 5 339
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,583评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,201评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,441评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,173评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,136评论 2 352

推荐阅读更多精彩内容