前言
最近松懈了,花了很多时间在玩游戏看视频上,把学习计划耽搁了,总说要自律,但光说不做是没用的,最主要是自控能力太差了,得承认自己和大多数人一样,爱玩、不愿意迈出舒适区,“知行合一”,只四个字,大道至简,却超过99%的人都做不到。在前进的路上,希望自己能克服惰性,提升自控力,按计划耐心学习并践行。
1、数据分析步骤:
提出问题→理解数据→数据清洗→构建模型→数据可视化
2、实践案例:
利用一份招聘网站的数据作为实战案例。
第一步提出问题:
1)在哪些城市找到数据分师工作的机会比较大?
2)数据分师的薪水如何?
3)根据工作经验的不同,薪酬是怎样变化的?
第二步理解数据:
初始数据有6875条,14项内容。
设置表格列宽(步骤如下图),显示全部内容,方便后续操作,最后保存。
第三步清洗数据:
这一步需要花费的时间占大部分,把数据处理成自己想要的样子。
1、选择子集:选择公司全名和公司ID两列并隐藏(取消隐藏方法:全选表格→开始→格式→隐藏和取消隐藏→取消隐藏列)
2、列名重命名:双击列名可以修改成自己想要的列名。
3、删除重复值:选择职位ID将其重复值删除(步骤如下图)
4、缺失值处理:选择职位ID列计数5032,选择城市列计数5030,城市列缺失两个数据。
查找并定位城市列的缺失值(步骤如下图),缺失值填上海。
缺失值处理的4种方法,根据情况灵活使用:
1)通过人工手动补全;
2)删除缺失的数据;
3)用平均值代替缺失值;
4)用统计模型计算出的值去代替缺失值。
5、一致化处理:对“公司所属领域”进行一致化处理(步骤如下图)
将原来的“公司所属领域”列隐藏,并将复制的列进行分列:
6、数据排序:
7、异常值处理:
第四步构建模型
第五步数据可视化
通过上面的分析,我们可以得到的以下分析结论有:
1)数据分析这一岗位,有大量的工作机会集中在北上广深以及新一线城市,如果你将来去这些城市找工作,可以提高你成功的条件概率。
2)从待遇上看,数据分析师留在深圳发展是个不错的选择,其次是北京、上海。
3)数据分析是个年轻的职业方向,大量的工作经验需求集中在1-3年。
对于数据分析师来说,5年似乎是个瓶颈期,如果在5年之内没有提升自己的能力,大概以后的竞争压力会比较大。
4)随着经验的提升,数据分析师的薪酬也在不断提高,10年以上工作经验的人,能获得相当丰厚的薪酬。
3、划重点:
1)分列功能会覆盖掉右列单元格,所以我们记得先要复制这一列到最后一个空白列的地方,再进行分列操作。
2)上面图片中的函数:IF(COUNT(FIND({"数据运营","数据分析","分析师"},L2)),"是","否")。
3)Ctrl+Eneter快捷键,在不连续的单元格中同时输入同一个数据或公式时很好用。
4)精确查找和近似查找(模糊查找)的区别
(1)精确查找是指从第一行开始往最后一行逐个查找。一找到匹配项就停止查询,所以返回找到的第一个值。
(2)当你要近似查找的时候,它就会苦逼地查遍所有的数据,返回的是最后一个匹配到的值。
5)在使用vlookup函数时,在很多情况下使用的是精确匹配,而在进行分组时需要用模糊匹配,所以这里要输入“1”来进行模糊匹配。
6)Excel设置了快捷键F4帮助用户迅速切换相对引用、绝对引用和混合引用,步骤如下:
(1)选定包含该公式的单元格;
(2)在编辑栏中选择要更改的公式内容,并按 F4 键;
(3)以引用单元格A1为例,每次按 F4 键时,Excel会依次在以下组合间切换:
按一次F4是绝对引用
按两次、三次F4是混合引用
按四次F4是相对引用
7)使用这个函数过程中,如果出现错误标识“#N/A”,一般是3个原因导致:
(1)第2个参数:查找范围里第一列的值必须是要查找的值。
比如这个案例里第2个参数选定的的范围里第一列是姓名,是要查找值的列。
(2)数据存在空格,此时可以嵌套使用TRIM函数将空格批量删除。
(3)数据类型或格式不一致,此时将数据类型或格式转为一致即可。