在数据分析领域需要用到图表来展示分析结果。
以下是数据分析的基本过程,一般分为5个步骤。
第一步是提出问题。
一切的数据分析都是为了解决工作或生活中遇到的问题,我们一起来看一下数据问题数据分析的生活部门,业务部门遇到的一些问题,支持他们做出决策,进行分析,明确的问题呢,为我们后面的数据分析会提供一个大的方向的内容从哪里来?从整体上数据做好他的喜好是一个道理,毕竟知己知彼才能百战不殆嘛,数据拿到以后呢,并不符合我们数据分析的标准,因为里面有很多脏数据的数据等等,这个时候呢,我们就需要对数据进行整理,喜欢的样子,构建模型,进行分析,来训练模型与将得出的分析结果,用图形的方式展示给你的,所以这里的第5部数据可视化,就是我们这次课程主要讲的内容,如何将这个数据分析结果展示城市和主要内容要求具备可视化和使用PPT制作数据分析报告对非数据分析师的岗位,比如说产品市场运营等等,也会看到。
很多想法需要利用数据和PPT与领导或者用户去沟通,所以我们分三部分来聊一聊。
第一部分 看懂不同类型的图表
1 图表的类型以及面对不同的业务场景如何选择有效的图表来表示出来。
1.1 图表的元素及类型
图表在生活中随处可见,如余额宝的年化收益率随时间变化的图表。
1)人眼的阅读习惯
从图表或幻灯片的左上角开始按“之”字型扫视屏幕或整个页面,最想看到的区域是页面的顶端。所以从设计图表的考虑来讲,需要将最重要的内容放在最左边。如果一个内容很重要,一定不要让用户费很大劲才看到,将其放在页面顶端是最好的选择。在幻灯片中,这些重要的信息可能是文字或者是大的标语,在数据可视化中考虑哪些数据是希望用户最先看到的并考虑以此来调整顺序是否合理。
2)图表中的六种元素
第一个是图表的标题。用于介绍图表的主题。
第二个是横轴或纵轴的标题内容。
第三个是类别名称。
第四个是图例。
用各种符号和颜色代表图形里的不同类别。
第五个是网格线。
方便看到每个元素大概在图形中的哪个部分。
第六个是数据来源。
注明数据的来源以赋予数据可信度。
通常为了精简,图表中不需要全部体现以上六种元素。
图表是指图形加表格。
当需要展示排名前几的产品名称时,用表格会比较方便。
下图中的表格是排名前十的招聘类app。
由表格可知,2018年2月传统综合招聘平台代表智联招聘、前程无忧的app应用活跃指数以较大领先优势居于招聘类app的前两位。虽然boss直聘、猎聘同道、拉勾网主打高端人才招聘以及互联网人才招聘等细分领域,但是在用户规模上仍难以与传统综合平台竞争。
所以从上述表格中可以得出结论,传统综合招聘平台在用户规模上仍然居于领先地位。
使用表格时的注意事项:
表格设计要让设计融入背景,让数据占据核心地位。不要让厚重的边框或阴影与数据争夺用户的注意力。相反,应该使用窄边框或干脆把边框去掉,突出数据本身。
3)四种常见的图形
这四种类型是常用的图形,其他图形基本是由这四种图形演化而来。
i)散点图
使用场景:用于直观的展示两个指标/变量之间的关系。
案例
如想了解学生考试花费的学习时间和他的考试成绩这两个变量是什么关系,如果我们将这个数据集里面的数据放到一个二维表格里,是没办法发现这两个变量之间的关系的。可以把每个学生的数据绘制成点放到图形里面,其中每个点的横坐标值是横轴x上的考试花费时间,点的纵坐标值是纵轴y考试分数。这样的图即散点图。
散点图可以显示出数据之间的相关性,当我们想知道两个指标相互之间有没有关系时,散点图是最好的工具。因为它直观,尤其是大数据量的时候散点图会有更精确的结果。
在机器学习的回归分析中,经常会用到散点图。
ii)折线图
即用线条将相关的数据点连在一起,帮助用肉眼观察随着时间的变化,数据是怎样的变化趋势。
使用场景:对于时间序列的数据,需要用折线图来可视化。
下图是春节期间招聘类app周活跃率保持在稳中有降的状态。
由上图可知,春节后随着“金三银四”等招聘高峰期的临近,招聘类app的周活跃率进入了一个爆发期,用户规模巨大的智联招聘、前程无忧增长最为明显。
iii)柱状图
①堆积柱状图
堆积柱状图不仅能比较各个类别总体的区别,还能同时看出每个类别中子成分的占比情况。但这种图形有一个缺点,是会让用户产生视觉上的压力,因为除了底部的子成分,即紧贴x轴的子成分,很难比较其他的子成分,因为肉眼很难去比较。
②瀑布图
瀑布图也是一种柱状图。它可以用于抽离出堆积柱状图中的一部分重点关注,或者展示起点和结果,以及其中的上升/下降的变化。上图中的瀑布图,就是用于展示过去一年中公司职员总数的变化情况,在图的左侧,可以看到年初的职员总数,从左到右首先可以看到数据的提升,新招聘以及从其他团队转岗过来的职员,之后可以看到数据减少,因为转岗到别的团队或者是离职了。最后一列2代表在年初基础上增减之后的年末志愿总数,所以可以看到年初到年末数据的变化。
③直方图。
对于分类数据这种离散数据,需要查看数据是如何在各个类别之间分布的。这个时候可以使用柱状图,为每个类别画出一只柱子。如果想要查看数据集的分布情况,选择直方图即可。直方图是柱状图的特殊形式,其变量划分的是不同的范围,在不同的范围中统计计数。在直方图中,柱子之间的联系是连续的,连续的柱子暗示数值上的连续。
插入P12
上图中的直方图可以显示出男性身高数据集的分布呈现正态分布,横轴是身高,以5cm为单位,纵轴是每一段5cm各有多少人。
iv)条形图
条形图其实就是将竖着的柱状图翻转90度得到的图形。
上图是移动大数据服务商极光大数据发布的2017年第二季度app榜单显示的前10名的app。与柱状图类似,条形图可以比较一组或多组数据。如果一定要为分类数据选择一种图形,可以优先考虑条形图。因为条形图极易阅读。条形图在类别名称较长的情况下会比较方便,因为其文字是从左到右书写的,与大多数用户的阅读顺序习惯是一致的,这样使得图形非常容易理解。而柱状图在类别名称较长的情况下,没有办法很好的展示。另外因为我们处理信息的方式呢,是从左上角开始,在页面或者屏幕上画一个十字型,我们前面讲过人类的阅读习惯是“之”字形阅读,这刚好是条形图的结构,它是“之”字形,通常会在实际数据之前看到这个类别的名称,即当我们看到数据时,已经了解了它所代表的含义,而非像竖直柱状图需要在数据和类别之间来回切换视线。
条形图还有很多丰富的应用,如堆积条形图。堆积条形图类似于堆积柱状图。堆积条形图也可以展示不同类别间整体或者子成分的比较。如果左右两端有一致的基线,堆积条形图可以用于可视化对一件事情从负面到正面的观点占比,使得比较最左端与最右端的部分变得容易。
上图是对收集的调查问卷数据进行的可视化。
4)由四种基本图形演化的其他图形
i)饼图
饼图是用面积表示数据的占比。
下图是公众号中对不同渠道阅读文章占比的饼图。
但通常需要避免使用饼图,因为人眼不擅长在二维空间进行定量分析,这样子使得饼图很难阅读。当饼图的各部分大小相近时,很难判断哪一块区域更大。如20%和25%在饼图上是难以用肉眼区别的,所有应避免使用饼图。
ii)箱线图
箱线图用于表示数据的描述统计信息,即四分位数。线的上下两端表示数据集的最大值及最小值,箱子的上下两端表示这组数据集中排在前25%和前75%位置的数值,箱子中间的横线表示中位数。如果作为一个互联网电商分析师,想要知道某件商品每天卖出的情况,如用户最多购买了多少件该商品,大部分用户购买了多少,用户最少购买了多少等等。箱线图可以清楚的展示出这几个指标。
下图中的箱线图是对不同工作经验数据分析师的工资比较。横轴是工作年限,纵轴是薪酬。
通过比较数据可以得到,随着年份上升,薪资待遇的增加也较为明显,尤其是3-5年这段,数据分析师提升的跨度极大。另外从现有数据来看,数据分析师似乎是一个常青的职业方向,在10年内大概不会因为年龄增长而导致收入下降,反而会因为业务知识和工作技能的增长而导致工资的上升。
iii)热力图
热力图是由高亮形式来展示数据。
下图是智联招聘app和拉钩app用户在北京的工作地点。
从图中高亮红色的区域可以看到智联招聘app用户在北京的工作地点在全市范围内都有分布,而拉钩网app用户在北京的工作地点更多集中在中关村、上地、望京、国贸等互联网企业密集的区域。
常见的例子是用热力图表示道路交通状况。互联网产品中,热力图也可以用于网站或手机app的用户行为分析,将用户浏览、点击、访问页面居多的位置以高亮的格式化形式展示,从而根据用户观看的行为数据来改善网页或app的设计。
iv)雷达图
雷达图在商务及财务领域有较为广泛的应用。适合在固定的框架内表达某种已知的结果。因为这个图形形似雷达的放射波且具有指引经营航向的作用,所以命名为雷达图。
下图是三个招聘类app用户应用兴趣的雷达图。
由上图可知,猎聘同道app的用户更加偏向客户美容、汽车、健康、家居等应用,对于个人生活品质要求较高。拉钩用户app对母婴应用的兴趣远远低于其他两个app用户,比起孩子,拉钩用户app更关注房产、租房、买房。
v)词云图
词云图是对数据集中出现频率较高的关键词给予视觉上的突出,从而过滤掉大量的文本信息,使得用户在扫过文本的瞬间可以看到哪些频率较高的关键词出现了。
下图是从招聘网站爬取的公司对于数据分析师的技能要求关键词绘制的词云图。
由词云图可知,公司要求最多的技能是excel和SQL,即从事数据分析师岗位的必备技能是SQL和excel。
vi)漏斗图
漏斗图通常用于做用户转化率的可视化。
其中最著名的是硅谷用户增长专家肖恩在其著作《增长黑客——如何低成本实现爆发式成长》中提出的AARRR漏斗模型。这个体系模型不仅适用于互联网行业,也可以应用到面向大众消费者的各个行业帮助业务增长。
这个模型对应的是5个过程。获取用户、激活用户、提高留存、增加收入、病毒传播。在这个漏斗过程中,用户可能会一步一步慢慢流失,剩下的用户实现最终的转化。了解这个模型会对在数据分析的业务面试中分析解决问题起到较大的帮助。
1.2 面对不同的业务场景如何选择有效的图表
下图是数据可视化探索的四个过程。
第一个过程是运用什么样的数据。如运用招聘类app的数据。
第二个过程是想从数据中获取什么信息。即想要分析的问题是什么。如想分析哪个时间用户找工作的需求比较高。
第三个过程是要使用什么样的可视化方法。即选择合适的图表类型来可视化数据分析结果。如想要分析哪个时间用户找工作的需求比较高。因为有时间序列,所以可以选择折线图来看招聘类用户随着时间的变化。这个过程类似确定哪款商品最能够展示对应的特点。
第四个过程是看到的可视化结果是否有意义。即检查该图标是否能表达想要表示的观点。类似于检查商品是否合身。
以上四步是一个反复探索的过程,其中第三步如何选择图表类型可以参考下图,即始终使用用户最容易阅读的图表,而不是高级但用户无法理解的图表。图表的意义是让用户阅读,所以最简单的图表是最好的。
所以尽管图表种类众多,常用的还是5种图表,即表格、散点图、折线图、柱状图及条形图。
下图是每个图形类型的使用情况。
2 设计图表
如何用excel绘制图表以及如何避免图表绘制中的问题。
如果作为一家公司的数据分析师,去年老板开除了一部分员工,现在老板想要制定下一年的招聘需求,老板在考虑是否有必要再次招人并且征求数据分析师的建议。
首先需要了解去年解雇的员工对团队整体生产力有哪些影响。所以绘制了下图中的折线图。
蓝色折线是每个月新增的工单数,红色折线是去年的处理工单数。对比两条折线可知,从7月份解雇人员以后,新增工单数超过了处理工单数,说明人力不足确实导致了团队生产力的下降。现在想要对这个粗糙的图表做修改,以便发给老板。图表中每一个多余的元素都会增加用户的认知负荷,所以需要采用下图中的设计原则来避免制作图表过程中的问题。
1)去掉图形的边框及网格线
这样会使得数据更加突出。
2)去除数据的标记
线条本身可以直观的展示数据,所以数据标记的出现会增加用户的认知负荷。数据标记只在确实需要标记数据的时候使用而不是默认使用。
上图经过处理后,数据显得更加突出。
3)对坐标轴的标签处理
避免使用倾斜的元素。
对于系统自动生成的小数点后仍有0的情况可以去掉尾数以减少数字的复杂度。
4)删掉不必要的图例
作为数据分析师需要识别出任何让用户产生困难的元素的问题。在图例和数据间切换会比较麻烦,因为需要边看图例边在图里找对应的颜色做标记,这种情况可以直接在需要描述的数据旁边做出标记便可直接阅读。
5)保持颜色一致
即对数据标签和所描述的数据使用相同的颜色。这样会让用户意识到是这两部分的信息是相互关联的。
如下图中的新增工单折线及数据标签均使用蓝色,处理工单折线及数据标签均使用红色。
插入P26
6)元素要对齐
用户通常会从页面或屏幕的左上方开始,按“之”字形移动视线来消化图表的信息。所以需要避免使用居中对齐的文字,可以把图表的标题及坐标轴标签按左上角对齐,即用户会先看到有关如何阅读图表的细节文字,然后再去看数据本身。
通过上述6个图表的设计原则,整个图表的可读性有了显著提升。
如何使用excel绘制图表
1)在数据透视表中选中要绘制图形的数据
2)【开始】→【推荐图表】
3)选择【条形图-簇状条形图】
因为比较大是多个城市,属于多个类别,所以选择常用的条形图。
4)在数据旁边生成图形
该图形格式是excel的默认格式,需要对图表进行优化以增加用户可读性。
i)将数据和图表分开至两张工作表中
在数据分析过程中,通常会将数据、数据透视表及图表分别放到三个工作表中进行管理。
步骤:
在图表上单击右键并【剪切】→在底部的工作表区新增工作表并命名为【图表-城市需求】→在新增工作表的第一个单元格中单击右键选择【粘贴】即可粘贴图表
以上步骤可以将数据和图表分开。
上图红框的地方分别为标题和图例。在这些元素上点击鼠标右键选择删除。之所以删除标题和图例是遵循了设计样式与内容分离的原则。图表只需要聚集于数据表达本身,标题可以通过excel的单元格来添加。总之不使用图表自带的元素即可。
上图黄框的位置是“计数项 城市”及城市,是数据透视表自动生成的按钮。在这些元素上点击鼠标右键选择【隐藏图表上的所有字段按钮】即可隐藏这些按钮。在图表的网格线上点击右键可以删除网格线。
下图是去掉图表边框并把图表背景设置为透明的操作。
第一步,在图表上点击右键并选择【设置图表区域格式】
第二步,在弹出的【设置图标区域格式】对话框中选择【无填充】即可将图表背景色设置为透明,选择【无线条】即可去掉图标的边框。
ii)使用图表设计原则对图表进行优化
①对图表进行简化以增强可读性
删掉图表中所有与数据表达无关的元素。
下图将整个北京设置为白色。
白色与任何颜色结合都不会显得突兀。
全选整个新增工作表,并设置填充颜色为白色,即可把整个工作表设置为白色背景。不建议使用白色以外的背景颜色,因为在白色背景下可以较为容易的聚集到数据本身,而深色背景会吸引用户视线,让用户远离数据。
删除图标自带元素并设置背景为白色后,整个图表变得更加清晰。
②对图表的配色进行优化
好的配色决定了图表整体美观的上限,颜色的变化只能说明一点,即变化。所以如果由于某些原因希望受众能够感受到变化可以利用这一点。
通常只需要选择两到三种颜色以及黑白灰三种颜色即可。切忌使用过多颜色模糊重点从而使得用户无法聚焦图表数据本身。
-选择配色方案
配色是比较大的范围且属于设计领域的技能。可以直接借助Adobe Color CC网站选取配色方案。
步骤:
第一步,在引擎中搜索该网站名称即可打开
第二步,点击网站中的【探索】并在出现的搜索框中搜索VTBC
第三步,把鼠标放在该配色方案上点击【编辑副本】以打开【RGB配色值】
第四步,把鼠标放在对应的配色上即可看到该配色的RGB值。之后使用颜色的RGB值,均可使用上述步骤在网站中找到。
-利用配色方案对图表进行颜色配置
第一步,点击图表中的任意条形即可选中全部条形。设置颜色为配色方案中的浅蓝色。
1)选中要修改的颜色区域→点击【开始-背景填充-其他颜色】
2)在【其他颜色-自定义】中输入【配色方案中三个颜色的RGB值】
第二步,在表格最上方插入一行并输入标题。将这一行的行高拉高,并选中标题这一行,将背景颜色设置为配色方案中的深蓝色,将标题的字体颜色设置为白色。
③修改图表中的字体
-字体选择
设置中文字体为【微软雅黑】,英文字体为Arial。
-对齐方式
由于用户通常会按照“之”字形阅读图表,所以需要避免使用居中对齐的文字。将标题及坐标轴标签按左上角对齐即可。
④在图表左下方注明数据来源辅助用户理解
设计的核心思路是通过单元格来完善图表,而图表只专注数据的元素。
5)对数据进行排序以展示预期的数据结论
点击条形图中的任意条形即可选中所有条形→单击右键并选择【排序-升序】→条形图实现了升序排列
由此可以用图形向用户传达分析结论。即从城市来看,全国数据分析人才将近一半的需求产生在一线城市 ,其中北京位居全国第一,排名前5的分别为北京、上海、深圳、广州及杭州。
补充
保存自定义的图表模板。
具体操作——
选中图表并单击右键中的【另存为模板】→在弹出的对话框中定义【模板名称】并保存
使用时仍在插入-推荐图表中选择即可。
3 使用PPT制作数据分析报告
数据分析报告即以文档或PPT的形式将数据分析结果展示给用户。用户可能是老板客户,通过数据分析报告,用户可以快速了解研究问题的基本情况、结论及建议。
1)前期的准备工作
在制作数据分析报告之前需要明确三件事——
i)在跟谁沟通。
深入了解数据分析报告的报告对象可以确保用户能够听懂报告内容。
ii)了解用户希望从报告中得到哪些内容
明确用户想要从数据报告中获取的内容有助于确定报告的整体基调。
iii)如何用数据表达观点
即图表能否展示出数据结论。
明确以上三件事后可以开始制作数据分析报告的内容。
2)怎样确定数据分析报告的内容
确定数据分析报告内容比较好的方式是使用“三分钟故事”及“中心思想”两个概念。这两个概念背后的理念是将沟通和报告提炼成一段话并最终精炼成一句简洁的陈述。“三分钟故事”即如果只有三分钟时间把必要的信息告诉用户会考虑讲什么,这种方式能够确保对所要讲述的内容有清楚的理解。如果能做到这一点,即可以在演讲的时候摆脱对幻灯片或图表的依赖,从而完整的表述结论。“中心思想”即内容进一步精炼为一句话。这句话包括必须能够陈述报告者自身的观点,必须切中要害且是一个完整的句子,类似于麦肯锡30秒电梯理论。
数据分析报告需要通过上述两个概念达到下图的效果。
3)怎样使用PPT制作数据分析报告
i)结构——总分总
总分总结构可以让数据分析报告的结构更加清楚。
总分总的结构即数据分析报告由开篇、正文及结尾组成。数据分析报告开篇的部分包括——报告的题目、分析背景与目的及分析思路。正文包括——具体分析的过程与结果。结尾部分包括结论及建议。
对应到使用PPT制作数据分析报告时,可以在开始的部分放一张目录PPT来告诉用户数据分析报告包括哪几部分。之后的PPT内容按目录顺序对应每一条的幻灯片标题。这样能够让用户了解整个报告是什么,以及每一部分应该期待什么。
下图通过实际案例来查看每一部分数据分析报告怎样去写。该案例Talking Data的招聘类用户人群分析报告。
首先给到用户的第一页是报告的标题页。
接下来是报告的目录。目录里列出了主要章节的名称,使得用户可以对报告一目了然。
第一部分是分析背景与目的。分析背景主要阐述为什么要做这次分析以及有什么意义,分析目的即通过这次分析要解决什么问题以及达到什么目的。这部分还要写出报告的分析思路,清晰的展示数据报告的分析结构,便于用户就自己关心的重点进行阅读。分析思路是指通过哪几方面展开,对应的是数据分析过程的第一步,即分析的问题是什么。
第二部分是分析正文。
首先是用户数量分析。
上图主要介绍各招聘类app的用户活跃数,用于展示哪些招聘app用户使用最多。由上图表格中排名前十的招聘类app可知,传统类招聘平台如智联招聘及前程无忧在用户规模上仍具有领先地位,其用户数量高于垂直招聘类app如拉钩网、boss直聘及猎聘同道。
其次是用户形象分析。
作为不同定位平台的代表,智联招聘、猎聘同道及拉勾网三个app的用户由于定位不同也产生了差异化。智联招聘作为传统招聘平台的代表,用户主要集中在三线城市,用户主要使用oppo和vivo手机;猎聘同道作为中高端人才招聘的代表,用户对家居、美容、汽车及运动等有更多关注;拉勾网作为互联网招聘的代表,用户特征最为明显,主要以一线城市IT从业者为主,日常关注的主要是租房或买房。
然后是用户地域分析。
对比三个招聘app用户,其中智联招聘及猎聘同道app用户更多集中在三线及以下城市,而拉勾网app一线城市用户占比接近40%,所以可以得到的数据结论是找工作需要根据自己所在的城市选择合适的招聘app投递简历。
下图是报告正文的第四部分,即工作地点分析。对比三级app在北京工作地点的分布,从图中高亮部分的区域可以看到,智联招聘app用户在北京的工作地点是在全市分布的,而拉勾网用户的工作地点聚集在互联网密集的区域,如中关村、上地、望京及国贸等。
最后是结论及建议。下图是根据以上分析得到的结论及建议。
由以上分析可以得出的结论是,传统综合招聘平台在用户招聘规模上仍然具有领先地位,拉钩app用户主要集中在一线城市,智联招聘及猎聘同道app用户主要集中在三线及以下城市。
建议是找工作时同时在传统招聘平台智联招聘、前程无忧及细分定位招聘平台拉勾网、boss直聘、猎聘同道上投递简历,可以增加面试机会。其他的建议是一线城市用户找工作时可以更多的关注拉勾网app,二线及三线城市用户可以更多的关注智联招聘及猎聘同道app。
4)使用PPT制作数据分析报告的技巧
i)根据用户使用场景修改PPT大小
如果PPT是在电脑端展示,则需要把PPT改成横屏16:9,即在【设计-幻灯片大小】中选择【宽屏16:9】。如果是用手机端观看,则需要在幻灯片大小中自定义宽度为14.288厘米、高度为24.6厘米,并点击【方向】及【备注、讲义和大纲】中的【纵向选项】。
ii)设置空白PPT
【开始】→【版式】→【空白】即可设置空白PPT,然后再插入文本框编辑内容。
iii)设计PPT的重要原则——简洁及留白
简洁即只呈现能强化数据分析观点的内容,即在任何的视觉框架中都尽量减少各种元素的数量,如形状的数量、线条样式的数量及颜色数量等,通常数量都控制在三个左右。PPT整体颜色的使用要一致,用户通常会花时间熟悉颜色代表的含义,所以不要随意改变颜色的使用,否则会让用户感到困惑。
留白即内容最多只占用61.8%的空间。
iv)使用母版以减少重复操作
用于在每页PPT的固定位置显示公司Logo或其他内容,以统一幻灯片风格。
【视图】→【幻灯片母版】→设置母版内容→【关闭母版视图】
v)统一PPT字体
在PPT中新建一个文本框→右键【设置为默认文本框】
vi)在excel里面绘图并插入PPT
在excel中【选中整张图表】→右键【复制】→ 在PPT中单击右键选择【粘贴-图片】即可把图表作为图片复制进PPT中。
vii)PPT的结尾设计
PPT结尾通常用于宣告结论或建议。
viii)PPT演示的演讲者视图
PPT只是用于演示是提示下一个话题的工具,而不是演讲稿。不要在演示时阅读每一页PPT。
在PPT【幻灯片放映】中勾选【使用演讲者视图】可以看到除本页之外的PPT页面。