转自Lilac'Blog-谁说菜鸟不会数据分析
最近阅读了《谁说菜鸟不会数据分析》一书,作为一本入门级的数据分析书,该书将数据分析相关的基本概念、流程、方法论等内容采用对话的方式通俗易懂地介绍开来,非常适合对数据分析感兴趣,却又不知该从何入手的新手,可以在阅读完此书后就书中内容做进一步的深入研究。
第1章 数据分析那些事儿
三字经
学习:先了解,后深入;先记录,后记忆;先理论,后实践;先模仿,后创新;
方法:先思路,后方法;先框架,后细化;先方法,后工具;先思考,后动手;
分析:先业务,后数据;先假设,后验证;先总体,后局部;先总结,后建议。
数据分析简介
数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。
数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结地过程。
数据分析类型 | 级别 | 分析方法 |
---|---|---|
描述性数据分析 | 初级数据分析 | 对比分析法、平均分析法、交叉分析法 |
探索性数据分析 | 高级数据分析 | 相关分析、回归分析、因子分析 |
验证性数据分析 | 高级数据分析 | 相关分析、回归分析、因子分析 |
数据分析作用 | 含义 | 形式 |
---|---|---|
现状分析 | 过去发生了什么,现在处于什么状态 | 日常通报,如日报、周报、月报等 |
原因分析 | 解释为什么会出现某一现状 | 专题分析 |
预测分析 | 预测将来会出现什么 | 专题分析 |
数据分析步骤
数据分析步骤:明确数据分析目的和思路、收集数据、处理数据、分析数据、展现数据、撰写报告/指导实践
- 明确数据分析思路:即如何开展数据分析、该从哪几个方面进行分析、该采取哪些数据分析指标,应采用体系化的数据分析框架
- 构建体系化的数据分析框架:以营销、管理等理论为指导,结合实际业务情况,搭建分析框架,这样才能确保数据分析维度的完整性,分析结果的有效性和正确性。营销方面的理论模型有4P、用户使用行为、STP理论、SWOT等;管理方面的理论模型有PEST、5W2H、时间管理、生命周期、逻辑树、金字塔、SMART原则等
- 数据来源:数据库、公开出版物、互联网、市场调查
- 数据处理:数据清洗、数据转化、数据提取、数据计算
- 数据挖掘:指从大量数据中挖掘出有用的信息,可看作一种高级的数据分析方法,侧重解决四类数据分析问题:分类、聚类、关联和预测,重点在寻找模式和规律
- 数据展现:在展现数据结果时需要确保绝大部分人的理解是一致的
数据分析三大误区
- 分析目的不明确,为了分析而分析
- 缺乏业务知识,分析结果偏离实际
- 一味追求使用高级分析方法,热衷研究模型
常用指标和术语
指标 | 含义 |
---|---|
平均数 | 定义:全部数据相加后除以数据个数 特点:将总体内各单位的数量差异抽象化,代表总体的一般水平,掩盖了总体内各单位的差异 |
绝对数与相对数 | 绝对数是反映客观现象总体在一定时间、地点条件下的总规模、总水平的综合性指标 相对数是指由两个有联系的指标对比计算而得到的数值,用以反映客观现象之间数量联系程度的综合指标 |
百分比与百分点 | 百分比是相对数的一种,表示一个数是另一个数的百分之几 百分点是指不同时期以百分数的形式表示的相对指标变动幅度 |
频数与频率 | 频数是指一组数据中个别数据重复出现的次数 频率是某一类别出现次数与总次数的比值,表示某类别在总体中出现的频繁程度 |
比例与比率 | 比例是指在总体中各部分的数值占全部数值的比重,通常反映总体的构成和结构 比率是指不同类别数值的对比,它反映的不是部分与整体之间的关系, 而是一个整体中各部分之间的关系,如男:女=3:2 |
倍数与番数 | 倍数是一个数除以另一个数所得的商 番数是指原来数量的2的N次方,如翻一番表示为原来数量的2倍,翻两番表示为原来数量的4倍 |
同比与环比 | 同比是指与历史同时期进行比较得到的数值,主要反映事物发展的相对情况 环比是指与前一个统计期进行比较得到的数值,主要反映的是事物逐期发展的情况 |
第2章 结构为王—确定分析思路
数据分析方法论
数据分析方法论与数据分析法的区别
数据分析方法论主要从宏观角度指导如何进行数据分析
数据分析方法表示具体的分析方法,如对比分析、交叉分析等,主要从微观角度指导如何进行数据分析
数据分析方法论的作用:
- 理顺分析思路,确保分析结构体系化;
- 把问题分解成相关联的部分,并显示它们之间的关系;
- 为后续数据分析的开展指引方向;
- 确保分析结果的有效性及正确性。
常用的数据分析方法论
数据分析方法论是一套从宏观角度提供数据分析思路,指导数据分析实践的框架,通常采用营销、管理等方面的理论模型,以尽量确保数据分析维度的完整性、结论的准确性和有效性。
常见的数据分析方法论有:
- 营销方面的理论模型:STP理论、4Ps营销理论、4Cs营销理论、用户行为分析、SWOT分析、PEST分析、波特五力分析等;
- 管理方面的理论模型:5W2H理论、时间管理、生命周期管理、逻辑树、金字塔原理、SMART原则等;
- 数据分析方面的理论模型:OMTM模型、AARRR模型等。
常见方法论应用场景:
- 4P主要用于公司整体经营状况分析;
- 用户行为理论主要用于用户行为分析;
- STP主要用于确定产品的市场定位;
- SWOT主要用于企业战略制定、竞争对手分析等;
- PEST主要用于行业分析;
- 5W2H应用范围非常广泛,可用于用户行为分析、业务问题专题分析等;
- 时间管理主要用于对时间进行规划和管理;
- 生命周期管理主要用于产品分析和规划;
- 金字塔原理主要用于分析报告的组织;
- 逻辑树可用于业务问题专题分析;
- SMART主要用于目标管理。
第3章 无米难为巧妇—数据准备
数据表设计要求:
- 数据表由标题行和数据部分组成;
- 第一行是表的列标题(字段),列标题不能重复;
- 第二行起是数据部分,数据部分的每一行数据是一条记录,数据部分不能出现空白行/空白列;
- 数据表中不能包含合并单元格;
- 数据表和其他数据之间应留出至少一个空白行/空白列;
- 数据表应该以一维表的形式存储。
第4章 三心二意—数据处理
数据处理步骤:
- 数据清洗:将多余重复的数据筛选、清除,将缺失的数据补充完整,将错误的数据纠正/删除;
- 数据加工:对清洗后的数据进行提取、计算、分组、转换等操作,使之成为能加以分析的数据表。
第5章 工欲善其事必先利其器—数据分析
数据分析作用 | 基本方法 | 数据分析方法 |
---|---|---|
现状分析 | 对比 | 对比分析、平均分析、综合评价分析 |
原因分析 | 细分 | 分组分析、结构分析、交叉分析、杜邦分析、漏斗图分析、关联矩阵分析、聚类分析 |
预测分析 | 预测 | 回归分析、时间序列分析、决策树、神经网络 |
数据分析方法
对比分析法
定义:将两个或两个以上数据进行比较,分析他们的差异,从而揭示这些差异所代表的事物发展变化情况和规律性
特点:可以非常直观地看出事物某方面的变化或差距,并且可以准确、量化地表示变化或差距的大小
分类:
- 横向对比:在同一时间条件下对不同指标进行对比,如不同国家、地区、产品间的对比等;
- 纵向对比:在同一指标条件下对不同时期的指标数值进行对比,如同比、环比等。
实践运用:
- 与目标对比:实际完成值与目标对比,横向对比
- 不同时期对比:同比、环比,纵向对比
- 同级部门、单位、地区对比:横向对比
- 行业内对比:与行业内的标杆企业、竞争对手或行业平均水平进行对比,横向对比
- 活动效果对比:对某项营销活动开展前后进行对比,纵向对比
注意事项:用于对比的指标的统计范围、计算方法、计量单位必须一致;对比的对象需具备可比性;对比的指标类型必须一致。
分组分析法
分组的目的是为了便于对比,把总体中具有不同性质的对象区分开,把性质相同的对象合并在一起,保持各组内对象属性的一致性,组与组间对象属性的差异性,以便进一步运用各种数据分析方法来解构内在的数量关系,因此分组法必须和对比法结合使用。分组分析法的关键在于确定组数与组距。
结构分析法
结构分析法是指被分析总体内的各部分与总体之间进行对比的分析方法,即总体内各部分占总体的比例,属于相对指标。
平均分析法
运用计算平均数的方法来反映总体在一定时间、地点条件下某一数量特征的一般水平。
平均指标包含算术平均数、几何平均数、调和平均数、中位数和众数。
作用:
1、利用平均指标对比同类现象在不同地区、行业、类型单位等之间的差异程度,比用总量指标对比更具说服力;
2、利用平均指标对比某些现象在不同历史时期的变化,更能说明其发展趋势和规律。
交叉分析法
交叉分析法通常用于分析两个(或以上)变量(字段)间的关系,即同时将有一定联系的变量及其值交叉排列在一张表内,使各变量值成为不同变量的交叉结点,形成交叉表,从而分析交叉表中变量之间的关系,也叫交叉表分析法。
综合评价分析法
基本思想:将多个指标转化为一个能够反映综合情况的指标来进行分析评价的方法
步骤:
1、确定综合评价指标体系,即包含哪些指标,是综合评价分析法的基础和依据;
2、收集数据,并对采用不同计量单位的数据进行标准化处理;
3、确定指标体系中各指标的权重,以保证评价的科学性;
4、对经处理后的指标进行汇总,计算出综合评价指数或综合评价得分;
5、根据综合评价指数/分值对参评单位进行排序,从而得出结论。
特点:
1、评价过程不是逐个指标顺次完成,而是通过一些特殊方法将多个指标的评价同时完成;
2、在综合评价过程中,一般要根据指标的重要性进行加权处理;
3、评价结果不再是具有具体含义的统计指标,而以指数或分值表示参评单位综合状况的排序。
数据标准化:将数据按比例缩放,是之落入一个小的特定区间。在比较和评价某些指标时,经常会用到数据的标准化,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权,常用0-1标准化和Z标准化。0-1标准化也叫离差标准化,就是对原始数据做线性变换,使结果落到[0,1]区间。
指标权重确定方法:专家访谈法、德尔菲法、层次分析法、主成分分析法、因子分析法、回归分析法、目标优化矩阵表等。
杜邦分析法
杜邦分析法是由美国杜邦公司创造的一种综合分析方法,又称杜邦财务分析体系,简称杜邦体系。它是利用各主要财务指标间的内在联系,对企业财务状况及经济效益进行综合分析的方法。该体系以净资产收益率为龙头,以总资产收益率和权益乘数为核心,重点揭示企业盈利能力及权益乘数对净资产收益率的影响,以及各相关指标间的相互影响关系。
特点:将若干个用以评价企业经营效率和财务状况的比率按其内在联系采用金字塔结构有机地结合起来,形成一个完整的指标体系,并最终通过权益收益率来综合反映。
漏斗图分析法
漏斗图是一个适合业务流程比较规范、周期比较长、各流程环节涉及复杂业务过程比较多的管理分析工具
通过漏斗图可以很快发现业务流程中存在问题的环节
矩阵关联分析法
矩阵分析法是指根据事物(如产品、服务)的两个重要属性(指标)作为分析的依据,进行分类关联分析,找出问题的一种分析方法,也称矩阵关联分析法/矩阵分析法。
高级数据分析方法
研究方向 | 数据分析方法 |
---|---|
产品研究 | 相关分析、对应分析、判别分析、结合分析、多维尺度分析等 |
品牌研究 | 相关分析、聚类分析、判别分析、因子分析、对应分析、多维尺度分析等 |
价格研究 | 相关分析、PSM价格分析等 |
市场细分 | 聚类分析、判别分析、因子分析、对应分析、多维尺度分析、Logistic回归分析、决策树等 |
满意度研究 | 相关分析、回归分析、主成分分析、因子分析、结构方程等 |
用户研究 | 相关分析、聚类分析、判别分析、因子分析、对应分析、Logistic回归分析、决策树、关联规则等 |
预测决策 | 回归分析、决策树、神经网络、时间序列分析、Logistic回归分析等 |
第6章 给数据量体裁衣—数据展现
图表制作步骤:确定所有表达的主题或目的;确定哪种图表最适合你的目的;选择数据制作图表;检查是否真实有效地展示数据;检查是否表达了你的观点。
图表类型:
- 柱形图、簇状柱形图、堆积柱形图、百分比堆积柱形图
- 条形图、簇状条形图、堆积条形图、百分比堆积条形图
- 折线图、堆积折线图、百分比堆积折线图
- 饼图、子母饼图、复合饼图
- 表格、直方图、散点图、气泡图
- 排列图、箱形图、圆环图、帕累托图、漏斗图、旋风图、雷达图、树状图、旭日图、瀑布图、平均线图、双坐标图、竖形折线图
要表达的数据和信息 | 建议采用的图形 |
---|---|
成分--整体的一部分 | 饼图、堆积柱形图、堆积条形图、瀑布图、复合饼图 |
排序--数据做比较 | 柱形图、条形图、气泡图、帕累托图 |
时间序列--趋势 | 柱形图、折线图 |
频率分布--数据频次 | 柱形图、条形图、折线图 |
相关性--数据间关系 | 簇状柱形图、旋风图、关联矩阵图、散点图 |
多重数据比较 | 雷达图 |
第7章 专业化生存—图表可以更美的
图表美化原则:
- 简约、整洁(将相关内容放在一起)、对比(字体大小、粗细,颜色明暗、深浅,构图分散、前后)
- 尽量减少和弱化非数据元素,增强和突出数据元素
- 数字和英文字体建议采用Arial
图表类型 | 制作注意事项 |
---|---|
所有图表 | 避免制作无意义的图表;尽量包含标题、图例、单位、脚注、资料来源等图表元素;不要在一张图表中包含过多信息,最好一张图表只反映一个观点;选择最恰当的图表,而非最炫酷的图表;选择能反映图表意图的一句话标题;一般用虚线表示预测值。 |
柱形图 | 同一数据序列使用相同的颜色;不要使用倾斜的标签,当项目名称(横坐标标签文字)过长时,可考虑采用条形图代替;纵坐标轴一般刻度从0开始;一般来说,柱形图最好添加数据标签,方便阅读;若柱形图已有数据标签,则可删除网格线和坐标轴刻度线。 |
条形图 | 同一数据序列使用相同的颜色;尽量让数据从大到小排列,方便阅读;不要使用倾斜的标签;最好添加数据标签,方便阅读;若柱形图已有数据标签,则可删除网格线和坐标轴刻度线。 |
饼图 | 饼图应按照时钟表盘的刻度,将数据从12点钟的位置开始排列,最重要的成分紧靠12点钟的位置;数据项不要太多,保持在5项以内,数据项超出5项时,考虑采用复合饼图;尽量不要使用饼图分离;饼图不要使用图例,而是将数据标注在饼图上方或旁边;尽量不要使用标签连线,若要使用,则应避免凌乱;尽量不要使用3D效果,若要使用,则应薄一些;当扇区使用颜色填充时,推荐使用白色分割线,具有较好的切割感。 |
折线图 | 折线选用的线型要相对粗些,最好比网格线、坐标轴等更突出;线条一般不超过5条,若线条太多,可考虑分开制作图表;不要使用倾斜的标签;纵坐标轴一般刻度从0开始。 |
色彩