《商务统计学》戴维-莱文
翻开书的一瞬间秒懂,这是我一直想要找的统计学书藉。
他不但讲知识,重要的是,站在整个数据工作流程上,给出一套完整的框架,给所有的知识点找到了安放的位置。
符合我们面对工具、知识的一般理解逻辑:是什么?怎么用?为什么虽然重要,但却不是当下最重要的。
在此之前已经看了好几本统计学相关的知识,知识点大概都知道了,但仍然不知道怎么用,有什么用,仿佛空有内力,但没有招式一般,与人切磋仍然只会蛮干。
什么是统计学?
统计学是一种思维方式,包含一系列处理数据的方法,能帮助我们判断事件的发生、数据的差异是偶然的,还是具有显著意义的,以便更好的做出决策。
如何更好的理解统计学这种思维方式?
通过一个框架将统计学的各种任务组织起来。
一个框架(DCOVA)
- 定义(Define)解决问题所需研究的变量,这些变量有助于解决问题或实现目标。
- 从适当的数据源收集(Collect)数据。
- 创建表格对收集到的数据进行整理(Organize)。
- 创建图形使整理出来的数据更加可视化(Visualize)。
- 分析(Analyse)数据得出结论并进行演示。
在使用DCOVA之前,需要先定义问题,确定一个研究目的是定义问题结束的标志。
在DCOVA中,首先需要完成DC获取有意义的结果,OVA的执行顺序则不固定,根据实际需要执行。
如何定义问题?
如何定义变量?
-
那什么叫变量?
有助于分辨个人或事物的特征。
-
数据的定义是什么?
与变量相关的各个值的集合。
-
如何定义变量?
对每个感兴趣的问题,需要提供可操作的定义,即对所有与分析相关的人而言该定义是明显普遍接受的含义。
为此,需要先划分变量类型:
-
属性变量(定性变量)
分类的不同类型。
-
数值变量(定量变量)
通过计数或测量所得到的值。
- 离散变量:计数所得。
- 连续变量:测量所得。注意,测量单位与精确程度是连续变量的可操作定义的一部分。
-
收集数据需要注意什么?
-
注意区分数据来源
数据来源可分为原始数据来源(一手)和二手数据来源。
-
辨别收集的数据是来自总体还是样本
分析一个总体的数据时,需要计算参数。
分析来自样本的数据时,需要计算统计量。
数据可能是结构化数据和非结构化数据
同样的数据可能是不同的电子格式,或不同的编码方式
-
数据清理
异常值,对于属性变量是未定义的值,对于数值变量是不可能值。
缺失值,由于某种原因无法收集到的值。
-
重新编码数据
可能需要考虑将属性变量的类别重新划分,或将数值变量划分为分组转化为属性变量。
特别注意,为新的变量提供可操作定义,每个数据的值只能被分配到一个类别,即互斥,且新产变量应包含所有的数据,即完备。
抽样方法类别
抽样框
概率样本
凡有可能都应该使用概率样本,唯有概率样本才可以对总体进行统计推断。
简单随机样本、系统样本、分层样本、聚类样本。
非概率样本
便利样本、判断样本。
调查误差的类型
调查是收集数据的主要方式之一。要识别调查的客观性/可信度。
1.评价调查目的:为什么进行调查?调查为谁而做?
2.调查是基于概率样本还是非概率样本?
3.即使使用概率样本,调查也可能存在潜在误差
- 覆盖面误差(导致选择性偏差)
- 无回复误差(或低回复率)
- 抽样误差
- 测量误差
如何整理数据?
-
整理性属性变量
将值按不同类别计数、计算百分比。
总结表、列联表
-
整理数值变量
有序数组、频数分布、频率分布、百分比分布、累积百分比分布
如何可视化数据?
用什么图形进行可视化,取决于我们的目的。
-
属性变量可视化
- 条形图,各类别之间进行比较。
- 饼图,观察各类别在总体中的占比。
- 帕累托图,当数据主要集中在少数几个类别中时。
- 对比条形图,对两个属性(变量)进行比较时。
-
数值变量可视化
-
单个数值变量
茎叶图。
直方图,X轴数值变量,Y轴观测值的频数/频率。
百分比多边形图,X轴为组中值、Y轴为百分比。
累积百分比多边形图,X轴为组下限,Y轴为百分比。
-
两个值变量
- 时间序列图
- 散点图
-
-
一组变量的整理和可视化
- 多维列联表
- 数据发现:向下钻取、树状图
准奏构造图表的恰当做法
1.使用简单图形;
2.包含标题;
3.标明所有的轴;
4.如果图表包含轴,每个轴标明刻度;
5.纵轴从0开始;
6.使用固定比例尺;
7.不使用3D特效;
8.不使用花哨图表。