1.04 Mode, median and mean
mode(众数):
集合中数量出现最多的数,一般用于用于定类变量和定序变量测量
一个集合中可能会有多个众数
median(中位数):
数量为奇数的集合中的元素顺序排列,排在中间的数;
3,3,4,5,6,8,9
以上集合的中位数为5
数量为偶数的集合中的元素顺序排列,排在中间的2个数的和除以2
3,3,4,5,6,8
以上集合的中位数为 (4+5)/2=4.5
mean(平均数):
什么时候用哪种方法来测量集合的集中趋势呢? 根据测量级别
分类变量:
使用mode(众数)
定量变量:
使用median(中位数)或mean(平均数).
如果集合中有影响数值的异常值(特别大或特别小),或者是偏态分布,使用median(中位数)
其他时候用平均数
1.05 Range, interquartile range and box plot
这些指标是用来测量数据离散情况
range(范围误差): 最大值(max) - 最小值(min)
interquartile(四分距): IQR = Q3-Q1
上图是从基础统计学授课视频中截取出来的
其中Q2是集合的中位数,Q1是Q2左边数据集合的中位数,Q3是Q2右边数据集合的中位数
IQR(四分距)的值 = Q3-Q1的值
这里还涉及到异常值的计算,小于某值的数据(特别小的数据),大于某值的数据(特别大的数据)
小值的临界点 Q1 - 1.5*(IQR) , 小于该值的数被当做异常值(统计时忽略)
大值的临界点Q3 + 1.5*(IQR), 大于该值的数被当做异常值(统计时忽略)
box plot(箱型图):
箱型图很好的描述了数据的集中性、离散度以及异常值
- 中间的箱体表示IQR(四分距),箱体中的线表示中位数
- 两边的须表示异常值的上下两端(数据能达到的范围)
- 须的下端为比Q1-1.5IQR大的最小值,上例中位0
- 须的上端为比Q1+1.5IQR小的最大值,上例中位27.7
1.06 Variance and standard deviation(方差和标准差)
Variance(方差):
Standard deviation(标准差): 表示数据与平均值的平均距离
方差和标准差同样是用来测量数据的可变度的,他们数值越大,离散度、变化度就越大。
1.07 Z-scores(Z分数)
某个数与平均数的差有多少个标准差就是这个数的Z分数(Z-scores)
s 为标准差
集合中所有数据的Z-scores之和为0
贝尔曲线(正态)分布图:
上图特征:
- 1个标准差(Z-scores=1)范围内的数值占比68%
- 2个标准差(Z-scores=2)范围内的数值占比95%
- 3个标准差(Z-scores=3)范围内的数值占比99%
若向右倾斜(右侧大量异常数据),或左倾斜(左侧大量异常数据)分布图满足以下特点
- 2个标准差(Z-scores=2)范围内的数值占比至少75%
- 3个标准差(Z-scores=3)范围内的数值占比89%
Z-score是对变量的一种标准化。让我们很容易地观察一个数据是普遍的还是异常的.