强大的“距”
平均值擅长寻找数据集典型值,但不能说明一切。
接下来将分析各种“距”和“差”。
平均数反映了一部分信息,但是无法知道数据的变动情况。实际案例中经常也有平均数相等的情况出现。
比如球员得分,我们可以观察球员得分相对于平均数的分散情况,来区分各个数据集。
如何度量这些分布情况?
全距
也叫极差, 使用数据集中的最大数减去最小数
最大数叫上界
最小数叫下界
如果有个别极大极小的异常值,会极大的影响全距值。
四分位距
四分位数的计算类似中位数,不同之处在于需要求出将数据一分为四的三个数字,而不是求出将数据一分为二的一个数字。
最小的四分位数被称为下四分位数或者第一四分位数。最大的四分位数称为上四分位数或第三四分位数。中间的就是中位数。
四分位距 = 上四分位数 - 下四分位数
可以剔除异常值
例如: 3 3 6 7 7 10 10 10 11 13 30
下四:6, 中位:10, 上四:11
百分位距
百分位数: 第k百分位,就是位于数据k%范围处的数值,常用Pk表示。
下四就是P25, 中位是P50, 上四是P75.
百分位距不常用。但是百分位数在划分名次,以及排名中特别有用
求百分位数
- 数值升序排列
- 求出n个数字第k百分位数的位置,先计算 k(n/100)
- 结果若为整数,则取k(n/100) 以及 k(n/100) + 1两个位置上数字的平均值,得出百分位数
- 若不是整数,则向上取整,结果即为百分位数位置(例如,结果若为6.3,则7就是百分位数位置)
箱线图(箱型图)
专门用来显示各种各样的距。显示各种距以及四分位数的简明办法。
箱线图显示数据的全距、四分位距、以及中位数。
是对不同数据集进行比较的极好方法。
全距与四分位距:他能告诉你最大值与最小值的差距,却无法告诉你最大值与最小值的频率,然而这些值在某些场合十分有用。如何更精确的度量变异性?
方差 & 标准差
方差&标准差计算变异性。
方差有平方,标准差算是对平方的修正。
某种意义上标准差更直观,粗略的体现了平均情况下的数值与均值的距离。
标准分
标准分表示距离均值的标准差的个数。
Z=(X-X_bar)/S
式中,X为原始分数,X_bar为原始分的平均数,S为原始分的标准差。
标准分会被用于异常检测: 通常我们会用主观来判断异常值,但是有时候会把异常值定义为偏离均值三个标准差的数值。但是统计学家对此尚有分歧,请小心对待。