深入浅出统计学(三)分散性与变异性的量度

强大的“距”

平均值擅长寻找数据集典型值,但不能说明一切。
接下来将分析各种“距”和“差”

平均数反映了一部分信息,但是无法知道数据的变动情况。实际案例中经常也有平均数相等的情况出现。
比如球员得分,我们可以观察球员得分相对于平均数的分散情况,来区分各个数据集。
如何度量这些分布情况?

全距

也叫极差, 使用数据集中的最大数减去最小数
最大数叫上界
最小数叫下界
如果有个别极大极小的异常值,会极大的影响全距值。

四分位距

四分位数的计算类似中位数,不同之处在于需要求出将数据一分为四的三个数字,而不是求出将数据一分为二的一个数字。
最小的四分位数被称为下四分位数或者第一四分位数。最大的四分位数称为上四分位数第三四分位数。中间的就是中位数
四分位距 = 上四分位数 - 下四分位数
可以剔除异常值
例如: 3 3 6 7 7 10 10 10 11 13 30
下四:6, 中位:10, 上四:11

百分位距

百分位数: 第k百分位,就是位于数据k%范围处的数值,常用Pk表示。
下四就是P25, 中位是P50, 上四是P75.
百分位距不常用。但是百分位数在划分名次,以及排名中特别有用

求百分位数

  • 数值升序排列
  • 求出n个数字第k百分位数的位置,先计算 k(n/100)
  • 结果若为整数,则取k(n/100) 以及 k(n/100) + 1两个位置上数字的平均值,得出百分位数
  • 若不是整数,则向上取整,结果即为百分位数位置(例如,结果若为6.3,则7就是百分位数位置)

箱线图(箱型图)

专门用来显示各种各样的距。显示各种距以及四分位数的简明办法。
箱线图显示数据的全距、四分位距、以及中位数。
是对不同数据集进行比较的极好方法。

箱线图


全距与四分位距:他能告诉你最大值与最小值的差距,却无法告诉你最大值与最小值的频率,然而这些值在某些场合十分有用。如何更精确的度量变异性?


方差 & 标准差

方差&标准差计算变异性。
方差有平方,标准差算是对平方的修正。
某种意义上标准差更直观,粗略的体现了平均情况下的数值与均值的距离。


图片发自简书App

标准分

标准分表示距离均值的标准差的个数。
Z=(X-X_bar)/S
式中,X为原始分数,X_bar为原始分的平均数,S为原始分的标准差。
标准分会被用于异常检测: 通常我们会用主观来判断异常值,但是有时候会把异常值定义为偏离均值三个标准差的数值。但是统计学家对此尚有分歧,请小心对待

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容