变异是统计学存在的基础,而方差和标准差则是衡量变异最常用的两个指标。
方差是在概率论和统计方差衡量随机变量或一组数据时的离散程度的度量,换句化说如果想知道一组数据之间的分散程度的话就可以使用方差来表示。
虽然很多时候好像我们用标准差更多一些,但实际上,方差在各种统计分析方法中更为常见,如方差分析、回归分析等都是利用方差的大小来判断模型是否具有统计学意义的,大多数回归分析都有一个方差分析表。但在统计描述中,仍是标准差更受欢迎,为什么呢?
一、离均差平方和
所谓离均差,其实就是偏离均数之差,也就是每个数值分别与均数相减之差。
而离均差平方和就是对每个差值求其平方然后相加的总和。
离均差是一个表示变异的概念,下图每个箭头表示的距离很清楚地体现了数据的波动情况。
偏离越大,说明数据变异越大。所以想表示变异大小,很自然的想法就是把每个数的偏离均数之差求和,然后看看数值大小。
但由于偏离有正有负,直接相加之和必定为0。因此,在求和之前,先对每个差值求其平方,因为平方后是不影响大小比较的。你可以想象一下,3比2大,那么3的平方肯定也比2的平方大用于比较大小是不影响的。但是离均差平方和有一个缺点,即数据越多,离均差平方和一般也越大。
方差是在概率论和统计方差 衡量随机变量或一组数据时的离散程度的度量,换句化说如果想知道一组数据之间的分散程度的话就可以使用方差来表示。
二、方差
两组数据相同,可以直接比较,但是两组数据量不同,那就不方便比较了。这个时候,我们就可以想到用方差了。
方差用公式表示为:
分子就是离均差平方和,分母是例数。
通过除以例数,方差保证了不同例数之间也可以直接比较变异大小。从数值来看已经没有问题了。
三、标准差
但是从实际角度来看仍有一个问题:方差是一个平方后的值,对于一个指标而言,其平方是没有意义的,如收入的平方是什么意思就很难解释,因此又引出了标准差的概念。
标准差就是对方差求平方根,即
它又叫均方差, 是离均差平方的算数平方根。标准差能体现一个数据集的离散程度,平均数相同的两组数,标准差未必相同。
这样就消除了平方后概念上的混淆。所以在统计描述中,用得更多的是标准差而不是方差。