转贴:https://www.cnblogs.com/hgz-dm/p/10886155.html
最近又遇到了t分布及t检验方面的内容,发现有些地方自己当初没有很明白,就又查了些资料,加深了一下自己的理解,这里也将自己的一些理解记录下来。
1. 理论基础——大数定理与中心极限定理
在正式介绍t分布前,还是再强调一下数理统计学中的两大基石般的定理:大数定理与中心极限定理,后面会用到。这里我就不以数学公式的方式来说明了,直接说一下两个定理所表达的意思。
大数定理:
不管是强大数定理还是弱大数定理,都表达着这样一个意思:当样本数量足够大时,这些样本的均值无限接近总体的期望。
中心极限定理:
不管样本总体服从什么分布,当样本数量足够大时,样本的均值以正态分布的形式围绕总体均值波动。中心极限定理的表达方式可以有多种,我这里只是其中一种。
2. t 统计量
t 统计量是英国化学家、数学家、统计学家 William Sealy Gosset提出的,当年他在爱尔兰的吉尼斯酒厂(这个酒厂还有个很牛的事儿,它的老板编著了现今著名的《吉尼斯世界纪录》)工作时,酒厂禁止其将研究成果公开发表,以免泄露秘密,迫不得已William Sealy Gosset以笔名“The Student”发表研究成果,t统计量及t分布的命名就是源于改笔名。
大麦是酿造啤酒的主要原料,因此酒厂就希望大麦产量越高越好,于是就不断改进大麦种植工艺,此时就需要做试验来比较不同工艺下大麦的产量,但是实际条件不允许(或者为了减轻工作负担)大面积种植麦子来比较工艺的优劣,因此试验田种植是比较合适的方式。比如现在有两片试验田(如下图所示),左边的是采用工艺A种植的麦子,右边的是采用工艺B种植的麦子,两边各种100株麦子。下面我要开始编故事啦。。。
现在发现左边麦田中平均每株麦穗上有100粒麦子,右边麦田中平均每株麦穗上有120粒麦子,这说明啥?说明采用工艺B能得到更高的麦子产量对不?咱们外行可能会这么看,但是人家专业的可不轻易这么认为。这是采用小面积的试验田种出的麦子,一个是量少,不足以说明问题(想想咱们的大数定理),另一个是无法保证除工艺区别外其它因素都一样。因此,William Sealy Gosset就想,这20粒麦子的差值能不能说明工艺的优劣问题呢?
William Sealy Gosset知道,每株麦穗上的平均麦子数是有波动的,可能这一次种的麦子平均值是100,下一次就不一定了,可能就是105,也可能是95。那可以这样考虑啊,这20的差值是不是在工艺A下麦子平均产量的正常波动范围内?样本均值的波动可以用样本均值的标准差表示,注意:这里说的是样本均值的标准差,而不是样本的标准差,基于这种想法可以构造这样一个统计量
来评估工艺的优劣,其中
是工艺A下每株麦穗上结的麦子数。
是工艺B下每株麦穗上结的麦子数。
是工艺A下每株麦穗上结的麦子数平均值的标准差。好了,到了这里故事也编得差不多了,t 统计量的由来也差不多就这样了,下面咱们严谨的定义一下 t 统计量,分两种情况,一种是单总体情况,另一种是双总体情况。
-
单总体情况。这种情况下 t 统计量的定义为: