1. 部分略去
- 一直到“独立样本的 t 检验”之前我认为推文写得没有《概率论与数理统计》教科书好。
2. 独立样本的t检验
- 用于比较来自两个独立总体的样本的均值
- 由于我们是在比较两个样本,而这两个样本可能来源于两个不同的分布,因此在确定 t 统计量的分母时,我们需要考虑两个样本所来自的分布是否有相同的发散程度(即方差)。
- 判断两个样本的方差是否相等,可以使用Levene氏检验,其原假设为两个分布方差相等。
- 当方差相等与否时,具体 t 统计量长啥样依旧需要看《概率论与数理统计》教科书。
3. t 检验不能做什么
- 不能用于非连续变量的比较
特别注意对离散型变量使用t检验也是可以算出结果的,但是这个结果没有意义。
- 不能用于超过两组变量之间均值的比较
讲到方差分析时再详细讨论。
- 不能用于不服从正态分布的变量的比较
下一节具体讲判断
4. 服从正态分布
- 在我们推导 t 检验背后原理的时候,其实涉及到了三个概率分布:
- 总体的分布
- 样本的分布
- 抽样分布:样本平均值(或者样本的其他统计量,如标准差等)因为抽样随机性产生的分布,称为抽样分布。
- 由于 p 值的定义:在原假设为真的前提下,观察到与我们的数据相同或更极端的数据的概率。这是一个和抽样分布相关的概率,所以抽样分布为正态分布时,计算出的 p 值才准确,而根据中心极限定理,只要数据量足够大,即使原数据有点偏离正态分布,抽样分布也会近似为正态分布,所以这时也可以使用 t 检验。
4.1. 判断是否服从正态分布的方法
-
定性方法
- 频率分布图
- q-q 图
计算机模拟出正态分布对应的n 分位数(此为第一 q,对应 x 坐标);同时,将待检验数据从小到大排列,就可以得到数据的n 分位数(此为第二 q,对应 y 坐标)
-
定量方法
- 夏皮罗-威尔克检验(Shapiro-Wilk test)和科尔莫戈罗夫-斯米尔诺夫检验(Kolmogorov-Smirnov test)
- 原假设为数据符合正态分布
使用这些检验的时候要注意,当样本足够大时,只要数据稍有一点偏离正态分布,p 值就总能小于 0.05,因而检验的结果总是倾向于显示数据为非正态分布。也就是说,如果我们的样本足够大,即使夏皮罗-威尔克检验或科尔莫戈罗夫-斯米尔诺夫检验给出小于 0.05 的 p 值,数据来自的总体仍可能是服从正态分布的。
当然如果数据量太小,上面的这些方法可能都无法给出可信的关于数据正态性的判断,这时候还需要根据产生测量数据的物理过程,考虑数据是否可能是正态分布。
4.2. 样本量
- 之前提到“样本量足够大时,抽样分布会近似正态分布”,那么究竟是多大呢?
- 对于有些总体分布,15个样本就绰绰有余,而对另一些总体分布,可能需要非常大的样本量才能使抽样分布近似正态分布,比如离散型变量。
4.3. 数据不正态的处理方式
- 增加样本量
- 做数据变换,改变总体分布
- 使用其他检验(其他章节会提及)
4.4. 数据变换
- 也就是选择一个函数f作用于样本,虽然是对样本做变换,但同时也改变了总体的分布。
- f必须是单调的。
- 大部分非正态都是偏态(符合中间高两边低但不符合左右对称)
- 对于右偏分布(指的是尾巴的方向),可以采用对数函数、平方根、三次方根等。
- 对于左偏数据,可以取负数,也可以采用二阶导数为正的增函数,如平方、指数函数等。
- 采用Box-Cox变换,可以根据一定的标准自动找出最佳的变换函数。
利用计算机找到使变换后的样本最接近正态分布的λ,本质是计算取各个λ时正态假设下的似然函数。
- 数据变换的局限性
- 不能解决所有非正态性问题
- 对数据进行变换之后,重新进行原来计划的统计检验,其意义会发生变化,但是对数变换是一个例外,对数变化后新数据的算术平均数就是原数据的几何平均数,也可以表示样本数据的集中趋势,因此对数变换有相对明确的意义,应用也比较多。
5. 显著性与效应大小并重
- 样本量大小对 p 值会有很大影响。(低 p 值极有可能是效应大也可能是样本量大)
5.1. t检验的效应大小:Cohen 氏 d 值
-
- 其中 μ 为总体的真实均值,μ0 为标准值,而 σ 为总体的标准差。当然,总体的参数我们无法得知,因此要用样本的均值和标准差代替。
- 分子体现了样本相对于标准值的偏离程度,分母体现了结果的不确定性(不确定性大时效应小)
- Cohen氏d值使我们能够把来自完全不同的数据的若干 t 检验的效应大小放在同一个尺度上比较。
- 怎样的效应算是大呢?
- Cohen 氏 d 值的发明人 Jacob Cohen 曾经提出过一条经验准则,把 d 值为 0.2,0.5 和 0.8 的效应分别称为小、中、大效应。但这只是一个参考。
5.2. 成对样本 t 检验的效应大小
- 其中 μx、μy 为两个成对总体的均值,σx、σy 分别为各自的标准差,而 ρxy 为两个总体之间的相关系数
5.3. 独立样本 t 检验的效应大小
6. 置信区间
6.1. 为什么需要一个区间
- Cohen 氏 d 值把平均值的差别放在分子上,而把标准差放在分母上,从而是一个融合了平均值的差异及其不确定性的量。但有两个小缺点:
- 这只是一个点估计,其精确值很可能是产生样本时随机性的结果。与其纠结于小数点后几位,更重要的其实是它的大致范围,比如效应大小大约在 0.3 和 0.35 之间,至于到底是 0.328 还是 0.315 还是 0.346,多数情况下其实都无关紧要。
- 由于去除了单位,虽然便于比较,但也给结果的解读带来了困难。
- 因此,我们使用区间估计,找置信区间。
6.2. 置信度
- 如果我们重复从同一个总体中获得样本,用同样的方法构建出许多用于估计效应大小的区间,这些区间中包含真实值的比例就是区间估计的置信度,置信度越高,区间就越宽,估计的不确定性就越高。
- 置信度为95%的置信区间:如果从同样的总体中生成许多个样本,根据每个样本的数据各找出一个这样的区间,则在所有这些区间里,有 95% 会包含真实值。
7. 结果展示
- 文字:用单样本 t 检验对比了...的区别,发现样本的平均值=...,标准差=...,95% 置信区间 [...,...] )与标准值...有显著区别( t (自由度)=..., p < ... )。
- 检验类型
- 数据的特征:平均值、标准差、置信区间
- t 统计量及自由度(在单样本情况下是等于样本量减 1,在独立样本且两个样本方差相等的情况下等于总样本量减 2)
- p 值
- 不同的杂志对统计结果的格式会有不同的要求,投稿前要记得检查一下杂志的具体要求,或者翻一下杂志近期发表的文章。
- 图
- 散点图、箱线图、柱状图
- error bar有两种,标准差( standard deviation, 缩写为 sd 或者 std )和测量标准误差(standard error of the mean,缩写 se 或者 sem )。后者是前者除以 √n,这里 n 是样本量,所以测量标准误差比较小。
- 对于成对样本 t 检验(如 30 周的小鼠是不是比 20 周的更重),可以用连线的散点图,更清晰地展示数据的变化
8. 注意
- 显著性的差异 ≠ 差异的显著性
- 数据点需独立(只要某两个数据点之间存在某种已知的、与它们和其他数据点之间不同的联系,它们就是不独立的)