这次是介绍混合线性模型的一些基础特性
简介
从线性模型变转变为混合模型,是为解决实际问题
- 公牛的育种值
- 需要以无偏的方式区分影响产奶量的遗传和非遗传效应(估计育种值)
混合模型是在康奈尔大学建立的, 为什么在这里?
- 进行奶牛记录的组织机构(数据)
- AI 中心(资金)
- 杰出的科学家:统计学家 - S.R. Searle 和遗传学家- C.R. Henderson
什么是混合模型
首先对线性模型(y = Wb + e )拓展,W → [X Z]
modeling y(对于E(y) 和var(y))
是有选择指数算法(SI)和广义线性(GLS)的结合
一般的矩阵方程
** y = Xβ + Zu + e **
其中: y 为观测值vector(已知); β 为fixed effects(未知); u 为random effects(未知); e为残差(未知); X与Z 为关联y与β,u的矩阵(已知)
根据y的建模,求出的目标为: β, u,
一般矩阵方程的具体介绍
** y = Xβ + Zu + e **
X 和Z
- 是关联y 与 β,u
- 每个性状* 效应* 水平都占据一列
- 每个观察值为行
如 X = [1 0 24
0 1 34
1 0 23
1 0 27]
表示为:4个观察值在2个牛场(前2列),第3列是产犊年龄;
Z(animals w/o, with records)
Z = [1 0 0 0 0
0 1 0 0 0
0 0 1 0 0
0 0 0 1 0] 这表明5个动物,且前4个动物均只有1个观察值,最后一个动物没有观察值, 应该是按列放置
混合模型有可以成为混合方程组(Mixed model equations, MME)
或者简写 Cs = r
需要已知各个未知变量的(co)variances(方差组分):
- Var(e) = R(残差的方差-协方差矩阵),
- Var(u) = G((co)variances among random effects ),
- Var(y) = ZGZ' + R ((co)variances among observations)
MME也假设其已知上述R和G
但在实际分析中,必须需要先估计以上所有未知参数的(co)variances(最花时间的部分)
估计(co)variances(R与G),现行主流的一些算法:
1. REML(DF-, EM-, AI-.. 都是基于Maximum Likelihood)
2. MCMC("Gibbs Sampling")
3. Others as Method R(基于BLUP properties) (个人没使用过)
variance components estimation(VCF) methods on their own => special class
上述3种的主流算法以后再详细介绍
回归正题,接着看MME: y = Xβ + Zu + e ,
如果简写为: y = Wb +e(类似OLS)
则上述两个式子都求解:
注意这里W = [ X Z]
这个 u 的估计量有两个主要的不足:
-
对 u 的估计不考虑 SI 中的回归,因为并非所有都被传输:
其是通过将矩阵形式展开,再需要将β带入到u的式子中,得到
-
- u和y之间的covariances(没有考虑不同家庭之间的关系)
比较OLS与SI解出的u
怎么比较uOLS 和uSI?
是需要比较(Z'Z)-1Z' 与Cov(u,y)(Var(y))-1
因为:
Cov(u,y) = GZ' = AZ'(σg)2 ;
Var(y) = V = ZGZ'+R = ZAZ'(σg)2+ I (σe)2
所以带入下公式:
得到:
其中, A为系谱关系矩阵, 在sir model中λ= (4-h2)/h2. sir 传给后代的1/2, 所以遗传方差为1/4
但是当所有个体无关时, A=I
则:
SI的u 可以转为:
根据他们的女儿选择公牛
两个无亲缘关系的公牛S 和T,均有三个女儿,其六个女儿的母牛也没有亲缘关系
我们想计算这两个公牛对各自儿女表型的遗传贡献
采两种计算方法:
- OLS:即女儿偏差的估计
- SI:计算对虐女儿的贡献,需要假设E(y)已知
数据如下:
SI
给出如下定义:
则表型值y的方差结构:
y的协方差结构:
y的方差-协方差矩阵:
根据前面的公式:Var(y) = ZZ'(σg)2+ I (σe)2
Cov(u,y)的方差协方差矩阵:
使用SI解出:
选择指数的权重:
根据
两种方法结果的比较:
相等模型
- 平均值和方差组分相等
- 解应该也相同
OLS, GLS, SI, MME的转化
SI: 最小化预测Var(T-I)的误差方差 , 同时也最大T与I的相关
OLS: 最小误差方差,最终由观测值(残差)的方差加权
GLS: 最小化权重误差方差(最小二乘), 参考观测值之间的协方差
MME: mixed models, 同时最小化误差方差和random effectde 预测误差方差
BLUP是由SI演变而来