2 - 混合线性模型(Mixed models)

这次是介绍混合线性模型的一些基础特性

简介

从线性模型变转变为混合模型,是为解决实际问题

  • 公牛的育种值
  • 需要以无偏的方式区分影响产奶量的遗传和非遗传效应(估计育种值)

混合模型是在康奈尔大学建立的, 为什么在这里?

  • 进行奶牛记录的组织机构(数据)
  • AI 中心(资金)
  • 杰出的科学家:统计学家 - S.R. Searle 和遗传学家- C.R. Henderson

什么是混合模型

首先对线性模型(y = Wb + e )拓展,W → [X Z]
modeling y(对于E(y) 和var(y))
是有选择指数算法(SI)和广义线性(GLS)的结合

一般的矩阵方程

** y = Xβ + Zu + e **
其中: y 为观测值vector(已知); β 为fixed effects(未知); u 为random effects(未知); e为残差(未知); X与Z 为关联y与β,u的矩阵(已知)

根据y的建模,求出的目标为: β, u,

一般矩阵方程的具体介绍

** y = Xβ + Zu + e **

X 和Z
  • 是关联y 与 β,u
  • 每个性状* 效应* 水平都占据一列
  • 每个观察值为行

如 X = [1 0 24
0 1 34
1 0 23
1 0 27]
表示为:4个观察值在2个牛场(前2列),第3列是产犊年龄;

Z(animals w/o, with records) 
Z = [1 0 0 0 0
     0 1 0 0 0
     0 0 1 0 0
     0 0 0 1 0]   这表明5个动物,且前4个动物均只有1个观察值,最后一个动物没有观察值, 应该是按列放置

混合模型有可以成为混合方程组(Mixed model equations, MME)


image.png

或者简写 Cs = r
需要已知各个未知变量的(co)variances(方差组分):

  • Var(e) = R(残差的方差-协方差矩阵),
  • Var(u) = G((co)variances among random effects ),
  • Var(y) = ZGZ' + R ((co)variances among observations)
    MME也假设其已知上述R和G
    但在实际分析中,必须需要先估计以上所有未知参数的(co)variances(最花时间的部分)

估计(co)variances(R与G),现行主流的一些算法:
1. REML(DF-, EM-, AI-.. 都是基于Maximum Likelihood)
2. MCMC("Gibbs Sampling")
3. Others as Method R(基于BLUP properties) (个人没使用过)
variance components estimation(VCF) methods on their own => special class
上述3种的主流算法以后再详细介绍


回归正题,接着看MME: y = Xβ + Zu + e ,
如果简写为: y = Wb +e(类似OLS)
则上述两个式子都求解:


image.png

注意这里W = [ X Z]
这个 u 的估计量有两个主要的不足:

    1. 对 u 的估计不考虑 SI 中的回归,因为并非所有都被传输:


      image.png

      其是通过将矩阵形式展开,再需要将β带入到u的式子中,得到

    1. u和y之间的covariances(没有考虑不同家庭之间的关系)

比较OLS与SI解出的u

image.png

怎么比较uOLS 和uSI?
是需要比较(Z'Z)-1Z' 与Cov(u,y)(Var(y))-1

因为:
Cov(u,y) = GZ' = AZ'(σg)2 ;
Var(y) = V = ZGZ'+R = ZAZ'(σg)2+ I (σe)2
所以带入下公式:

image.png

得到:
image.png

其中, A为系谱关系矩阵, 在sir model中λ= (4-h2)/h2. sir 传给后代的1/2, 所以遗传方差为1/4

但是当所有个体无关时, A=I

则:


image.png

SI的u 可以转为:


image.png

根据他们的女儿选择公牛

两个无亲缘关系的公牛S 和T,均有三个女儿,其六个女儿的母牛也没有亲缘关系
我们想计算这两个公牛对各自儿女表型的遗传贡献
采两种计算方法:

  1. OLS:即女儿偏差的估计
  2. SI:计算对虐女儿的贡献,需要假设E(y)已知

数据如下:


image.png

SI

给出如下定义:


image.png

则表型值y的方差结构:


image.png

y的协方差结构:


image.png

y的方差-协方差矩阵:


image.png

根据前面的公式:Var(y) = ZZ'(σg)2+ I (σe)2

image.png

Cov(u,y)的方差协方差矩阵:


image.png

使用SI解出:


image.png

选择指数的权重:
根据


image.png
两种方法结果的比较:
image.png

相等模型

  • 平均值和方差组分相等
  • 解应该也相同
image.png

OLS, GLS, SI, MME的转化

image.png

SI: 最小化预测Var(T-I)的误差方差 , 同时也最大T与I的相关
OLS: 最小误差方差,最终由观测值(残差)的方差加权
GLS: 最小化权重误差方差(最小二乘), 参考观测值之间的协方差
MME: mixed models, 同时最小化误差方差和random effectde 预测误差方差
BLUP是由SI演变而来

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。