1 GS中的一些基础知识
写下基础知识:
(1)首先,现在实际基因组选择都是使用的SNP
(2)位点可以使用0, 1, 2表示,主要等位基因为0, 次要等位基因为1
(3)表型一般都会做校正: Daughter Yield Deviations( DYD, 奶牛使用较多), Deregressed EBV(DRP ≈ EBV/REL)(PS:现在有一步法,直接使用原始表型)
2 GS分类
1 多步法(MS-GP)
(1) 计算EBV(如national估计)
(2) 取出高可靠性的公牛EBV, 进行计算出DYD或DRP
(3) 建立估计SNP的effect的“方程”
(4) 计算新个体的Direct Genomic Value (DGV)
(5) 结合DGV和其他信息(DGV不包含)计算个体最终的GEBV
推荐需要去看, P.M. VanRaden 在2008发表于J. Dairy Sci. 的文章, "Efficient methods to compute geneomic predictions"
多步法因为多个step, 会可能造成更多的潜在误差
2 一步法
single-step methods(SS-GP)
3 多步法使用多种算法实现
“linear” 方法:三种
非线性(Bayesian)方法
3.1 Linear 法: 3种(VanRaden, 2008)
(1) Multiple Random Regression => RR-BLUP
1.1 y = Xb + Zu + e
这里的y = DYD, X为固定效应的incidence 矩阵, b为固定效应;Z 是与SNP effect 对应的incident matrix, u指的是SNP effect(random effect), e为随机残差.
其中R是以 1/weights为对角的对角矩阵.
DGV 通过a = Zu计算得到
所以也可以将模型写成:y = Xb + Ia + e = Xb + I(Zu) + e,
这里的I 是连接y 与DGV, Z是连接y与u的,
步骤首先构建Z矩阵,其是incidence矩阵,连在观察值与SNP效应
Z = M - P
一般SNP的矩阵是由0,1,2,构建,但是M是表示为-1,0, 1(均减去1),为nxm(动物个体数xSNP位点数) ;
P矩阵是先计算各SNP的allele频率f~i~,P矩阵中每个位点(列)表示2f~i~ - 1
MME方程为:
如果两边可以都除以σ2e的话,MME可以写出:
其中R = 1/weight的对角矩阵(但是大多数R=I, 即不加入权重)
所以称为RR-BLUP(Random regression-BLUP)
如前面所讲DGV = a = Zu(所有SNP的总和)
预测年轻的动物
当有年轻的动物加入时,需要在M中加入新一行, 并扩增Z(原来的等位基因频率不变), 进行全部从新解出方程(只是对新加入的动物增加解,其他不变)
PS:看起来非常简单,但是实际使用中,会更加复杂一些
(2) SI以Ga矩阵计算 DGV
在SI中,
预测DGV使用校正的表型, 使用了G取代A矩阵,但是为了区分,这里写为Ga
Ga计算都多种算法:如 = ZZ'd-1
公式计算:
上式是基于SI推导,但其也等价于RR-BLUP
Ga与A矩阵的比较(注意这里的“,”, 表示“.”):
A矩阵
Ga
Ga- A
一般情况,我们认为Ga能更好的反应个体之间的亲缘关系
加入年轻的动物
当有年轻的动物加入时,SI需要类似RR-BLUP的方法处理:
(3) G-BLUP
如果固定效应和随机效应一起估计,将MME的A矩阵由Ga取代,则变为了G-BLUP
y = Xb + Z a + e*
Z指的是与遗传相关的incidence matrix,实际每个动物只有一个育种值,即Z=I, a为DGV,其他与RR-BLUPF相同。
在BLUP中, var(a)= a covariance structure X a variance component,
什么 a covariance structure呢:常规(系谱)BLUP为A矩阵,G-BLUP为Ga矩阵
其方程组为:
但有的时候, Ga不可逆, 就需要新组成G*= 0.99Ga + 0.01A
加入年轻的动物
需要从新计算一个Ga,基于新数据, 加入n列0到Z*矩阵中, 解出方程组即可。
另一种方法:
(4)从写RR-BLUP
则每个位点的遗传方差是总方差除以位点数:
所以每个位点的遗传方差都是相等的
3.2 No-linear(Bayesian) methods
(1)Bayes-A 每个SNP的方差不同, t分布, 一般用Gauss-Seidel迭代得到解
(2)Bayes-B 假设π%的SNP没有遗传方差, 剩下1-π 的SNP,每个SNP的方差不同, 非零效应 SNP - t 分布
(3)Bayes-C = Non-linear Bayes A and B, 对π的SNP进行估计, 非零效应 SNP - 正态分别
VanRaden (2008)提出两种非线性方法,称为非线性A与B, 都是对SNP的效应进行校正,如果接近0就下降,如果远离0就上升。
还有其他Bayes alphabet, 如Cπ, R等
4 DGV VS GEBV
Direct Genomic Value(DGV)与Genomically Enhanced Breeding Values(GEBV)的不同含义:
DGV,只是有自己的基因组信息得到 , 不包含: 它的女儿和亲本对它的影响。
GEBV = DGV与EBV的结合, 不是直接相加, 两者有重复的部分
GP最大的优点是提高的估计值的可靠性
这是因为可靠性是基于可靠地信息:父母,自己,后代, G矩阵能比系谱A能更好的反应实际亲缘系数(因为重组等原因,亲本不能完全将50%遗传物质传给后代)。 G考虑了Mendelian sampling.
可靠性比较
5 GP的算法迭代
第一代
上面将的RR-BLUP,G-BLUP等,一般都统称为第一代GP:
works well:
(1)只有参考群体数量大和可靠性高时(EBV可以反应表型)
(2) 参考群与预测群具有较强的相关性(但不能近交)
问题,但是:
(1)许多步骤评估,会增加潜在误差
(2)都为单性状模型
(3)有的性状参考群体小, 有的新性状没有参考群,开始将母牛包含进入
(4)有基因型与没有的基因组不能混合计算
所以很快更新为第二代GP:
Single-Step Genomic Prediction(SS)
一起使用表型,系谱和基因组数据;
更有利于小群体:这就不需要高REL的EBV;很容易增加牛到参考群体;
但这些需要更好的算法
最重要矩阵的合成可能有不同的推导:
如:对于G矩阵的组合:
也可以使用适当的 SI 公式从基因分型动物中预测未基因分型(有具体的算法)
另一种加入了没有基因组的数据生成H矩阵, A为全部的系谱矩阵, Gc是基于基因组个体计算的矩阵, Ag是基于具体基因组个体的系谱矩阵
常称为ss-GBLUP.
其还有多种变型,并且对于Ag与Gc合并,还需要更复杂的处理,不是简单的相减。
现在也同时具有了SS-Bayes。这里不详细介绍了。
本次遗传算法中的最后一篇, 全部的几篇只是介绍了一些简单入门算法, 具体推算没有介绍,如果你感兴趣,需要多阅读一些当时开发这个算法的文献。
当然我后续还有一个更详细的需要写, 但最近需要使用机器学习的一些算法,所以要先对机器学习算法进行一个回顾,后面有时间再接着写方差-协方差组分求解的详细推导
实际在遗传数据分析中,最先估计各性状的方差-协方差组分, 再根据估计值计算遗传力、相关性等, 最终我们要以估计的方差-协方差组分求出各性状的育种值。
当然在多性状动物模型分析中,都需要先单个分析,以其结果作为多性状的初始值,加快收敛速度。
7 个人觉得模型难易程度为:
sire model < MGS model < sir-MGS model < animal model < Repeatability model < MT animal model < random regression model
当然只有所有模型都自己使用代码,练习一下, 会有更大的收获。