7 - 基因组育种(预测)(GS/GP)

1 GS中的一些基础知识

写下基础知识:
(1)首先,现在实际基因组选择都是使用的SNP
(2)位点可以使用0, 1, 2表示,主要等位基因为0, 次要等位基因为1
(3)表型一般都会做校正: Daughter Yield Deviations( DYD, 奶牛使用较多), Deregressed EBV(DRP ≈ EBV/REL)(PS:现在有一步法,直接使用原始表型)

2 GS分类

1 多步法(MS-GP)
(1) 计算EBV(如national估计)
(2) 取出高可靠性的公牛EBV, 进行计算出DYD或DRP
(3) 建立估计SNP的effect的“方程”
(4) 计算新个体的Direct Genomic Value (DGV)
(5) 结合DGV和其他信息(DGV不包含)计算个体最终的GEBV
推荐需要去看, P.M. VanRaden 在2008发表于J. Dairy Sci. 的文章, "Efficient methods to compute geneomic predictions"
多步法因为多个step, 会可能造成更多的潜在误差
2 一步法
single-step methods(SS-GP)

3 多步法使用多种算法实现

“linear” 方法:三种
非线性(Bayesian)方法

3.1 Linear 法: 3种(VanRaden, 2008)

(1) Multiple Random Regression => RR-BLUP

1.1 y = Xb + Zu + e
这里的y = DYD, X为固定效应的incidence 矩阵, b为固定效应;Z 是与SNP effect 对应的incident matrix, u指的是SNP effect(random effect), e为随机残差.

image.png

其中R是以 1/weights为对角的对角矩阵.


image.png

DGV 通过a = Zu计算得到
所以也可以将模型写成:y = Xb + Ia + e = Xb + I(Zu) + e,
这里的I 是连接y 与DGV, Z是连接y与u的,

步骤首先构建Z矩阵,其是incidence矩阵,连在观察值与SNP效应

Z = M - P
     一般SNP的矩阵是由0,1,2,构建,但是M是表示为-1,0, 1(均减去1),为nxm(动物个体数xSNP位点数) ;
     P矩阵是先计算各SNP的allele频率f~i~,P矩阵中每个位点(列)表示2f~i~ - 1

MME方程为:


image.png

如果两边可以都除以σ2e的话,MME可以写出:

image.png

其中R = 1/weight的对角矩阵(但是大多数R=I, 即不加入权重)
image.png

所以称为RR-BLUP(Random regression-BLUP)
如前面所讲DGV = a = Zu(所有SNP的总和)

预测年轻的动物

当有年轻的动物加入时,需要在M中加入新一行, 并扩增Z(原来的等位基因频率不变), 进行全部从新解出方程(只是对新加入的动物增加解,其他不变)
PS:看起来非常简单,但是实际使用中,会更加复杂一些

(2) SI以Ga矩阵计算 DGV

在SI中,
预测DGV使用校正的表型, 使用了G取代A矩阵,但是为了区分,这里写为Ga
Ga计算都多种算法:如 = ZZ'd-1
公式计算:

image.png

上式是基于SI推导,但其也等价于RR-BLUP
image.png

Ga与A矩阵的比较(注意这里的“,”, 表示“.”):

A矩阵


image.png

Ga

image.png

Ga- A

image.png

一般情况,我们认为Ga能更好的反应个体之间的亲缘关系

加入年轻的动物

当有年轻的动物加入时,SI需要类似RR-BLUP的方法处理:


image.png

(3) G-BLUP

如果固定效应和随机效应一起估计,将MME的A矩阵由Ga取代,则变为了G-BLUP
y = Xb + Z a + e*
Z指的是与遗传相关的incidence matrix,实际每个动物只有一个育种值,即Z=I, a为DGV,其他与RR-BLUPF相同。
在BLUP中, var(a)= a covariance structure X a variance component,
什么 a covariance structure呢:常规(系谱)BLUP为A矩阵,G-BLUP为Ga矩阵
其方程组为:

image.png

但有的时候, Ga不可逆, 就需要新组成G*= 0.99Ga + 0.01A

加入年轻的动物

需要从新计算一个Ga,基于新数据, 加入n列0到Z*矩阵中, 解出方程组即可。
另一种方法:

image.png

(4)从写RR-BLUP

image.png

则每个位点的遗传方差是总方差除以位点数:


image.png

所以每个位点的遗传方差都是相等的


image.png

3.2 No-linear(Bayesian) methods

(1)Bayes-A 每个SNP的方差不同, t分布, 一般用Gauss-Seidel迭代得到解
(2)Bayes-B 假设π%的SNP没有遗传方差, 剩下1-π 的SNP,每个SNP的方差不同, 非零效应 SNP - t 分布


image.png

(3)Bayes-C = Non-linear Bayes A and B, 对π的SNP进行估计, 非零效应 SNP - 正态分别
VanRaden (2008)提出两种非线性方法,称为非线性A与B, 都是对SNP的效应进行校正,如果接近0就下降,如果远离0就上升。


image.png

还有其他Bayes alphabet, 如Cπ, R等

4 DGV VS GEBV

Direct Genomic Value(DGV)与Genomically Enhanced Breeding Values(GEBV)的不同含义:
DGV,只是有自己的基因组信息得到 , 不包含: 它的女儿和亲本对它的影响。
GEBV = DGV与EBV的结合, 不是直接相加, 两者有重复的部分

GP最大的优点是提高的估计值的可靠性

这是因为可靠性是基于可靠地信息:父母,自己,后代, G矩阵能比系谱A能更好的反应实际亲缘系数(因为重组等原因,亲本不能完全将50%遗传物质传给后代)。 G考虑了Mendelian sampling.

可靠性比较
image.png

5 GP的算法迭代

第一代

上面将的RR-BLUP,G-BLUP等,一般都统称为第一代GP:
works well:
(1)只有参考群体数量大和可靠性高时(EBV可以反应表型)
(2) 参考群与预测群具有较强的相关性(但不能近交)


image.png

问题,但是:
(1)许多步骤评估,会增加潜在误差
(2)都为单性状模型
(3)有的性状参考群体小, 有的新性状没有参考群,开始将母牛包含进入
(4)有基因型与没有的基因组不能混合计算

所以很快更新为第二代GP:

Single-Step Genomic Prediction(SS)

一起使用表型,系谱和基因组数据;
更有利于小群体:这就不需要高REL的EBV;很容易增加牛到参考群体;
但这些需要更好的算法

最重要矩阵的合成可能有不同的推导:
如:对于G矩阵的组合:


image.png

也可以使用适当的 SI 公式从基因分型动物中预测未基因分型(有具体的算法)

另一种加入了没有基因组的数据生成H矩阵, A为全部的系谱矩阵, Gc是基于基因组个体计算的矩阵, Ag是基于具体基因组个体的系谱矩阵

image.png

常称为ss-GBLUP.
其还有多种变型,并且对于Ag与Gc合并,还需要更复杂的处理,不是简单的相减。
image.png

现在也同时具有了SS-Bayes。这里不详细介绍了。

本次遗传算法中的最后一篇, 全部的几篇只是介绍了一些简单入门算法, 具体推算没有介绍,如果你感兴趣,需要多阅读一些当时开发这个算法的文献。
当然我后续还有一个更详细的需要写, 但最近需要使用机器学习的一些算法,所以要先对机器学习算法进行一个回顾,后面有时间再接着写方差-协方差组分求解的详细推导

实际在遗传数据分析中,最先估计各性状的方差-协方差组分, 再根据估计值计算遗传力、相关性等, 最终我们要以估计的方差-协方差组分求出各性状的育种值。

当然在多性状动物模型分析中,都需要先单个分析,以其结果作为多性状的初始值,加快收敛速度。

7 个人觉得模型难易程度为:

sire model < MGS model < sir-MGS model < animal model < Repeatability model < MT animal model < random regression model

当然只有所有模型都自己使用代码,练习一下, 会有更大的收获。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,718评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,683评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,207评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,755评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,862评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,050评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,136评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,882评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,330评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,651评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,789评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,477评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,135评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,864评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,099评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,598评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,697评论 2 351