Taylor JF (2014) Implementation and accuracy of genomic selection. Aquaculture 420–421:S8–S14. doi: 10.1016/j.aquaculture.2013.02.017
抽象
基因组选择正在成为估计植物和动物育种繁殖价值的有力工具。虽然已经提出了许多分析方法来联合估计高密度单核苷酸多态性(SNP)效应,但在最佳线性无偏估计的框架内,基因组选择等同于无表型个体的育种值的预测,其中理论解决方案于1974年首次出版。基因组选择简单地用基于标记的实现基因组关系矩阵替代了谱系派生的分子关系矩阵,这是1997年首次提出的方法。由高密度SNP基因型的可用性促进的进展是能够精确地估计个体之间实现的关系系数,而不管系统信息的可用性或已应用于人群的选择历史。然而,假设SNP基因型的独立性通常估计基因组关系系数,从而忽略连锁不平衡的影响,并且所使用的SNP被总是确定为物种基因组内的常见变异,导致关系系数的过高估计。产生的基因组估计育种值(GEBV)的准确性通常使用不同形式的验证群体进行评估,该验证群体包含不用于估计培训人群中SNP效应的基因型和表型的个体。然而,这里显示的GEBV精度是训练人口GEBV的准确性和训练和验证人群中个体之间基因组关系的大小的函数。因此,基因组选择理想地适用于高度准确的GEBV可用于训练群体个体的群体,并且其标记选择的后代继续产生表型并重新进入随后变得动态的训练群体。相反,基因组选择不太适合于鉴定家族中没有历史上对育种计划,静态培训人群或在遥远相关人群中进行培训和实施的精英个人。因此,为代价或难以测量表型(如饲料效率或疾病抗性)的基因组选择的实施将需要定期再生表型种群以重新进行GEBV预测方程或鉴定这些性状变异的因果变异。全基因组重新测序的指数降低成本可能很快允许鉴定至少大的效应变体。
介绍
基因组选择(GS)首先由Meuwissen等人提出。 (2001)作为预测没有表型的个体的育种值的方法,但已经用高密度标记物进行了基因分型。该方法基于使用应用于表型的线性或非线性贝叶斯模型或可用于包含训练人群的基因分型个体的估计育种值(EBV)来同时估计每个标记的等位基因替代效应(ASE),确定在独立验证群体中得到的预测方程的准确性以及应用预测方程以在实施群体内的选择候选者中产生基因组估计育种值(GEBV)。训练人口一词来自于某种形式的模型对基因型和表型进行“训练”以产生ASE和GEBV的估计。验证步骤的目的是使用在独立的一组基因型个体上可用的表型与训练人群中使用的表型,以产生将为选择候选产生的GEBV的准确性的估计。因此,采样以形成验证人群的个体应该代表选择候选人,因为为验证人群制定的GEBV的准确度应该反映在实施人群中为选择候选人所产生的GEBV的准确性。图1显示了每个群体的目的,并说明了静态和动态训练种群之间的差异。这也证明了当培训人口是静态时,验证人群估计GEBV准确性的有限效用,因为实施人群中的个人与训练人群中的个人的相关性随每个选择周期而减少。
2007年12月,包含54,001个牛单核苷酸多态性(SNP)的BovineSNP50(Illumina,San Diego,CA; Matukumalli等,2009)测定已经可用,到2009年,GS已在美国乳制品行业实施(VanRaden et al。 ,2009)。此时,还认识到,从随机效应模型估计的ASE可用于基因组广泛关联研究(GWAS),用于检测数量性状基因座(QTL)(Cole等人,2009; Kang等,2010 ; Yang et al。,2011),并且使用基因组关系矩阵提供了保护,以抵抗基于谱系的分层对ASE估计的影响(Kang et al。,2010)。然而,当SNP ASE被联合估计为随机效应时,该方法提供了由标记物联合解释的变化比例的估计,而不是提供标记效应的单独测试。单个标记效应的测试可以通过将模型中的每个标记单独地包括为固定效应来产生(例如,Kang等人,2010; Schulman等人,2011);然而,这高估了每种标记物的效果,然后不能将其结合起来产生GEBV。最近,Illumina已经发布了778 K SNP BovineHD,Affymetrix发布了640 K SNP Axiom BOS 1(Affymetrix,Santa Clara,CA)测定,这些测定可以提高精确定位QTL的精度,但令人惊讶的是只有小幅增长在基因组关系系数和GEBV的估计精度方面(Erbe et al。,2012)。在基因型SNP数量增加15倍的情况下,GEBV精确度的小幅增长表明,许多性状具有涉及罕见的QTL变体的潜在遗传结构,其不被商业基因分型测定中包含的常见SNP检测到。根据定义,这意味着使用这些测定法估计的基因组关系矩阵(VanRaden,2008)必须通过个体之间的血统对所实现的基因组特征产生有偏估计。
最近的工作集中在理论(Goddard,2009)和经验评估(Hayes等人,2009; Luan等人,2009; Su等人,2010; VanRaden等人,2009年)估计的GEBV的准确性和Habier等人(2010)经验证明,随着培养和验证数据集的分离次数的增加,精度降低。然而,正式呈现GEBV在选拔候选人中与培训人口个人的相关性和培训人口GEBV的准确性之间关系的结果尚未呈现。在本文中,提出了在最佳线性无偏预测(BLUP)框架下实施GS的结果,包括在训练人群中评估GEBV和ASE的模型的等效性,以及选择候选者之间同时进行GEBV的训练和估计。还提出了可以推导选择候选人中ASE和GEBV的估计精度的采样方差和协方差。