在这篇文章中,作者提到候选基因受到正选择。看附表19给的数据,该说法的依据是作者对普通荞麦和苦荞的直系同源基因对做了Ka/Ks分析,其值大于1。
今天的推送,将介绍如何对两个基因组之间的直系同源基因对计算Ka、Ks及Ka/Ks.
中性理论与自然选择
中性理论认为:大部分对种群的遗传结构与进化有贡献的分子突变在自然选择的意义上都是中性或近中性的,因而自然选择对这些突变并不起作用。中性突变的进化是随机漂移的过程,或被固定在种群中,或消失。也就是说,中性理论认为我们今天观察到的遗传变异(无论是种内多态性还是种间分歧),均不取决于自然选择所驱动的有利突变的固定,而是取决于那些中性突变的随机固定。有利突变对个体具有优势,从而得以保留和固定;有害突变可能导致个体的生存力或育性降低从而被淘汰。
需要注意的是,发生在基因区域的大多数突变是有害的,会被净化选择所清除;核昔酸置换率近似等于中性突变率;功能较重要的基因或基因区域的进化较慢,即观测到的突变比较少。
同义置换和非同义置换
不导致氨基酸改变的核昔酸变异称为同义置换,反之则称为非同义置换。一般认为,同义置换不受自然选择,而非同义置换则受到自然选择。
基于Ka/Ks鉴定正选择
dn(可写为Ka): 平均每个潜在非同义位点上发生非同置换的数目,一般简称非同义置换率。
ds(可写为Ks):平均每个潜在同义位点上发生同义置的数目,一般简称同义置换率。
ω:非同义/同义置换率的比率,ω=dn/ds
若将同义置换率作为基准点(作为分母),我们可以推断自然选择在非同义置换固定过程中是起推动还是阻碍作用。非同义/同义置换率的比可在蛋白质水平度量选择压力。
计算过程
s表示潜在同义位点数,等于所有位置上发生同义改变的比例之和,在给定的实例中,phase0和1出现同义替换的比例均为0,phase出现同义替换的概率为1,所以s=0+0+1=1.
n表示潜在的非同一位点数目,等于所有位点数目减去s,即3-1=2.
在给定的例子中,假设突变后的结果为GCG (Ala),即发生了一次非同义替换
则平均每个潜在非同义位点上发生非同置换的数目(即dn)为1/2=0.5;
平均每个潜在同义位点上发生同义置的数目(即ds)为0/1=0;
ω=dn/ds的值用来检测基因是否受到正选择:
ω明显大于1,即非同义替换都被保留了,基因受到正选择,这种情况较少,也是后续分析的重点;
ω接近1,基因受到中性选择;
ω明显小于1,基因受到纯化选择,大多数基因计算得到的是这种情况,说明净化选择的普遍性。
正选择分析
本想用homo以及苦荞的基因组重复下本文的分析,但是始终找不到本文组装的homo基因组,挺奇怪的。
后面的演示用拟南芥和盐芥的数据,用到CDS和蛋白序列。
第一步 鉴定直系同源基因对
这一步可以直接用两次blast完成,在这里用到了wgd软件的dmd功能,也可以达到类似的目的。wgd(https://github.com/arzwa/wgd)软件可直接用conda完成配置,该软件主要用来做全基因组复制分析,本次推送不涉及,后续可能会有专门的推送。
--eval 设置blast的阈值,一般为1e-10,最终的输出文件保存了在拟南芥和盐芥中鉴定到的同源基因对。
第二步 同源系列比对
这一步主要用到ParaAT工具,下载链接https://ngdc.cncb.ac.cn/tools/paraat,解压后即可使用。
运行ParaAT时输入的CDS和蛋白序列是fa格式,需要主要把标题行中其他不必要信息去除,否则输出目录align_out下面为空。
第三步 计算Ka、Ks值
Kaks_Calculator软件可从https://github.com/lizzhao/Kaks_Calculator下载。
-m指定计算模型,设定为YN更接近CodeML的计算结果。如果不指定,会利用所有模型计算一遍,运行非常慢。
输出结果保存在result.txt。
第一列为直系同源基因对,第二列为指定的计算模型,三四列为Ka和Ks值,第五列为两者的比值,第六列是该计算的Pvalue。大多数的Ka/Ks都是小于1的,>1即表示存在正选择,结合Pvalue确定受到正选择的基因。
参考内容
https://genek.cn/
侵删,后台联系即可。