一、OsT-FsT分析的原理
1. 背景和目的
- 目的:检测代谢物水平上的选择标记,揭示不同群体(如野生种和栽培种)在代谢产物上的差异,进而理解驯化过程中的代谢选择和用途差异。
2. 关键概念
-
FsT(Fixation Index):遗传学中衡量群体间遗传分化程度的指标,值域为0到1。
- FsT = 0:表示群体间没有遗传分化,即基因频率完全相同。
- FsT = 1:表示群体间完全分化,没有共享的基因变异。
OsT(Phenotypic FsT):是表型特征(如代谢物含量)的FsT模拟物,用于衡量群体间表型的分化程度。
3. OsT的计算
-
定义:OsT = ( \frac{\omega}{\omega_2 + 2\Omega_2} )
- (\omega):群体间的变异(表型变异的“组间”差异)。
- (\omega_2):群体内的变异(表型变异的“组内”差异)。
- (\Omega_2):环境变异或误差项,通常在重复测量或实验设计中估计。
直观理解:OsT衡量的是群体间的表型差异占总变异的比例。
4. 原理
核心思想:比较表型分化(OsT)和遗传分化(FsT),如果某个代谢物的OsT显著高于中性预期的分布,可能暗示该代谢物受到了正向选择。
中性假设:假设在没有选择的情况下,表型分化程度应与遗传分化程度相匹配。
检测选择:通过模拟(如蒙特卡洛模拟)生成中性条件下的OsT-FsT分布,然后将观察到的OsT与之比较,计算P值,判断是否显著偏离中性分布。
二、详细步骤
1. 数据准备
-
基因型数据:用于计算FsT,需要不同群体的基因型数据(SNP数据)。
- 过滤:使用没有缺失值的四倍同义转换SNP,删除位于选择区域的SNP,以获得中性的FsT估计。
表型数据:代谢物的含量测量值,需包含群体信息和重复测量。
2. 计算FsT
方法:采用Weir and Cockerham(1984)的方法计算FsT。
-
步骤:
- 计算群体内和群体间的基因频率差异。
- 估计FsT值:可以使用统计软件或编程语言中的遗传分析库,如Python的scikit-allel,R的hierfstat等。
3. 计算OsT
-
使用方差分析(ANOVA):
- 模型:以代谢物含量为响应变量,群体为固定效应,重复为随机效应。
-
步骤:
- 计算群体间方差((\omega))。
- 计算群体内方差((\omega_2))。
- 计算环境变异或误差项((\Omega_2))。
- 计算OsT:使用之前的公式。
4. 生成中性OsT-FsT分布
-
模拟过程:
重复次数:通常为1000次或更多。
-
步骤:
随机抽取FsT值:从中性SNP的FsT分布中随机抽样。
-
模拟(\omega)值:根据FsT值和(\omega_2)计算得到。
- 使用公式:(\omega = \frac{2 \times FsT \times (\omega_2 + 2\Omega_2)}{1 - FsT})
计算模拟的OsT值:使用模拟的(\omega)和真实的(\omega_2)、(\Omega_2)计算OsT。
目的是:建立中性条件下OsT的期望分布,以此作为参照。
5. 统计检验
-
计算P值:
将观察到的OsT与模拟的中性OsT分布进行比较。
P值:等于模拟值中大于等于观察到的OsT值的比例。
-
判定显著性:
- 通常采用显著性水平(如0.05)判断代谢物是否受到选择。
三、代码实现
使用以下库:
- Pandas:用于数据处理。
- NumPy:用于数值计算。
- SciPy:用于统计分析。
- statsmodels:用于方差分析(ANOVA)。
1. 导入所需库
import pandas as pd
import numpy as np
from scipy import stats
import statsmodels.api as sm
from statsmodels.formula.api import ols
2. 示例数据准备
假设:
我们有基因型数据,计算得到了中性SNP的FsT分布。
有代谢物的表型数据,包括群体信息和重复测量。
# 示例FsT数据(中性SNPs)
fst_neutral = np.random.beta(a=0.5, b=5, size=10000) # 生成FsT分布
# 示例表型数据
# 假设有两个群体,每个群体有重复测量
data = pd.DataFrame({
'Metabolite': np.random.normal(loc=0, scale=1, size=100),
'Population': ['Pop1'] * 50 + ['Pop2'] * 50,
'Replicate': list(range(1, 51)) * 2
})
3. 计算OsT
# 使用ANOVA计算群体间和群体内的变异
model = ols('Metabolite ~ C(Population)', data=data).fit()
anova_table = sm.stats.anova_lm(model, typ=2)
# 提取方差分量
ms_between = anova_table['sum_sq']['C(Population)'] / anova_table['df']['C(Population)']
ms_within = anova_table['sum_sq']['Residual'] / anova_table['df']['Residual']
# 群体间方差(ω)
omega = ms_between - ms_within
# 群体内方差(ω2)
omega2 = ms_within
# OsT计算
OsT_observed = omega / (omega2 + 2 * omega2)
4. 生成中性OsT-FsT分布
# 模拟参数
n_simulations = 1000 # 模拟次数
OsT_simulated = []
for _ in range(n_simulations):
# 从中性FsT分布中随机抽取一个FsT值
fst_sample = np.random.choice(fst_neutral)
# 使用公式计算模拟的ω
omega_sim = (2 * fst_sample * (omega2 + 2 * omega2)) / (1 - fst_sample)
# 计算模拟的OsT
OsT_sim = omega_sim / (omega2 + 2 * omega2)
OsT_simulated.append(OsT_sim)
# 转换为NumPy数组
OsT_simulated = np.array(OsT_simulated)
5. 统计检验
# 计算P值:OsT_simulated中大于等于OsT_observed的比例
p_value = np.mean(OsT_simulated >= OsT_observed)
print(f'观察到的OsT值:{OsT_observed:.4f}')
print(f'模拟的OsT平均值:{np.mean(OsT_simulated):.4f}')
print(f'P值:{p_value:.4f}')
6. 结果解读
- 如果P值小于显著性水平(如0.05),则认为该代谢物的表型分化显著高于中性预期,可能受到了选择压力。
7. 可视化结果
import matplotlib.pyplot as plt
# 绘制模拟的OsT分布直方图
plt.hist(OsT_simulated, bins=30, alpha=0.7, label='中性OsT分布')
# 绘制观察到的OsT值
plt.axvline(OsT_observed, color='red', linestyle='--', label='观察到的OsT')
plt.xlabel('OsT值')
plt.ylabel('频数')
plt.title('OsT-FsT分析')
plt.legend()
plt.show()
四、总结
OsT-FsT分析是一种将遗传分化与表型分化相结合的方法,用于检测可能受到自然选择的特征。
-
关键步骤:
计算FsT:衡量遗传分化程度。
计算OsT:衡量表型分化程度。
模拟中性分布:建立在中性条件下的OsT期望分布。
统计检验:比较观察值与中性分布,计算P值。