大家好,本周给大家分享的是一篇关于全基因组关联分析中如何利用混血人群的文章。
文章题目:Tractor uses local ancestry to enable the inclusion of admixed individuals in GWAS and to boost power (Tractor利用本地祖先血统使 GWAS 中包含混血个体并提高检测能力)
期刊:Nature genetics
影响因子:2020_IF = 38.33; 中科大类: 生物 1区; 中科小类: 遗传学 1区; JCR分区: Q1
发文单位:美国麻省总医院综合分析和转化遗传学部门和麻省理工学院Broad研究所斯坦利精神病研究中心等14家单位。
文章作者:麻省总医院综合分析和转化遗传学部门、Broad附属研究所研究员Elizabeth Atkinson博士为第一作者,Benjamin M. Neale 为通讯作者。
摘要:在基因组研究中,由于担心种群结构对分析结果的干扰,混血人群通常被排除。在本研究中,作者提出了一个新的统计框架和软件包Tractor,旨在利用本地祖先血统,促进将混血个体纳入关联研究。作者使用模拟和经验双向混血的非洲-欧洲队列数据测试该软件Tractor。Tractor可以生成准确的祖先特异性效应大小估计值和Pvalues,可以提高全基因组关联研究(GWAS)的能力,并提高关联信号的分辨率。为了验证这一点,作者利用已知的血脂关联信号,发现标准GWAS遗漏的新的关联信号,并将信号定位在更接近假定的致病变异的位置。
主要结果:
1. LAI对非洲裔美国人有很高的准确性
本文作者开发了一个名字为Tractor的新的可扩展的框架和软件包,允许通过使用本地祖先推断(LAI)将混血个体纳入大规模基因组研究(图1)。Tractor方法利用本地祖先血统,仔细地观察染色体单个染色体片段以及这些片段来自哪个祖先,本地欧洲和非洲祖先片段分别以红色和蓝色显示。作者发现LAI 和统计分相之间的迭代提高了两者的准确性, 同时利用混血个体提供染色体片段的可视化,作者能够持续纠正错误并恢复中断的单倍型,使染色体片段组成分布更真实。
图1. 绘制了一个模拟非洲裔美国人的染色体组成图,显示了本地的欧洲和非洲祖先片段。a、作者模拟的非裔美国人队列中的一个示例个体的真实结果。b、统计分阶段后的人员结果。由于相位转换错误导致的长单倍型的中断。c、恢复因相位调整中的转换错误而中断的片段。d、通过额外一轮LAI获得的更加平滑和进一步改善的染色体片段。
2. 评估Tractor的GWAS检测功效
为了量化纳入当地血统可能增加的功效,作者利用一个函数,模拟了个体作为混血人群在不同的AFR 混血比例、风险等位基因剂量和每个等位基因的祖先背景下致病可能性。与传统模型相比,作者观察到使用Tractor的功效显著增加,在样本量和疾病患病率方面具有相应的提高(图2a)。同时作者进行了类似的模拟,通过改变效应大小差异、绝对MAF、不同祖先的MAF差异和混血比例来检验Tractor功效。得到当不同祖先的一个变异的表观效应大小存在异质性时,Tractor最有效。另外作者发现在效应大小不等的情况下,如果等位基因效应仅存在于较小部分的祖先中,则功率增益最大(图2d)。在非洲裔美国人模拟框架中,两个祖先都有相同的MAF和效应,但AFR中的效应更强,Tractor需要大于~60%的效应差异才能受益于效应大小的异质性(图2e)。
图2. GWAS在样本大小、祖先MAF差异、混血比例和效应大小差异方面检测能力的比较。a、使用Tarctor LAI- aware模型并使用两个对照组时,在4000(灰色)和12000(黑色)的样本量中,GWAS检测能力增加类似。b、当祖先之间存在MAF差异时(黑色表示MAF在AFR=10%,EUR =30%;灰色为MAF 在AFR=20%和EUR=40%),检测能力的提升更为明显。c、当混血比例改为50/50时,检测能力的提升变得更加明显。d、当效果切换为仅在较不常见的EUR背景下出现时,检测能力可获得显著的提升。e、假设两个祖先的MAF均为20%,且AFR效应更强,与EUR效应存在不同差异,则观察Tractor检测能力相对于传统GWAS增加所需的祖先效应大小异质性阈值。f、当所有参数在祖先之间都相同时,将本地祖先纳入GWAS模型时检测能力会有一点损失。在所示的所有场景中,虚线对应于结合当地血统的Tractor模型的检测能力,而实线对应于传统GWAS模型。在所有小组中,作者模拟了10%的疾病流行率。作者使用了非裔美国人真实人口统计情景的参数:80%AFR血统,仅在AFR遗传背景中存在影响,12000例病例和30000例对照,以及20%MAF。
3. Tractor准确估计祖先特异性效应
为了确保Tractor产生可靠的祖先特异性效应,作者使用上述模拟框架,在一系列绝对和祖先不同效应大小的范围内,检查估计的效应大小与建模的效应大小。在所有基因组模型中,Tractor可以准确地估计了祖先特异性效应大小(图3)。
图3. Tractor可以准确估计祖先特异性效应的大小。a、 只有在AFR中才有效果的初始模拟框架。b、仅在AFR中,不同祖先的MAF不同,AFR为10%,EUR为30%。c、对两个祖先都有影响,以EUR为模型的影响较弱30%。d、仅EUR群体有效。这些线表示每个祖先的模拟值。蓝色代表AFR中的效果,而红色代表EUR中的效果。所有模型均包括1000个模拟重复,12000个病例和30000个对照组,在实际非洲裔美国人中疾病流行率为10%,混血比率为80/20 AFR/EUR。两个祖先的风险等位基因MAF均设定为20%。
4. Tractor重复了已知基因座并鉴定出新的关联位点
作者为了确保Tractor联合分析GWAS模型在实证数据上也表现良好,对先前证明具有祖先特异性效应的具有良好特征的血脂表型:总胆固醇和低密度脂蛋白(LDL)胆固醇进行了进行了分析。利用这组队列数据,作者利用Tractor GWAS成功重复出已知的血脂关联位点,鉴定出PCSK9, LDLR 和 APOE 这些基因。同时作者利用该模型还确定了在这些混血个体中标准GWAS遗漏的关联位点(图4)。例如,作者利用Tractor确定了仅在1号染色体(rs12740374)的AFR背景上存在的关联。在独立的非裔美国人队列中,该基因座曾被证明影响血脂水平、代谢综合征和冠心病风险。
图4. Tractor GWAS在非洲-欧洲混血个体中重复出已确定的总胆固醇信号,并识别新的祖先特异性位点。使用标准GWAS模型(a)与AFR(b)和EUR(c)的Tractor联合分析结果进行比较,得出总胆固醇的Q-Q和曼哈顿图。
5. Tractor精确定位关联信号
与使用标准GWAS程序相比,Tractor还能够更精确地确定信号位置,使其更接近于效应位点。在非裔美国人队列中,总胆固醇致病位点先前被定位到DOCK6基因的一个内含子中,这一发现作者利用标准GWAS重复了结果。作者利用Tractor确定了AFR域下游20kb的一个DOCK6 lead SNP,并对非卷积AFR片段和EUR片段的关联位点进行了meta分析。这一新的lead SNP(rs2278426)跨越DOCK6和ANGPTL8,rs2278426是一种错义突变(NC_000019.9:g.11350488C>T),猜测Polyphen和SIFT可能对人体有害。
图5. Tractor更好地定位总胆固醇的最高关联位点。a–c,在UK biobank将混血人群使用标准GWAS模型运行(a)、AFR群体中GWAS 结合Tractor(b),在非卷积EUR和AFR片段对GWAS的结果进行meta分析(c)。两次试验都精确定位了DOCK6中内含子标准GWAS 最高点下游约20kb的一个lead SNP,跨越了一个更好的候选基因ANGPTL8。EUR片段未出现显著信号。在所有曲线图中,点大小与该测试包含的样本数量成比例,颜色表示指定lead SNP的r2。重组率显示为蓝线。
在该研究中,作者总结到Tractor允许用户以更精确的方式解释祖先基因型水平,从而能够更好的在大规模基因鉴定过程中对混血人群进行校准。与传统的GWAS相比,这种方法有很多好处,包括产生准确的特定祖先的摘要统计,更精确的进行GWAS信号的定位,以及在许多遗传背景下的提高检测能力。总之Tractor改进了混血人群复杂疾病遗传学研究的现有方法,促进了人类基因组研究的准确性和包容性。
文中所有图片均来自Tractor uses local ancestry to enable the inclusion of admixed individuals in GWAS and to boost power
文中有表述不当的地方,是我的问题,请在后台与小编联系修改,也可以自行阅读原文,谢谢理解与支持。如有团体或个人认为本文侵犯您的权利,请及时联系小编删除。
文章链接地址:https://www.nature.com/articles/s41588-020-00766-y
参考文献:
Atkinson, E.G., Maihofer, A.X., Kanai, M. et al. Tractor uses local ancestry to enable the inclusion of admixed individuals in GWAS and to boost power. Nat Genet 53, 195–204 (2021). https://doi.org/10.1038/s41588-020-00766-y