本文亮点

整合生物信息学和多组学方法对于识别和确定复杂性状和疾病中的因果遗传变异至关重要。
小鼠的Pla2g4e基因案例研究说明了使用调控元件内的SNP来缩小致病变异范围的实际例子，为类似的基因研究提供了可复制的模型。
介绍了一种用于识别和排序含有 SNP 的调控元件的分层策略，有效地缩小了功能测试的候选范围。
所提出的方法可以减少未来验证遗传变异因果关系所需的时间和资源，从而加速研究。
介绍了一种用户友好的生物信息学流程，各个级别的研究人员都可以使用，而无需专业的生物信息学专业知识。

背景

GWAS帮助鉴别出很多性状的QTL或相关多个SNP，然而，证明确定性状与某个特定基因是因果关系或确定导致QTL效应的确切遗传变异仍然具有挑战性。

解决方案1：因果序列变异的优先级排序：调控元件内的 SNP 是一种有效的过滤方法

作者们认为，使用映射到调控元件的 SNP是一种有效的策略，可以过滤和优先考虑潜在的因果变异。
进一步的排序可以基于科学文献或注释的强度（例如，预测特征与实验验证的特征）。SNP 可以从特定人群、品种或品系的文献或数据库中获取，但确定研究人群中的 SNP 是最有效的

image.png

使用生物信息学工具对筛选的SNP进一步进行注释和预测
计算方法使用序列保守性、整合基因组数据、预测基序破坏、应用机器学习、注释调控元件并评估多态性对基因调控的影响。每种方法都提供了独特的见解和优先次序，增强了对功能性调控变异的识别。

Ensembl 变异效应预测器 (VEP)： VEP [ 15 ] 根据 SNP 变异在基因结构中的位置及其在蛋白质编码区中的潜在影响对其进行分类。它通过识别与调控元件（启动子、增强子、TFBS）的重叠来注释变异，并预测编码区内错义、无义和同义变化等功能后果。用户可以根据等位基因频率、预测的影响严重程度和已知的疾病关联来筛选变异。

序列操作套件：这个 JavaScript 程序集合 [ 16 ] 包含 60 多种用于分析和格式化 DNA 和蛋白质序列的工具。它包括一个用于识别 CpG 岛的工具和各种序列操作工具，包括基序搜索和 DNA 模式识别（串联重复、回文、GC 含量）。

TargetScan： TargetScan [ 17 ] 是一个网络服务器，可预测在多个物种中保守的 miRNA 生物靶标并指出其可能的功能意义。然后，研究人员可以评估这些靶标中的 SNP 对转录后调控的潜在影响。上下文得分考虑了其他特征，例如位点可及性和种子配对稳定性，从而提高了优先级的可靠性。

AnimalTFDB： AnimalTFDB [ 19 ] 是一个全面的动物 TF 数据库，其中包含附加注释（TF 相关变异、基因表达、翻译后修饰、自噬信息）。这些是研究 TF 功能和调节的重要资源。它们提供了对不同物种中 TF 结合位点保守性的见解，有助于优先考虑影响保守调节机制的变异。

GERP（基因组进化速率分析）： GERP 评分 [ 58 ] 通过测量进化约束来识别进化保守的基因组元素。GERP 评分越高，保守性越高，表明这些区域可能具有重要的功能。优先考虑高度保守区域中的变异有助于识别潜在有害或功能重要的调控元件。

PMCA（概率基序聚类算法）： PMCA [ 21 , 22* ] 使用概率框架识别和描述基因组序列中的调控基序。这有助于理解变异如何破坏这些基序并影响调控活动。此外，它还检查顺式*调控模块中保守的共现转录结合位点模式。

Basset 计算方法： Basset [ 23 , 24 ] 是一种使用深度卷积神经网络的机器学习方法，它根据 DNase-seq 等高通量数据预测序列变异对 DNA 可及性的影响。它识别影响染色质可及性和基因调控的变异，并表明它们的调控影响。

image.png

多组学分析 - 多组学信息整合

整合多组学数据揭示了候选基因与特定表型或疾病之间的联系，并识别了可能导致基因表达变化的遗传变异。

表型水平

为了验证基因的功能和进化相关性，必须研究其与不同物种相似性状的关系。PheWAS 和 ExPheWas 等资源有助于建立这些关联。
案例研究：Pla2g4e与肥胖、2 型糖尿病和各种物种的代谢特征有关。PLA2G4E SNP 已显示出与人类和猪的身体组成特征的关联，为其在代谢表型中的作用提供了跨物种证据。

基因组水平

评估一个基因作为致病基因的潜力涉及使用 Ensembl 和 UCSC 基因组浏览器等资源收集有关其结构、变异效应、调控区域、进化保守性和疾病关联的信息。
案例研究：Ensembl 用于识别Pla2g4e位置与调控元件之间的重叠，突出其在小鼠和人类之间的进化保守性。SNP 被映射到调控元件上，以帮助确定候选变体和元件的优先顺序。

转录组水平

生物信息学工具可预测遗传变异对转录和转录后调控的影响。TFLink、MGI、MGD、SignLink、RISE 和 miRTarBase 等数据库可用于获取基因、TF 和 miRNA 之间经过实验验证的相互作用。过滤方法可捕获包含 SNP 的调控元件内的 TF 和 miRNA 结合位点。
案例研究：使用 TFLink，我们阐明了两种物种中与Pla2g4e相互作用的大量 TF，其中一些表现出进化保守性。检查了 TF 结合位点中的 SNP 在差异表达中的作用。miRTarBase 提供了可能影响Pla2g4e表达的 miRNA 信息，miRNA 种子区域中的某些 SNP 可能在肥胖和瘦小鼠系之间的差异基因表达中发挥作用。

表观基因组水平

整合转录组和表观基因组信息可识别调节基因表达的表观遗传标记，区分因果基因或变异和仅相关基因或变异。可以使用序列操作套件确定 CpG 岛，而 WashU 表观基因组浏览器可以找到甲基化的实验证据。分析 SNP 的位置及其对甲基化模式的影响对于评估基因表达至关重要。
案例研究：对 CpG 岛、CTCF 结合位点和组蛋白甲基化位点中的 SNP 的分析确定了对Pla2g4e表达具有潜在表观遗传影响的元素。

组学水平	生物信息学工具	网页
基因组
	一起	https://www.ensembl.org ^一个
	UCSC 基因组浏览器	https://genome.ucsc.edu/
	美国国立生物技术信息中心	https://www.ncbi.nlm.nih.gov/
	GWAS 目录	https://www.ebi.ac.uk/gwas/^一个
	黄金螺旋基因组浏览	https://www.goldenhelix.com/products/GenomeBrowse/^一个
	QTLdb（动物QTL数据库）	https://www.animalgenome.org/cgi-bin/QTLdb/index
	MGI（小鼠基因组信息学）	https://www.informatics.jax.org/^一个
	大鼠基因组数据库 (RGD)	https://rgd.mcw.edu/^一个
转录组
	TFlink（TF—靶基因相互作用）	https://tflink.net/^一个
	Modomics（RNA修饰）	https://genesilico.pl/modomics/
	Tabula Muris（小鼠单细胞转录组数据库）	https://tabula-muris.ds.czbiohub.org/
	AnimalTFDB（动物转录因子数据库）	http://guolab.wchscu.cn/AnimalTFDB4/^a,b
miRNA
	miRTarBase（已验证的 miRNA–靶标相互作用）	https://mirtarbase.cuhk.edu.cn/^一个
	TargetScan（miRNA 目标预测）	https://www.targetscan.org/vert_80/^一个
蛋白质组
	UniProt（蛋白质序列和功能信息）	https://www.uniprot.org/
	PDB（蛋白质数据库）	https://www.rcsb.org/search
	dbPTM（翻译后修饰）	https://awi.cuhk.edu.cn/dbPTM/
代谢组
	HMDB（人类代谢组数据库）	https://hmdb.ca/
表观基因组
	MethPrimer（甲基化PCR和CpG岛预测的引物设计）	https://www.urogene.org/methprimer/
	SMS；序列操作套件（CpG 岛预测^b）	https://www.bioinformatics.org/sms2/^一个
相互作用组学
	STRING（功能性蛋白质关联网络）	https://string-db.org/
	GeneMania（基因功能和相互作用网络预测）	https://genemania.org/
	RISE（来自测序实验的RNA相互作用组）	http://rise.zhanglab.net ^一个
	Cytoscape（网络数据集成、分析）	https://cytoscape.org/
	GenProBiS（蛋白质结合位点的序列变体）	http://genprobis.insilab.org/
表型组学
	埃克斯菲瓦斯	https://exphewas.statgen.org/v1/^一个
	PheWAS 资源	https://phewascatalog.org/
	这是一个开放的 GWAS 项目	https://gwas.mrcieu.ac.uk/
	PigBiobank（猪复杂性状百科全书）	https://pigbiobank.ipiginc.com/home ^一个
富集分析
	Enrichr-KG（跨多个数据集的富集分析）	https://maayanlab.cloud/enrichr-kg
	g:Profiler（基因列表的功能富集分析和功能分析）	https://biit.cs.ut.ee/gprofiler

进一步需要思考的问题

可以采用哪些先进的生物信息学和实验技术来更好地区分致病 SNP 和旁观者 SNP，特别是那些未映射到注释的调控元件的 SNP？将不同的数据源和高分辨率功能分析与机器学习预测相结合可以改进对潜在致病 SNP 的识别。
如何提高基因组注释的准确性和完整性，特别是对研究较少的基因和区域，以提高生物信息学分析的可靠性？加强跨基因组平台和物种的协作和标准化报告可以帮助填补这些空白。
研究人员如何才能更有效地解释连锁不平衡区域内的 SNP，以识别功能最相关的变异？为了区分单个和多个连锁 SNP 的影响，需要整合来自多个组学层的数据，采用先进的统计方法，并进行实验验证。
如何将 scRNA-seq、空间转录组学和先进的基因组编辑技术等新兴技术更好地整合到验证候选遗传变异功能影响的工作流程中？创建标准化的表型和功能检测方案和数据集成平台可以促进识别致病等位基因的细胞和组织特异性影响。
如何进一步利用人工智能和机器学习框架来预测遗传变异对表型的功能影响并简化因果变异的识别？将人工智能和机器学习整合到遗传变异分析中，可以受益于在多样化、高质量数据集上训练的复杂模型和跨学科协作。通过实验验证和开放访问数据存储库进行的持续改进应进一步提高候选因果变异的预测准确性和可靠性

参考文献

A bioinformatics toolbox to prioritize causal genetic variants in candidate regions

搜索致病遗传变异的生物信息学方案