MAGMA软件实现gene-based & gene-set-based关联分析

作者:Bio_gevin
审稿:童蒙
编辑:amethyst

随着全基因组关联分析使用样本数量的增加,人们也逐渐认识到很多感兴趣的性状在本质上是由微效多基因控制。单个SNP的关联分析难以捕获显著性的结果,这种以基因为单位、以功能通路为单位或者以其他具有生物学意义的SNP聚集的方式的关联分析应运而生,这也是对仅以SNP-based关联分析的一种很好的补充。

随着接触复杂疾病相关研究,经常会查询相关文献,而MAGMA(Multi-marker Analysis of GenoMic Annotation)在高分文献中高频出现。

MAGMA包括三个功能模块:
①注释步骤,将SNP map到基因中;
②基于基因关联分析,计算基于基因和性状的关联显著性,在这又可以分为两个部分,一种是基于raw data的gene-based关联分析,另一种是基于SNP pvalue的gene-based关联分析;
③基于基因集的关联分析。

GWAS summary statistics格式介绍

GWAS summary statistics格式在关联分析中经常使用,很多软件基于该种格式数据来实现功能,也会有一些软件设置了使用该种格式数据的接口,因此有必要简单介绍一下各列的含义,如下图:

MAGMA软件使用

SNP注释

MAGMA软件第一步是SNP注释步骤,输入的文件是bim文件(plink格式文件)和基因的位置信息。
magma --annotate --snp-loc [SNPLOC_FILE] --gene-loc [GENELOC_FILE] --out [OUTPUT_PREFIX]
①SNP位置信息文件应该包含三列,即前三列为SNP ID, chromosome, 和base pair position,如果是plink产出的bim文件就不需要修改了,plink的bim文件格式如下:(染色体,SNP ID,unknown,BP,ref和alt)


②基因的位置信息文件应该包含至少四列,即gene ID, chromosome, start site和stop site,第五列可以是正负链信息(仅在用不对称的基因窗口注释时才会用到),具体格式如下:

③产出结果:gene ID,基因位置,SNP ID

基于基因的分析

基于基因的分析可以分为两个部分:基于原始数据的基因分析和基于SNP p-value数据的基因分析。

基于原始数据的基因分析,输入的是原始文件bed/.bim/.fam(可直接输入名字,不用加后缀);上一步输出的结果.annot文件。
magma --bfile [DATA] --gene-annot [ANNOT_PREFIX].genes.annot --out [GENE_PREFIX]

基于SNP p-value数据的基因分析,--pvalue参数需要指定SNP pvalue文件。

magma --bfile [DATA] --gene-annot [ANNOT].genes.annot --pval [PVAL_FILE] N=[N] 
magma --bfile [DATA] --gene-annot [ANNOT].genes.annot --pval [PVAL_FILE] ncol=[N_COL]

基于原始数据的基因分析
其中DATA必须为plink格式文件,[DATA].bed, [DATA].bim和[DATA].fam files;默认是使用PCA回归基因分析模型。
magma --bfile /GWAS/split_chr/Middle/chr1 --gene-annot gevin.genes.annot --out gevin_gene_based_rawdata
基于SNP p-value数据的基因分析
magma --bfile /GWAS/split_chr/Middle/chr1 --gene-annot gevin.genes.annot --pval SNPassocFisher.result use=2,8 N=170 --out gevin_gene_based
参数分别为:

  • –gene-annot:注释文件;
  • –pval:GWAS结果;
  • N:样本数;
  • use=1,3: 表示GWAS结果中snpID位于第1列,P值位于第3列;
  • ncol=[N_COL],ncol和N都是用去指定样本数,N只能统一指定一个值,对于case-control总体的数目,而对于分析X和Y染色体上的位点时,可能需要两个样本值;而对于meta分析时,每个SNP都对应着不同的样本数,因此会用到多个样本值,ncol就可以指定SNP对应样本数的列。ncol参数是被推荐。

注意:
a:MAGMA提供同义SNP(需要依据dbSNP,一些不同的rs IDs已经合并成为一个ID)处理
b:指定gene-based分析的模型,主要有三个:

  • the principal components regression (linreg) model
  • the SNP-wise Mean (snp-wise=mean) model
  • the SNP-wise Top 1 (snp-wise=top) model
    对于Gene analysis on raw genotype data分析应用的模型默认是linreg,而对于使用--pval参数的分析,默认使用的模型是snp-wise=mean。

产出结果的解读

  • GENE:第一步注释完之后的基因ID;
  • CHR:基因位于的染色体;
  • START/STOP:染色体上基因的注释边界;
  • NSNPS:注释到该基因的SNP数量;
  • NRARE:被分类为罕见变异的SNP数量;
  • NPARAM:模型中使用的相关参数的个数;
  • N:样本量;
  • ZSTAT:基因的z值;
  • P:基因的p值;
  • RSQ/RSQ_ADJ:模型的R2和调整后的R2值。

基于基因集的分析

基因集分析可以更加直观的展示出基因的哪些功能和生物学特性是与特定表型相关的,而基因具有多种特性,这些特性在不同基因中通常是相关的,容易在基因集关联分析引入混淆,MAGMA在基因集分析中有了很大功能提升。

magma --gene-results [GENE_RESULTS].genes.raw --set-annot [SET_FILE] --out [OUTPUT_PREFIX] 
MAGMA/magma --gene-results gevin_gene_based.genes.raw --set-annot synapse.sets col=1,2 --out gevin_geneset_based

其中:

  • –gene-results:基于基因分析产生的.genes.raw文件;
  • -set-annot [file] col=1,2:基因集文件,第一列geneID,第二列基因所属set(可以是KEGG或者GO条目等基因通路)。
    产出结果的解读

    每列分别为:
  • VARIABLE: 基因集名称;
  • TYPE: 类型;
  • NGENES: 基因集中基因数目;
  • BETA: 变量回归系数;
  • BETA_STD: 半标准化回归系数,对应于预测基因集/基因协变量中一个标准偏差的变化时预测 Z 值的变化(即 BETA 除以变量的标准偏差);
  • SE: 回归系数的标准误;
  • P: 基于基因集分析的p-value。

总结

MAGMA软件输入数据既可以是原始数据也可以是关联分析结果数据,既可以进行gene-based分析挖掘特定表型相关的基因,也可以进行生物通路水平的分析,在充分使用测序数据和表型的同时也丰富了我们的分析结果。

参考文献

https://ctg.cncr.nl/software/magma

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 211,743评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,296评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,285评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,485评论 1 283
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,581评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,821评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,960评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,719评论 0 266
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,186评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,516评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,650评论 1 340
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,329评论 4 330
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,936评论 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,757评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,991评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,370评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,527评论 2 349

推荐阅读更多精彩内容