1. 第一步,注释
- 这一步,我们需要提供的是SNP位置文件,两种二选一:1. .snp.loc文件(自己起的名字),三列按顺序SNP ID、染色体名(1-24,X,Y,23、24对应X、Y),位置;2. PLINK .bim文件,六列:染色体(不要chr),SNP ID,遗传距离,位置,alternative allele,reference allele。遗传距离设置成0就行。不要header。
- gene loc文件在MAGMA官网有,要下载与SNP位置版本对应的,格式其实类似BED,只是把基因ID放在了第一列,chr、start、end后移了,这个文件格式其实跟snp loc一样。
- SNP genome range版本的转换可以用liftover或者CrossMap,见reference
2. 第二步,基因水平上的关联检验
如果有基因型数据
如果只有summary level的数据
输入:
- 千人基因组的bfile(.bim、.bed、.fam),这个文件是用来估计SNP间的连锁不平衡(LD)
- P value文件:从GWAS的summary table中提取(rsid、pvalue、sample size),用ncol=指定SNP的sample size的列,或者用N直接指定固定大小的sample size(e.g.,
--pvale blabla.pvalue ncol=SAMPLE_SIZE
,我习惯把从GWAS summary table中提取的样本大小列名命名成SAMPLE_SIZE) - gene.annnot文件:上一步注释的输出文件
注意!由于不同人群SNP的LD情况是不同的(貌似比较古老的人群,比如非洲人群,LD块比较小,因为染色体recombination次数更多),这里的参考变异数据应该根据summary table的研究人群来选,MAGMA官网有提供根据人群拆分版本的千人基因组变异/基因型数据
3. 第三步,整合上一步信息进行gene sets水平上的检验
输入:
- .raw文件:上一步输出了两个文件,.out和.raw
- set file:一行是一个set(可以是某个pathway的基因集等等),每行的第一列是set名称,后面的列都是基因ID(entrez ID),tab分割。
4. Meta-analysis on gene level
blabla....
可选的model
流程
# 首先需要准备.snp.loc,.gene.loc,bfile (including .bed ,.bim, .fam and maybe sy),.pvalue和.gene.sets文件
# 1. 注释
magma --annotate --snp-loc input/CARDIoGRAMplusC4D/C4D_GWA_meta-analysis/C4D_CAD_DISCOVERY_METAANALYSIS_UPDATE.snp.loc --gene-loc input/gene_locations_build36/NCBI36.3.gene.loc --out output/CARDIoGRAMplusC4D/C4D_GWA_meta-analysis/C4D_CAD_DISCOVERY_METAANALYSIS_UPDATE
# 2. 基因水平的检验(只有summary statistics数据)
magma --bfile input/g1000_eur/g1000_eur --pval input/CARDIoGRAMplusC4D/C4D_GWA_meta-analysis/C4D_CAD_DISCOVERY_METAANALYSIS_UPDATE.pvalue ncol=SAMPLE_SIZE --gene-annot output/CARDIoGRAMplusC4D/C4D_GWA_meta-analysis/C4D_CAD_DISCOVERY_METAANALYSIS_UPDATE.genes.annot --out output/CARDIoGRAMplusC4D/C4D_GWA_meta-analysis/C4D_CAD_DISCOVERY_METAANALYSIS_UPDATE
# 3. 基因集合水平的检验
magma --gene-results output/CARDIoGRAMplusC4D/C4D_GWA_meta-analysis/C4D_CAD_DISCOVERY_METAANALYSIS_UPDATE.genes.raw --set-annot input/gene_sets/MSigDB_gene_sets_v6.2/c5_go/c5.bp.v6.2.entrez.gmt.gene.sets --out output/CARDIoGRAMplusC4D/C4D_GWA_meta-analysis/C4D_CAD_DISCOVERY_METAANALYSIS_UPDATE
Reference
MAGMA软件说明文档:https://ctg.cncr.nl/software/MAGMA/doc/manual_v1.07.pdf
MAGMA原文算法说明文档:https://journals.plos.org/ploscompbiol/article/file?type=supplementary&id=info:doi/10.1371/journal.pcbi.1004219.s001
MAGMA官网:https://ctg.cncr.nl/software/magma
liftover:https://genome.sph.umich.edu/wiki/LiftOver
CrossMap:http://crossmap.sourceforge.net/#input-and-output