从今天开始,我又要经常回到简书记录一些数据下载,处理流程了。目前需要UKBB的GWAS, 用的人很多,都是大文章,大手笔。我没有找到怎么下载的。所以打算自己跟着帮助文档学习一下,另外也记录一下这个过程。
首先经过严格的申请流程后,会得到下数据的批准邮件。
获取Accessing_UKB_data_v2.2.pdf帮助文档,UKBB数据量庞大,并且记录详实,这就造成了用户有很多文档需要读,快速找到信息过于繁琐而难以实现。
UKBB genotype数据处理流程:https://biobank.ndph.ox.ac.uk/showcase/showcase/docs/genotyping_sample_workflow.pdf
Genome-wide genetic data on 500,000 UK Biobank participants:wtchg_gene_paper.html
Cov-19GWAS数据文献:https://biobank.ndph.ox.ac.uk/showcase/showcase/docs/c19link_phe_sgss.pdf
Citation:Watanabe, K. et al. A global overview of pleiotropy and genetic architecture in complex traits. Nat. Genet. 51, 1339-1348 (2019). PMID: 31427789
600 GWAS were performed in this project based on UK Biobank release 2 data under application ID 16406. Full summary statistics can be downloaded from the original source following the provided links.https://ctg.cncr.nl/documents/p1651/ukb2_sumstats.tar.gz
UKBBphenotype数据处理流程:https://github.com/Nealelab/UK_Biobank_GWAS/tree/master/imputed-v2-gwas
phenotype 处理工具:Millard LAC, Davies NM, Gaunt TR, Davey Smith G, Tilling K. PHESANT: a tool for performing automated phenome scans in UK Biobank. bioRxiv (2017) https://github.com/astheeggeggs/PHESANT
另外,这里提供http://www.nealelab.is/uk-biobank
GWASimputedv3:https://docs.google.com/spreadsheets/d/1kvPoupSzsSFBNSztMzl04xMoSC3Kcx3CrjVf4yBmESU/edit?ts=5b5f17db#gid=113065058
GWAS ROUND1:https://docs.google.com/spreadsheets/d/1b3oGI2lUt57BcuHttWaZotQcI0-mBRPyZihz87Ms_No/edit#gid=275725118
首先针对UKB数据申请,你需要有一个Principal Investigator (PI) ,只有他才有群里进入AMS系统,普通用户进入首页和登陆后从AMS进入界面是不同的,可以看到showcase的差异。一般而言,一个项目组一个PI就可以,其他的设置为Collaborators即可。
申请邮件会被回复一个32位的MD5码,UKBB所有数据均有MD5码,以解密确保数据安全。另外附件中会有一个 k56789r23456.key的文件,这个至关重要,可以通过密匙获取数据。每个申请用户都不同,不可私下共享。
UKBB数据有主要数据集,另外有大量的图数据,最后是基因数据。此外还有医院住院数据,和返回数据。
作为UKBB用户,可以直接通过AMS系统发邮件给工作人员,回复速度还是很快的。
下一节,看一下主要数据集的下载。