如何下载TCGA数据/TCGA数据下载小教程

1. 什么是TCGA?TCGA中有哪些数据?

TCGA的全称是The Cancer Genome Atlas, 这个项目始于2005年,它旨在使用基因测序和生物信息学编目与癌症有关的基因突变。TCGA通过利用高通量基因组分析技术,来帮助我们更好地理解癌症的遗传学基础,从而提升我们对于癌症的诊断能力和对癌症的治疗、预防。
TCGA受美国癌症研究所(National Cancer Institute)下的癌症基因组中心和美国人类基因组研究所监管。
TCGA包括主要进行测序的基因组表征中心(genome characterization centers, GCCs)和负责测序数据分析的基因组数据分析中心(genome data analysis centers, GDACs),到目前为止TCGA共有39种癌症的相关测序数据,涉及29种癌症器官,1万多个肿瘤样本,27万多份文件。

• 那么可以从TCGA中下载到哪些类型的数据呢?
TCGA的数据类型主要有以下几种:
(1) Clinical: 包括病人的一般情况、诊治情况、TNM分期、肿瘤病理、生存情况等。
(2) mRNA表达数据: 通过mRNA芯片或者RNAseq测得的mRNA表达量
(3)microRNA: microRNA芯片或者microRNA-Seq测得的microRNA表达量
(4) Copy number variation: SNP芯片得到的肿瘤组织比对正常组织的染色体上各片段的比值
(5) Mutation: 肿瘤组织测序结果相对参考基因组的核苷酸突变,包括插入和缺失等变化
(6) Protein: 蛋白芯片测序得到的约200种常见癌症相关蛋白的表达量
(7) Mythelation: 甲基化芯片测得的DNA甲基化数据,主要为27和450两种芯片的数据

其中mRNA-Seq,miRNA-Seq以及Methylation Array被广泛使用。

mRNA-Seq数据分为3种
HTSeq-Counts;HTSeq-FPKM;HTSeq-FPKM-UQ。
前两个比较好理解,第三个跟第二个的区别在于不同的标准化方法,公式可参考https://docs.gdc.cancer.gov/Data/Bioinformatics_Pipelines/Expression_mRNA_Pipeline/

• TCGA数据等级:

level1:原始数据
level2:处理过的数据
level3:经过分割、解释的数据
level4:感兴趣的区域或概要
总而言之,前面2个层级的数据一般是拿不到的,需要权限,一般也只有国外的PI才能申请到(听说的),我们一般拿到的open数据就属于那种已经标准化后的数据。

• TCGA样本分类:
除了要知道数据等级外,我们还需要了解TCGA的样本分类,比如哪个是正常样本,哪个是肿瘤样本

一般我们可以看到样品名称如:TCGA-19-2619-10A,我们需要关注的是最后一位10A,一般来说01代表癌症样本,11代表癌旁样本。其实从01-09是tumor,癌症样本;10-29是normal,癌旁样本。只是其中分的比较细

具体可参考官网说明:https://wiki.nci.nih.gov/display/TCGA/TCGA+barcode

2. TCGA数据下载方式

主要有三种方式可以下载TCGA的数据,一是利用GDC官方的下载工具;二是利用cbioportal下载;三是TCGA-assembler 2。

在这里我将着重分享一下利用GDC进行TCGA数据下载的方式

(1) GDC官方下载工具下载和安装

TCGA GDC Data Portal官网地址为:https://portal.gdc.cancer.gov/

进入GDC主页面之后,选择"Repository"进行查看以及下载数据(Browse and download data);
GDC home page

进来“Reoository”的界面如下图。GDC给出了一系列的用户友好的选择框,你只需要根据条条框框来选择就可以下载到自己想要的数据,而不需要去几百个文件夹里面漫无目的的查找了。根据自己课题的需求,在对应的"Cases"框和"Files"分别选中你要的条件即可。
Repository 界面

一般在下载数据时先设定“Cases”的条件,再设置“Files”的条件。下面以下载乳腺癌miRNA表达数据为例进行演示:
• 在Cases界面分别对Primary Site, Project, Disease Type几个主要信息进行设置,如下图:

TCGA数据下载示例1

• 在Files界面进行选择,它包括Data Category, Data Type, Exprimental Strategy, Workflow Type等。选择如下图:
TCGA数据下载示例2

• Cases和Files都选择好了之后,点击“Manifest”下载相应的.manifest文件
TCGA数据下载示例3

• 下载选择这批Cases的clinical信息文件:即不改变Cases部分的选择,清空Files的勾选项,在Data Category中选择Clinical,再在Data FOrmat中选择XML格式,如下图:
TCGA数据下载示例4

同样的选择好后,下载manifest文件。
▷ Tip: 注意此时得到的样本数量,这在后续用下载得到的miRNA表达数据结合临床信息进行生存分析的时候有用

• 两个manifest文件下载完后,通过Filezilla Client这个软件将本地的manifext相关的两个.txt后缀的文件传输到linux服务器上
(这一步是否要进行取决于你想在哪边使用GDC client这个软件,由于我之后会直接把GDC client下载到linux服务器上,所以同时也把manifest.txt上传到了服务器)
▷附GDC Data Transfer Toll Client地址https://gdc.cancer.gov/access-data/gdc-data-transfer-tool

TCGA数据下载示例5

接下来主要是Linux服务器上的命令相关操作

1. Linux环境下下载并解压GDC Client

wget https://gdc.cancer.gov/system/files/authenticated%20user/0/gdc-client_v1.4.0_Ubuntu_x64.zip
unzip gdc-client_v1.4.0_Ubuntu_x64.zip

2. 利用GDC Client下载menifest.txt文件中的数据

./gdc-client --help
./gdc-client download --help
./gdc-client download -m gdc_manifest.2019_04_24_BRCA_clinical.txt
同理根据miRNA的manifest文件下载miRNA的数据。

3. 查看样本的生存情况

grep -i vital_status */*xml | grep -v Alive | wc
因为false不代表death,所以这里选择查看的是alive的样本数量。
当你不那么会编程,但是有需要整理下载下来这些样本时,你可能会需要以下命令:
grep -i vital_status */*xml|grep Alive |cut -d"." -f 3|sort -u |wc

Reference:
[1] TCGA-wikipedia
[2] 初步认识TCGA
[3] 生信技能树-TCGA肿瘤数据库知识图谱视频教程

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 195,898评论 5 462
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 82,401评论 2 373
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 143,058评论 0 325
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,539评论 1 267
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,382评论 5 358
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,319评论 1 273
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,706评论 3 386
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,370评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,664评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,715评论 2 312
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,476评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,326评论 3 313
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,730评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,003评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,275评论 1 251
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,683评论 2 342
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,877评论 2 335