1. 准备工作:
- 登陆TCGA数据库GDC界面:https://portal.gdc.cancer.gov/
-
首先确保Cart中没有之前的文件记录,如果有其他文件(即文件数不为0),清空Cart。
-
如果Cart文件数不为0,则点击进入Cart界面进行清空。
2. 选择样本类型及性质:
- 点击Repository进入数据仓库,随后点击Cases样本类型及性质的选择:
-
首先确定样本部位,以前列腺癌样本举例:
-
选择样本来源项目,如果只分析TCGA的样本,则只选择TCGA:
-
我们之前的一些选择,会不断缩小样本范围,所以我们发现Project选项下只有一个TCGA-PRAD,我们可不用点击,不选择表示该选项下的内容都要。
Disease Type这里根据分析需要进行选择,这里我为了统一病理类型,进行了选择。
Gender无特殊需要可不进行选择。
Vital Status一般我们需要进行生存分析的话,就选择alive和dead的患者,not reported的患者表示生存资料不全,可以进行剔除。
Age at Diagnosis以及Days to Death根据自己课题需要进行设定,一般情况下默认不设定筛选条件。
-
Race和Ethnicity一般情况下不设定筛选条件,并且这里的nor reported的样本过于多,我们不进行筛选了,以免丢失过多样本数。
3. 选择组学数据类型及格式:
- 点击Files选择数据类型及格式。
- Data Category这里用最常见的转录组数据举例,选择transcriptome profiling.
- Data Type选择Gene Expression Quantification,代表蛋白编码基因和长链非编码基因的测序数据。miRNA基因的测序数据不包含在其中,需要选择miRNA Expression Quantification而不是Gene Expression Quantification。
- Experimental Strategy只有一个选择,默认不选,Workflow Type根据自己需求,一般常用的是Counts数据或FPKM数据。
*一般选到这里就不再点击其他筛选条件了,而且一般其他选项也只剩一个选项了。 -
Access表明数据权限,我们普通用户只能使用open的数据,如果出现了非开放的数据,记得这里只点击open。
4. 下载选择好的数据:
-
将选择好的数据加入购物车,随后点击Cart进入购物车界面。
- 在Cart界面分别点击Metadata(下载注释文件)以及Download(下载数据)。Download选项提供两种数据下载途径:Manifest表示下载Manifest文件后使用gdc-client软件下载数据(gdc-client下载数据方法),这种方法适合下载大文件;Cart表示通过浏览器直接下载,该方法更方便,但是不适合下载很大的文件。
- 至此TCGA数据下载已完成。