一、概况
ICGC全称是International Cancer Genome Consortium (国际癌症基因组联合体)。其旨在发起和协调大量的研究项目,其共同目标是全面阐明导致全球人类疾病负担的多种癌症中存在的基因组变化。
ICGC Data Portal提供了用于可视化,查询和下已发布的数据的数据工具。中国镜像站网址:https://icgcportal.genomics.cn/。
ICGC数据库目前收录了76个研究项目的结果数据,记录了1.7万余癌症患者的68,194,271个突变信息,涉及了5万余个基因信息。
二、结果数据下载
点击DCC DATA RELEASES进入数据下载界面:
DCC DATA RELEASES PROJECTS 包括多个项目数据,可以选择Summary进行全部项目的下载,也可以选择单个项目进行下载。
每个项目都包括donor、biomarker、exposure、famliy、surgery、therapy、sample、specimen, 以及最重要的simple_somatic_mutation 的信息。可直接点击链接下载。
simple_somatic_mutation文件的表头包括:
- icgc_mutation_id
- icgc_donor_id
- project_code
- icgc_specimen_id
- icgc_sample_id
- matched_icgc_sample_id
- submitted_sample_id
- submitted_matched_sample_id
- chromosome
- chromosome_start
- chromosome_end
- chromosome_strand
- assembly_version
- mutation_type
- reference_genome_allele
- mutated_from_allele
- mutated_to_allele
- quality_score
- probability
- total_read_count
- mutant_allele_read_count
- verification_status
- verification_platform
- biological_validation_status
- biological_validation_platform
- consequence_type
- aa_mutation
- cds_mutation
- gene_affected
- transcript_affected
- gene_build_version
- platform
- experimental_protocol
- sequencing_strategy
- base_calling_algorithm
- alignment_algorithm
- variation_calling_algorithm
- other_analysis_algorithm
- seq_coverage
- raw_data_repository
- raw_data_accession
- initial_data_release_date
其中raw_data_repository,raw_data_accession的信息值得注意,它给出了获取样本原始测序数据的渠道。
三、原始数据下载
美国的项目(TCGA,TARGET)原始数据可以在GDC(Genomic Data Commons)网站上下载 https://portal.gdc.cancer.gov/, 但需要权限。
美国以外的项目可以在 European Genome-phenome Archive (EGA, https://ega-archive.org/)上下载原始数据,同样需要向项目相关人员申请下载权限。
一个成功申请GDC数据权限的丁香园战友分享: 如果你所在的科研机构有eRA Commons账号的话,你自己以PI身份申请一个子账号,然后再写项目申请,等待SO审核,再等待GDC审核。
四、延伸阅读
关于TCGA数据库的介绍,推荐另外一篇简书文章,//www.greatytc.com/p/829c3e311e54。