全文引自:https://cloud.tencent.com/developer/article/1556023 侵删
Mutation Annotation Format, 简称MAF, 是由TCGA制定的一种文件格式,用来存储突变注释信息。在TCGA中,对于突变数据有以下四种类型:
Annotated Somatic Mutation, 体细胞突变的注释文件,格式为VCF, 采用VEP软件进行注释,文件后缀为vep.vcf.gz
Raw Simple Somatic Mutation, 体细胞突变的原始文件,格式为VCF, 文件后缀为vcf.gz
Aggregated Somatic Mutation, protected的突变注释文件,需要账号和权限才可以下载,格式为MAF, 文件后缀为maf.gz
Masked Somatic Mutation, open access的突变注释文件,免费下载的,格式为MAF, 文件后缀为maf.gz
在TCGA中,VCF通常用于记录单个样本的体细胞突变相关结果,MAF用于整合所有样本的体细胞突变注释结果,所以称MAF格式为project-level, 根据数据的开放性,又分为protected和open access, 其中open access就是我们可以直接下载得到的MAF文件, 以乳腺癌为例,在TCGA中提供了4个MAF文件
对应4个不同的体细胞突变calling软件,每个文件中包含了1044个样本的体细胞SNV注释结果。
MAF和VCF类似,也是一个纯文本的格式,由\t分隔的许多列构成,从GDC下载的MAF文件的截图如下
# 开头的为注释行,其他部分为正文,每一列有一个固定的表头, 完整的MAF共有100多列,在实际处理中,我们可能没有这么多列的信息,常用的几列解释如下
column1, Hugo_Symbol, 由HUGO提供的gene symbol, 表示SNV所在的基因名称
column 2,Entrez_Gene_id, SNV所在基因的entrez id, 如果没有对应的基因,则用0表示
column 4,NCBI_Build, snv calling时使用的参考基因组版本
column5,Chromsome, SNV所在的染色体
column6,Start_Position, SNV在染色体上的起始位置
column7,End_Position,SNV在染色体上的终止位置
column9,Variant_Classification, SNV位点的分类,Missense_Mutation,Nonsense_Mutation等类别,分类的依据为SNV对翻译的影响
column10,Variant_Type, SNV位点的类型,比如SNP, INS,DEl等类型
column11,Reference_Allel, 参考基因组上的allel
column12,Tumor_Seq_Allel1, 肿瘤样本中该位点对应的主等位基因
column13,Tumor_Seq_Allel2,肿瘤样本中该位点对应的次等位基因
column16,Tumor_Sample_Barcode, 肿瘤样本的barcode
column17,Tumor_Normal_Barcode,配对的正常样本的barcode
每一列的详细含义见如下链接
https://docs.gdc.cancer.gov/Data/File_Formats/MAF_Format/
MAF是专门针对human定义的一种文件格式,通过一个文件就可以包含所有样本的SNV和对应的注释信息,对于下游分析而言,非常的方便。在实际使用中, 对于VCF文件,可以通过vcf2maf将其转换为MAF格式,在后续文章中会具体介绍该软件的用法。