举个栗子:
Meta informations
这块儿由##打头,第一行必须是VCF的版本信息
- INFO
规定VCF主体部分INFO字段可能出现的变量和对应值的数目、类型
比如,特殊地,##INFO=<ID=AF,Number=A,Type=Float,Description"Allele Frequency">表示对于INFO字段中的AF键来说,它的值的数目跟alternative allele一样多 (Number=A的意思就是每个alternate allele一个值)。其它各种奇奇怪怪的特殊规定见参考文献 - FILTER
规定VCF主体部分FILTER字段可能出现的类型,好像PASS不用特意规定? - FORMAT
这个比较重要,规定VCF主题部分FORMAT字段可能出现的类型。FORMAT字段与样本具体信息是对应的,信息由冒号分割。
GT,GQ,DP,HQ分别表示基因型(genotype),基因型质量(genotype quality),片断覆盖度(read depth),单体型质量(haplotype quality)。片段覆盖度就是比对之后,有多少片段与这个位点有overlap(猜测可能可以作为基因型可信度的一个指标?read少的话,偶然情况比较大,得到的基因型可信度不高?)。
GT是1|0表示这是个二倍体,1表示第一个alternate allele (对应ALT字段的第一个allele),0表示reference allele(对应REF字段中的allele),另外|表示该基因型已被分型(就是把allele属于两条染色体的哪个已经分配好了,具体算法得有利用富含杂合位点的片段来做的或者直接家系信息,GATK4应该有具体的实现)。如果是未分型的,则是1/0。如果是三倍体,则是类似0/1/0这种。
Data lines
固定的字段
样本基因型字段