关于vcf文件的学习(所有的需要信息都在头文件中)
FORMAT
variants的格式,例如GT:AD:DP:GQ:PL
GT:样品的基因型(genotype)
两个数字中间用’/'分 开,这两个数字表示双倍体的sample的基因型。
0 表示样品中有ref的allele;
1 表示样品中variant的allele;
2表示有第二个variant的allele。
所以:
0/0表示sample中该位点为纯合位点,和REF的碱基类型一致
0/1表示sample中该位点为杂合突变,有REF和ALT两个基因型(部分碱基和REF碱基类型一致,部分碱基和ALT碱基类型一致)
1/1表示sample中该位点为纯合突变,总体突变类型和ALT碱基类型一致
1/2表示sample中该位点为杂合突变,有ALT1和ALT2两个基因型(部分和ALT1碱基类型一致,部分和ALT2碱基类型一致)
AD和DP
AD(Allele Depth)为sample中每一种allele的reads覆盖度,在diploid(二倍体,或可指代多倍型)中则是用逗号分隔的两个值,前者对应REF基因,后者对应ALT基因型
DP(Depth)为sample中该位点的覆盖度,是所支持的两个AD值(逗号前和逗号后)的加和
例如:
1/1:0,175:175—GT:AD(REF),AD(ALT):DP
0/1:79,96:175
1/2:0,20,56:76
这里的三种类型对应的DP值均是其对应的AD值的加和,1/1的175是0+175,0/1的175是79+96,1/2的76是0+20+56
GQ:基因型的质量值(Genotype Quality)
Phred格式(Phred_scaled)的质量值,表示在该位点该基因型存在的可能性;该值越高,则Genotype的可能性越大;
计算方法:Phred值=-10log(1-P),P为基因型存在的概率。(一般在final.snp.vcf文件中,该值为99,为99时,其可能性最大)
PL:指定的三种基因型的质量值(provieds the likelihoods of the given genotypes);
这三种指定的基因型为(0/0,0/1,1/1),这三种基因型的概率总和为1。该值越大,表明为该种基因型的可能性越小。Phred值=-10log(P)**,P为基因型存在的概率。最有可能的genotype的值为0
关于突变的帅选
文章 Identification of trunk mutations in gastric carcinoma的筛选方法
关于VariantFiltration 的各个参数
首先尝试使用单个样本进行尝试
gatk VariantFiltration \
-V P174635_LN_filter.snp.vcf \
--filter-expression "CONTQ < 50 || DP < 500 || GERMQ < 30 " \
--filter-name "yuqiao" \
-G-filter "AF < 0.1" \
-G-filter-name "low_AF" \
-O P174635_LN_filter.snp.filter.vcf
注意:每个筛选都需要给一个名字。
此时在文件中的Format 这一栏,两个样本(癌组织和癌旁组织)都会多一个栏目FT(filter的意思),按照标准,分为PASS and low_AF加以区分。