关于为何要进行SNP的过滤:
第一,低质量和无信息的SNP会影响后续群体结构或GWAS的分析结果,甚至影响后续对生物学问题的解释;第二,群体研究时,由于测序的个体较多检测出来的变异位点经常会数以千万计,进一步过滤会减少后续分析时,对计算资源的需求。
indel邻近区域的SNP和10bp范围内的SNP cluster
这两个参数并非通用,为什么要考虑它们见图片中的描述
10bp范围内有3个以上的SNP,去除掉
#标出10bp范围3个SNP的 ”SnpCluster“
gatk VariantFiltration -V 324.wgs.call.SNP.Filter-SOR.ANN.vcfFliter.vcf -cluster 3 -window 10 -O 324.wgs.call.SNP.Filter-SOR.ANN.vcfFliter.10-3filter.vcf
#去除上一步标出的SnpCluster"
gatk SelectVariants -V 324.wgs.call.SNP.Filter-SOR.ANN.vcfFliter.10-3filter.vcf -O 324.wgs.call.SNP.Filter-SOR.ANN.vcfFliter.10-3filter-2.vcf -select "FILTER == SnpCluster" --invertSelect
去除indel附近5bp范围内的SNP
bcftools filter -g 5 -O v -o 1-SnpGap5.vcf ../324.wgs.PASS.ANN.vcf.gz
基因型的质量
除了考虑位点的质量之外,还要考虑每个个体在这个位点上的基因型,只保留基因型上GQ值大于20,大于5条reads覆盖的基因型,否则设为miss即 ./.
vcftools --vcf 324.wgs.call.SNP.Filter-SOR.ANN.vcfFliter.10-3filter-2.vcf --minDP 5 --minGQ 20 --recode --recode-INFO-all --out test-minDP5-minGQ20.vcf
其他常见的过滤参数主要有:
最小等位基因频率(Minor Allele frequencies)
MAF是次要等位基因频率。它是指群体中第二多的等位基因频率假设某一位点,检测到了A,T和C三种碱基,A出现20次,T出现10次,C出现5次,则第二多的T的等位基因频率为10/35
下图所示的是不同SNP之间AF的差异。总共有324个二倍体个体,共648个位点,有些变异碱基只出现了1次或2次。
缺失比例(missing rates)
假如缺失比例为0.05,总共100个个体的情况下,则该SNP在100*0.05=5个个体中丢失。
bi-allelic位点
为什么一般只保留bi-allelic SNP,要去除multi-allelic SNP?
bi-allelic位点是指基因组的某个位置上有两个allele,其中参考基因组在该位点上的碱基算作一个allele,样本在该位置上的变异算作一个allele。所以bi-allelic 位点即该位点只有一种变异。例如下图所示的位点7只有一种变异,样本1-3的deletion。
而下图所示的位点7则是一个multi-allelic位点,有参考基因组的G和样本2的C和样本3的T两种SNP。
质量(Quality)
在将样本的reads比对到参考基因组上后,比对到某个SNP的reads数量越多,则该SNP的Q值越大即越可信。
连锁不平衡(LD)
进行群体遗传结构分析时,如果位点之间有强连锁的关系则会影响分析的结果,因此需要过滤掉互相之间连锁不平衡的SNP。