标记过滤指标概念
- miss 缺失率,即标记缺失的比例 一般过滤0.1或者0.2;对于简化基因组的也有进行0.5的过滤的,看具体需求了
- maf 最小等位基因频率 一般过滤0.05或者0.01
- DP 深度,reads支持数 这个要根据具体测序的情况最好过滤到4,7,10以上,然后对于深度高于平均深度3-5倍的,尽量也进行过滤,因为大概率是重复区域的情况
- GQ 基因型质量值 一般gatk过滤30,samtools过滤20
- AD ref,alt基因型情况 如果是动植物这种germline的变异一般要求比例不要太失衡,somatic的没有这个要求
- het 杂和率,标记的杂合率,对于特定的群体有过滤的需求
gatk标记硬过滤
- Hard-filter SNPs on multiple expressions using VariantFiltration
- 这个是硬过滤,snp,indel的过滤参数不同,但是不如
gatk VariantFiltration \
-V snps.vcf.gz \
-filter "QD < 2.0" --filter-name "QD2" \
-filter "QUAL < 30.0" --filter-name "QUAL30" \
-filter "SOR > 3.0" --filter-name "SOR3" \
-filter "FS > 60.0" --filter-name "FS60" \
-filter "MQ < 40.0" --filter-name "MQ40" \
-filter "MQRankSum < -12.5" --filter-name "MQRankSum-12.5" \
-filter "ReadPosRankSum < -8.0" --filter-name "ReadPosRankSum-8" \
-O snps_filtered.vcf.gz
gatk VariantFiltration \
-V indels.vcf.gz \
-filter "QD < 2.0" --filter-name "QD2" \
-filter "QUAL < 30.0" --filter-name "QUAL30" \
-filter "FS > 200.0" --filter-name "FS200" \
-filter "ReadPosRankSum < -20.0" --filter-name "ReadPosRankSum-20" \
-O indels_filtered.vcf.gz
vcftools 群体标记过滤
vcftools \
--minDP 4 \
--maxDP 100 \
--minGQ 10 \
--minQ 30 \
--min-meanDP 3 \
--out meanDP3.miss0.5.maf0.01.vcf \
--vcf raw.vcf \
--recode --recode-INFO-all \
--max-missing 0.5 \
--maf 0.01