WGS全基因组分析||VCFTOOLS使用

写在前面:当学习某一重要文件格式时,更需要对此格式对应软件工具进行全面的学习(如sam/bam——samtools)。在多次花时间写脚本处理文件之后发现,80%左右的任务其实只需要对应工具的某个子命令再加上合适的参数即可解决。故为提升效率,处理VCF文件之前先好好将对应工具vcftools学习一遍

VCFTOOLS基本说明

vcftools为专门处理vcf/bcf文件而生,此工具能处理VCF数据包括:过滤(filter), ;变异位点的基本统计;数据格式的转换;多个vcf文件的比较(compare files);集合运算。

目前常用版本v0.1.16。官方网站[https://vcftools.github.io/index.html]

vcftools [ --vcf/gzvcf/bcf FILE ] [ --out OUTPUT PREFIX ] [ FILTERING OPTIONS ] [ OUTPUT OPTIONS ]

输入参数

  • --vcf
  • --gzvcf输入gz压缩的vcf文件
  • --bcf

输出

  • -out 输出文件
  • --stdout/-c标准输入,可后接管道操作
  • --temp指定输出目录

过滤参数

  1. 根据位置进行过滤

    • --chr, --not-chr指定过滤选择某染色体,可多次使用
    • --from-bp INT, --to-bp,需和--chr一起使用,指定区域
    • --positions FILE,--exclude-positions接tab分割的多个坐标位置文件
    • --bed FILE,--exclude-bed根据BED文件进行过滤
  2. 根据指定ID位点过滤

    • --snp 根据vcf文件第三列ID列的snp名进行过滤。
    • --snps FILE, --exclude根据ID文件进行过滤
  3. 变异类型过滤

    • --keep-only-indels
    • --remove-indels即保留或去除SNP,留下INDEL。
  4. 根据VCF文件第七列FILTER进行过滤

    • --remove-filterer-allFILTER列除了PASS保留,其余都过滤
    • --keep-filtered,--remove-filtered保留或去除特定FILTER标签。可多次使用。
  5. 根据vcf第八列INFO进行过滤

    • --keep-INFO
    • --remove-INFO根据INFO列的指定tag进行过滤
  6. 根据ALLEL进行过滤

    • --maf,--max-maf Minor Allele Frequency二等位基因频率进行过滤,常为--maf 0.05,保留大于0.05的。
    • --non-ref-af,--non-ref-ac.... 保留都是ALT变异的位点。
    • --mac INT,--max-mac 保留Minor Allel Count数大于INT数的位点
    • --min-alleles 2, --max-alleles 2筛选保留含有2个ALT变异的位点。常用。
  7. 根据基因型GENOTYPE数值进行过滤

    • --min-meanDP,--max-meanDP根据平均覆盖深度进行过滤。--min-meanDP 3
    • --hwe哈温平衡检测,根据pvalue值进行过滤,保留值以内的。--hwe 0.01
    • --max-missing常用,缺失率,0为接受完全缺失,1为接受数据全都存在。一般0.8
    • --max-missing-count INT缺失的个体数目超过INT,即被过滤。
    • --phased 删除unpased位点
    • --minQ 保留Quality值大于INT的位点。
  8. 对样品个体进行过滤

    • --indv, --remove-indv保留或删除指定样本
    • --keep FILE,--remove 保留/删除多个体的文件
    • --max-indv INT随机保留INT数目的样本。
  9. 基因型过滤

    • --remove-filtered-geno-all, --remove-filtered-geno 保留/删除 FILTER FLAG的位点。
    • --minGQ 删除GQ值低于数值的位点
    • --minDP,--maxDP保留覆盖率min~max范围内的位点。

计算统计参数

  1. 输出变异位点的计算统计
    • --freq, --freq2输出每个等位基因位点的频率。
    • --counts,位点数目的统计
  2. 位点覆盖深度Depth统计
    • depth输出每个个体的平均覆盖度,以idepth文件展示
    • --site-depth,--site-mean-depth每个位点的所有个体深度
    • --geno-depth每个基因型的覆盖深度文件
  3. LD计算(Linkage Disequilibrium)
    • --hap-r2同时输出r^2值, D值和D’值。传统LD值计算方法,输出hap.ld
    • --geno-r2,方法同PLINK软件,计算squared correlation coefficient,输出geno.ld
    • --geno-chisq,
    • --hap-r2-positions FILE, --geno-r2-positions FILE和已有文件中的点做LD计算
    • --ld-window INT LD计算的最大SNP数目,即LD-window。 --ld-window-min最小数目
    • --ld-window-bp INT LD计算窗口的实际物理距离。--ld-window-bp-min
    • --min-r2小于r2相关系数值将不被展示
    • --interchrom-hap-r2, --interchrom-geno-r2跨染色体的r2值计算。
  4. Ts/Tv计算(transition/transversion )
    • TsTv INT 计算INT值内的TsTv值,输出TsTv文件
    • TsTv-summaryTsTv值计算统计。
    • --TsTv-by-count, --TsTv-by-qual 计算tstv率。
    • --FILTER-summary添加到T值到FILTER列中
  5. 核酸多样性统计
    • --site-pi计算所有位点的多样性值
    • --window-pi, --window-pi-step计算窗口中的核酸多样性值
  6. FST计算
    • --weir-fst-pop FILE:file must contain a list of individuals (one individual per line) from the VCF file that correspond to one population,可多次,生成weir.fst文件
    • --fst-window-size, --fst-window-step FSTc滑动窗口计算,重测序一般2kb-10kb
  7. 其它计算
    • --het Calculates a measure of heterozygosity on a per-individual basis.
    • --hardy 每个位点的哈温平衡计算的Pvalue。
    • --TajimaD INT Tajima’s D 计算
    • --indv-freq-burden:calculates the number of variants within each individual of a specific frequency.
    • --LROH Long Runs of Homozygosity
    • --relatedness, --relatedness2 计算relatedness statistic
    • --site-quality提取VCF文件中每个位点的QUAL信息
    • --missing-indv计算每个样本的缺失率,输出imiss
    • --missing-site计算每个位点的缺失率。
    • --SNPdensity INT 一定窗口内的SNP数目和频率
    • --kept-sites,--remove-sites 通过过滤的位点到另一文件kept.sites文件,removed.sites中
    • --singletons detailing the location of singletons
    • --hapcount BED output the number of unique haplotypes within user specified bins.
    • --mendel PED report mendel errors identified in trios.
    • --extract-FORMAT-info <STRING> 提取format列中的指定TAG
    • --get-INFO <string> 提取INFO列中信息

输出格式转换

  1. 输出参数
    • --recode输出.recode.vcf新文件
    • --recode-INFO-all保留所有的INFO信息
  2. 格式转换
    • --012 012矩阵文件
    • --IMPUTE impute文件
    • --ldhat-geno --ldhat LDhat格式。
    • --BEAGLE-GL, --BEAGLE-PL
    • --plink, --plink-tped, --chrom-mapPLINK格式

两个VCF文件的比较操作

  1. 另外一个VCF文件的输入
    • --diff,--gzdiff,--diff-bcf FILE
    • --not-chr不同的chr跳过
  2. 比较参数
    • --diff-site Outputs the sites that are common / unique to each file
    • --diff-indv 不同的个体样本
    • --diff-site-discordance, --diff-indv-discordancecalculates discordance on a site by site basis.
    • --diff-indv-map <filename> 指定ID文件进行比较
    • --diff-discordance-matrix calculates a discordance matrix
    • --diff-switch-error calculates phasing errors
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 211,423评论 6 491
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,147评论 2 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,019评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,443评论 1 283
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,535评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,798评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,941评论 3 407
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,704评论 0 266
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,152评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,494评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,629评论 1 340
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,295评论 4 329
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,901评论 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,742评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,978评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,333评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,499评论 2 348

推荐阅读更多精彩内容