2020-06-19 GATK4 的最佳实践pipeline: Germline SNPs + Indels

gatk4-germline-snps-indels

参考资料:https://github.com/gatk-workflows/gatk4-germline-snps-indels

Purpose :

Workflows for germline short variant discovery with GATK4.

haplotypecaller-gvcf-gatk :

haplotypecaller-gvcf-gatk4 workflow根据GATK最佳实践在单个样本上以GVCF模式运行GATK4 HaplotypeCaller工具。在执行时,workflow会使用间隔列表文件将HaplotypeCaller工具分散到输入bam示例上。workflow生成的输出将是单个GVCF文件,然后可以将该文件与其他几个GVCF文件一起提供给JointGenotyping workflow,以同时call variants,从而生成多样本VCF。当高效地call for variants in多个样本时,haplotypecaller-gvcf-gatk4 workflows默认的GVCF模式非常有用。但是,对于calling variants for one or a few samples,可以让工作流直接call variants,并通过将输入变量make_gvcf设置为false来输出VCF文件。

Requirements/expectations

  • 单个样本的一个可供分析的BAM文件(如RG:SM所示)
  • 包含一组用于分散的variant calling间隔列表的文件

Outputs

  • 一个GVCF文件及其索引

JointGenotyping.wdl :

该WDL实现了GATK人类全基因组测序(WGS)中种系SNP和Indel发现最佳实践的联合调用和VQSR过滤部分。该工作流需要具有50个或更多GVCF的sample map file,并生成multisample VCF。

注意:
- JointGenotyping-terra.wdl是原始workflow的略微修改版本,以支持对在Terra上运行workflow感兴趣的用户。这些更改包括dockers和disksize的变量,使配置workflow变得更容易。
- 在Terra上创建示例地图可能会很麻烦,请使用generate-sample-map为您创建一个。

Requirements/expectations

  • HaplotypeCaller在GVCF模式下生成的一个或多个GVCFs
  • 最少50个样品。不支持基因panels。

Outputs

  • VCF文件及其索引,使用具有输入VCF中存在的所有样本的基因型的可变质量分数(quality score)重新校准(VQSR)进行过滤。输入VCF中存在的所有位点都会保留;过滤后的位点会在过滤器字段(FILTER field)中进行注释。

Software version requirements :

  • GATK 4.1.4.0
  • Samtools 1.3.1
  • Python 2.7
  • Cromwell version support
    • Successfully tested on v37
    • Does not work on versions < v23 due to output syntax

IMPORTANT NOTE :

  • VQSR wiring。SNPINDEL模型是并行建立的,但随后会串联进行相应的重新校准。因为INDEL模型通常首先准备好(因为Indels比SNP少),所以我们将INDEL重新校准设置为首先应用于输入VCF,而SNP模型仍在构建中。到SNP模型可用时,INDEL重新校准的文件可用作应用SNP重新校准的输入。如果我们反其道而行之,我们将不得不等到SNP重新校准文件可用,尽管INDEL重新校准文件已经存在,然后应用SNP重新校准,然后应用INDEL重新校准。这将导致完整workflow执行的挂钟时间更长(a longer wall clock time)。Wiring the INDEL recalibration是首先要解决的问题。
  • 当前发布的"Generic germline short variant joint genotyping"的版本是从workflow的广泛生产版本派生出来的,该工作流程适用于多达20K样本的大型WGS callsets。我们相信,在单个WGS样本上运行此工作流的结果同样准确,但当工作流被修改并在小群体上运行时,可能会有一些缺点。具体地说,修改SNP应用重新校准步骤以获得更高的特异性可能并不有效。用户可以通过查阅收集的SNP部分文件来验证这是否是一个问题。如果最右侧列中列出的truthSensitivity与最左侧列中的targetTruthSensitivity不匹配,则从ApplyVQSR请求targetTruthSensitivity将不会使用准确的筛选阈值。此工作流程尚未在外显子(exomes)上进行测试。
    对基因组的动态散射区间(dynamic scatter interval)生成进行了优化。分散的SNP变量重新校准(scattered SNP VariantRecalibration)可能会因为构建负模型的两个“坏”variants而失败。另外,SNP重新校准的日志过于冗长。
  • JointGenotyping workflow没有等位基因子集
    • 对于较大的队列,即使是exome callsets在低复杂度/STR位点也可以有1000多个等位基因
    • 对于具有6个以上可选等位基因(默认情况下)的位点,将返回称为genotypes的基因型,但不返回PLs,因为PL数组变得非常庞大
    • 如果存在AS注释,则可以执行等位基因特定过滤,但数据仍将位于VCF中的一个巨大信息字段(giant INFO field)中
  • JointGenotyping的输出被分成许多碎片(shards)
  • 使用大型样本集的用户可以调用JointGenotyping.wdl工作流中的GnarlyGenotyper任务。但是,在GnarlyGenotyper可以适当处理之前,必须为HaplotypeCaller生产的所有GVCF运行ReblockGVCF测试工具。此处提供了应用重新阻止工具的工作流:ReblockGVCF-gatk4_exomes_goodCompression
  • GnarlyGenotyper使用QUAL指数近似值
    • GenotypeGVCFs相比,显著提高了性能,但是QUAL输出(因此QD注释)在这两个工具之间可能略有不一致
  • 提供的JSON是一个现成的工作流示例JSON模板。用户有责任使用GATK Tool and Tutorial Documentations正确设置参考和资源输入变量
  • 运行时参数针对Broad's Google Cloud平台实现进行了优化。
  • 有关在Google Cloud平台上或本地运行工作流的帮助,请查看以下教程:(How to) Execute Workflows from the gatk-workflows Git Organization
  • 有关我们的工作流和工具的更多文档,请访问User Guide网站。
  • 相关参考资料和资源包可在中访问Resource Bundle

Contact Us :

  • 以下材料由Broad Institute的数据科学平台论坛小组提供。请将任何问题或顾虑向我们的论坛网站之一:GATKTerra提出。

LICENSING :

版权所有Broad Institute, 2019 | BSD-3本脚本是根据wdl开放源代码许可证(bsd-3) (full license text at https://github.com/openwdl/wdl/blob/master/LICENSE)发布的。但是请注意,它调用的程序可能需要不同的许可证。用户负责在运行此脚本之前检查他们是否有权运行所有程序。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 225,529评论 6 524
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 96,683评论 3 406
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 172,905评论 0 370
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 61,318评论 1 303
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 70,325评论 6 401
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 53,754评论 1 316
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 42,081评论 3 431
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 41,088评论 0 280
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 47,653评论 1 327
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 39,651评论 3 347
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 41,766评论 1 355
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 37,359评论 5 351
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 43,083评论 3 341
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 33,491评论 0 25
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 34,654评论 1 278
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 50,367评论 3 383
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 46,836评论 2 367

推荐阅读更多精彩内容