正确使用GIAB基准变异集合评估生信流程准确性

前面我们介绍了GIAB中的标准数据集，包括了7个标准品的数据，分别是HG001（即NA12878），一个德系犹太人家系（HG002/HG003/HG004）和一个中国汉族人家系（HG005/HG006/HG007），内容概要如下：

v4和v3版本标准数据集构建方法不同，v4添加了三代数据、基于组装和单体型的变异检测方法，变异位点数目更多；

提供了数据库下载的网页地址和对应的ftp地址，以及通过wget -r下载整个目录的方法；

由于ftp下面包含的数据很多，文中也明确了需要用那个文件进行准确性评估；

这篇文章介绍下，当我们使用自己开发的流程对某一标准品（例如NA12878）完成变异检测后，该如何评估结果的Precision（准确率）、Recall（召回率）和F1-score等指标。

最简单的思路

常用变异检测软件，如GATK、samtools和deepvariant的变异检测结果都是以vcf格式保。vcf文件中前五列分别是变异所在的CHROM染色体名称，POS突变位置，ID突变唯一标识，REF参考基因型，ALT突变基因型，后面FORMAT还记录了是纯和突变还是杂合突变信息。关于vcf格式说明，可以查看：https://samtools.github.io/hts-specs/VCFv4.2.pdf

vcf文件格式示例

此时，如果让你做和基准变异集合的比较，是不是想将染色体名称、位置、参考基因型、突变基因型以及纯杂合信息合并起来进行比较？如果这样，那这样就太简单了。

这个思路存在的问题

为了说明这个问题，我们先给出一个例子，下图中ALT1和ALT2相对参考REF都存在一个插入，从图中上半部分可以看出属于相同的突变，并且插入序列相同。但是，当对齐的方式不同时，检测到的变异结果就会不同，如图中下半部分所示。

相同变异，由于比对对齐方式不同导致的变异检测结果不同

除此之外，两个相邻的SNV突变，有的软件在vcf中只有一行记录，有的软件会存放两行。所以，只通过位置和基因型来比较两个变异检测结果是存在问题的。
比较正确的方法时，将突变序列替换到突变位置，并且获取突变上下游一段序列，直接比较两段替换后的序列是否相同才是正确的，这种方法称之为“基于单体型的比较”。当然，如果上下游序列过长会降低计算效率，如果取得较短进行比较没有意义，所以下文介绍的软件默认取1k的序列进行比较。

基于单体型比较的软件

在Illuminia官方github上基于单体型比较的工具为：https://github.com/illumina/hap.py，用户可以根据安装说明进行安装。由于软件依赖较多，直接安装会比较麻烦，可以使用docker进行安装，前提是当前操作系统已经安装好docker。当软件下载解压完成后，直接进入解压后的目录，里面必须包含“Dockerfile”文件，然后直接运行docker build .即可，如下所示。

#第一步，下载软件包
wget https://github.com/Illumina/hap.py/archive/refs/tags/v0.3.15.zip
#第二步，解压软件包
unzip hap.py-0.3.15.zip 
#第三步，切换工作目录
cd hap.py-0.3.15
#第四步，构建镜像
docker build .

第四步运行完成后，会出现一串十六进制编码的字符串，这表示构建好镜像的ID（IMAGE ID ），也可以通过docker images命令查看本地镜像仓库中的镜像列表。镜像构建完成后，还可以通过docker查看软件的参数说明：

查看本地镜像仓库中的镜像

$ docker run -v `pwd`:/data 4c39d45b49ea /opt/hap.py/bin/hap.py -h         
2023-06-25 05:54:43,150 WARNING  No reference file found at default locations. You can set the environment variable 'HGREF' or 'HG19' to point to a suitable Fasta file.
usage: Haplotype Comparison [-h] [-v] [-r REF] [-o REPORTS_PREFIX]
                            [--scratch-prefix SCRATCH_PREFIX] [--keep-scratch]
                            [-t {xcmp,ga4gh}] [-f FP_BEDFILE]
                            [--stratification STRAT_TSV]
                            [--stratification-region STRAT_REGIONS]
                            [--stratification-fixchr] [-V] [-X]
                            [--no-write-counts] [--output-vtc]
                            [--preserve-info] [--roc ROC] [--no-roc]
                            [--roc-regions ROC_REGIONS]
                            [--roc-filter ROC_FILTER] [--roc-delta ROC_DELTA]
                            [--ci-alpha CI_ALPHA] [--no-json]
                            [--location LOCATIONS] [--pass-only]
                            [--filters-only FILTERS_ONLY] [-R REGIONS_BEDFILE]
                            [-T TARGETS_BEDFILE] [-L] [--no-leftshift]
                            [--decompose] [-D] [--bcftools-norm] [--fixchr]
                            [--no-fixchr] [--bcf] [--somatic]
                            [--set-gt {half,hemi,het,hom,first}]
                            [--filter-nonref] [--convert-gvcf-to-vcf]
                            [--gender {male,female,auto,none}]
                            [--convert-gvcf-truth] [--convert-gvcf-query]
                            [--preprocess-truth] [--usefiltered-truth]
                            [--preprocessing-window-size PREPROCESS_WINDOW]
                            [--adjust-conf-regions] [--no-adjust-conf-regions]
                            [--unhappy] [-w WINDOW]
                            [--xcmp-enumeration-threshold MAX_ENUM]
                            [--xcmp-expand-hapblocks HB_EXPAND]
                            [--threads THREADS]
                            [--engine {xcmp,vcfeval,scmp-somatic,scmp-distance}]
                            [--engine-vcfeval-path ENGINE_VCFEVAL]
                            [--engine-vcfeval-template ENGINE_VCFEVAL_TEMPLATE]
                            [--scmp-distance ENGINE_SCMP_DISTANCE]
                            [--lose-match-distance ENGINE_SCMP_DISTANCE]
                            [--logfile LOGFILE] [--verbose | --quiet]
                            [_vcfs [_vcfs ...]]
..............

使用demo数据进行评估

在下载软件中的example目录下，保存着可供测试的demo数据。在开始测试前，还需要下载参考基因组hg19.chr.fa，并构建其索引文件（samtools faidx hg19.chr.fa），然后才能开始测试，测试完成后会生成以-o参数指定的前缀文件：

#查看当前工作目录下的数据
hap.py-0.3.15 $ ls
CMakeLists.txt  Dockerfile                    example                 hg19.chr.fa      Jenkinsfile  RELEASES.md
configure.sh    Dockerfile.centos6            external                hg19.chr.fa.fai  LICENSE.txt  setup.cfg
doc             Dockerfile.ubuntu-with-tests  happy.requirements.txt  install.py       README.md    src
#测试命令行
hap.py-0.3.15 $ docker run -it -v `pwd`:/data 4c39d45b49ea /opt/hap.py/bin/hap.py /data/example/PG_performance.vcf.gz /data/example/performance.vcf.gz -o /data/test -r /data/hg19.chr.fa

demo运行结果日志

和基准变异集合进行比较

如果需要基于GIAB基准变异集合，对自己流程的分析结果进行准确性评估，还需要添加-f参数，该参数用于指定benchmark对应的bed文件，如果不指定METRIC.Precision值会偏低。
为什么不加会偏低呢？在回答这个问题前，先来说明一下benchmark的bed文件是什么。我们知道在基因组中，有些区域由于重复序列或者GC含量的关系，造成有些区域测序数据量比较低或比对错误比较高，那么这些区域是比较难进行SNV或者InDel检测的。为此，将一些复杂区域剔除，只保留“可检测性”较高的区域就生成了benchmark的bed文件和对应的vcf文件。
以样本HG001在GIAB数据库中NISTv4.2.1版本的“基准变异集合”为例，可以看到两个基因组版本都有基准变异集合的vcf文件和bed文件。

image.png

假设我们用自己的全基因组分析流程对样本HG001进行变异检测，最终得到的变异集合文件为HG001.GATK.vcf.gz，要与基准变异集合进行比较，来评估流程检测结果的Precision（精准率）、Recall（召回率）、F1-score，分析命令如下：

docker run -it -v `pwd`:/data 4c39d45b49ea   #挂载目录，指定镜像
     /opt/hap.py/bin/hap.py    #软件在容器中的路径
     /data/NISTv4.2.1/GRCh37/HG001_GRCh37_1_22_v4.2.1_benchmark.vcf.gz  #基准变异集合
     /data/HG001.GATK.vcf.gz  #自己流程分析到的变异集合
     -o /data/HG001  #输出目录和前缀
     -r /data/hg19.chr.fa   #参考基因组路径
     -f /data/NISTv4.2.1/GRCh37/HG001_GRCh37_1_22_v4.2.1_benchmark.bed  #基准变异集合对应的bed文件

未添加-f参数

添加-f参数后

可以看出添加-f参数Precision、Recall和F1 score都有明显提高，另外UNK标识落在bed区间外的变异数量。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 215,539评论 6赞 497
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 91,911评论 3赞 391
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 161,337评论 0赞 351
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 57,723评论 1赞 290
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 66,795评论 6赞 388
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 50,762评论 1赞 294
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 39,742评论 3赞 416
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,508评论 0赞 271
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 44,954评论 1赞 308
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,247评论 2赞 331
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,404评论 1赞 345
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,104评论 5赞 340
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 40,736评论 3赞 324
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,352评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,557评论 1赞 268
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,371评论 2赞 368
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,292评论 2赞 352