群体遗传学习笔记-基因型缺失数据的填充

Genotype Imputation是在高通量测序中常出现的定义,按照义译就是基因型填充。要真正理解imputation这个概念,我们就需要先理解基因型缺失(genotype missing)。

基因型缺失的定义

在重测序类的技术中,有一个关键的因素,就是测序数据对基因组的覆盖度,在上一章测序技术里面有提到。样本中没有被测序数据覆盖到的区域,基因型就属于未知的,我们将之称为缺失位点。例如下图中的个体是二倍体,在21个位点中仅有3个位点被检测到,其他标注为“.”的位点都属于缺失位点。


具体来说,基因型数据的缺失又分为遗传性缺失和检测性缺失。前者是个体遗传信息的变异(例如,这个位点DNA片段真实缺失)导致的基因型缺失。而后者,则是由于检测技术的局限、错误等导致的信息丢失。各类基因型检测技术都会产生检测性的基因型缺失。但我们要认识一点,基因型缺失是相对概念,如果缺失是“无”,那么肯定是和“有”比较出来的。

常见的描述为缺失(missing)的情形包括:这个基因位点在群体中其他样本上(可以是部分样本)检测到了,而在A样本中没有检测到,就认为这是A样本缺失位点。这个位点理论上该被检测到(例如,SNP 芯片中有探针覆盖的位点)而实际上没有被检测到,也会被定义为缺失位点。这个基因型在A技术中可以检测到,但B技术检测不到,那么也可以被定义为缺失。

下面我们罗列一下各类技术的缺失来源。

1.全基因组重测序技术

全基因组重测序理论上应该覆盖整个基因组,因此未覆盖的区域都可以被定义为缺失。那么群体研究中的低深度测序(一般平均深度低于10X),不可避免会产生大量随机缺失

2.简化基因组测序

简化基因组测序是通过酶切,并富集限制性内切酶周边的片段并进行测序的策略。针对简化基因组,我们称的缺失一般指的是没有被检测到的酶切片段相关的位点。简化基因组的缺失,主要与酶切效率有关。酶切效率越高,缺失率越低。

3.外显子测序以及目标区域捕获测序

同简化基因组测序类似,基于探针杂交的DNA捕获以及测序技术,同样会产生大量的缺失。这种缺失主要是由于探针杂交捕获的效率所致。

4.SNP芯片

SNP芯片利用芯片杂交后的荧光信号,来判断某个位点的基因型。SNP芯片同样也会产生大量缺失。但在实际的研究中,SNP 芯片主要面临的问题是芯片型号不同,甚至来源不同的厂商,那么芯片中包含的SNP位点也不同。当来源不同的数据一起分析的时候,将面临数据不一致的问题。简单说来,就是你有的我没有,我有的你没有。如下图,Affymetrix和illuminate两大SNP 芯片厂商生产的人类芯片就使用的是不同的SNP集,当放在一起分析的时候将面临SNP不一致的问题。

最后,再次强调基因型缺失是1个相对性的概念。以上缺失的概念都是针对同种技术的比较。不同的技术比较,也可以定义为缺失。例如,同样一份样本,我们使用全部以上4种技术检测。如果以全基因组高深度测序(>30X)为参照标准,后续的3种技术都有大量位点没有检测到,处于基因型缺失的状态。

缺失的判断也有很简单的计算方法,就是缺失率(missing rate)。这个评价又分为样本水平的缺失率和位点水平的缺失率。例如下图,0、1、2 分别代表三种检测到的基因型,图中缺失位点使用“?”表示。那么样本1的缺失率=20%(总体10个位点,有两个位点缺失),而位点2的缺失率=60%(总体5个位点,有3个位点缺失)。

基因型缺失的影响

基因型缺失最直接的影响就是这个位置的信息缺失,从而影响下游分析(包括遗传图谱构建,QTL定位,选择压力分析,GWAS分析等)的信息完整性和准确性。例如,(b)中红色的点是(a)中缺失的位点。而与性状关联的SNP位点,恰恰位于虚线所在的区域内。这些显著位点在(a)中是缺失的,所以(a)没有检测到关联信号,从丢失了非常关键的信息

所以,基因型缺失最大的风险就是信息丢失。基因型缺失对GWAS分析、选择压力分析影响都比较大。这类研究中,重测序技术相比其他三种技术,最大的优势就是信息完整。

但某些研究对标记密度要求不是那么高,缺失的影响则较小。例如,对于遗传图谱类构建,通常几千个标记就足以保证检测所有的染色体重组事件。而简化基因组测序通常可以获得数万个标记,我们通常会将高缺失率的位点直接过滤放弃,只保留剩余的高质量的低缺失率位点(通常依然有几千个)用于下游分析,保证重组率计算的准确性。

应对数据缺失的方法——基因型填充

尽管基因型缺失有种种不利影响,但我们却无法完全避免,只能使用生物信息的策略,来减少缺失的影响。这个方法就是基因型填充(imputation)。

Imputation英文的原意应该是归罪、归属。而imputation在这里指代的意思是对这个位点的基因型规律进行总结,然后对缺失位点归到某类中,赋予其一个最可能的基因型。所以,我将之称为缺失填充。常见imputation的基本逻辑包括两步:

  1. 从目标位点/区域非缺失的位点中,总结这个区域的基因型规律,并分类。其实就是分析各个区域的单体型组成。
  2. 根据某样本缺失位点的上下其他非缺失位点,判断这个区域属于哪种单倍型。然后根据所属单倍型的基因型补充该样本的缺失位点。

其原理:基因型填充的最初构想基于家系样本的遗传特性。具有已知亲缘关系的个体之间具有共享的单体型(haplotype),这些由有限个遗传标记所构成的单体型随祖先一起遗传,反映连锁不平衡。

因此,在具有相同单体型的家系中,遗传标记少的样本可以参照遗传标记多的样本进行基因型填充。对于没有亲缘关系的样本,以上理论也基本适用,主要的差别在于无血缘关系的样本之间共享的单体型比家系样本之间的要短很多。对无亲缘关系样本进行基因型填充需要一个高密度遗传标记构成的单体型图谱作为参照。通过对比待填充样本和参考模板,找到两者之间共有的单体型,然后就可以将匹配上的参考模板中的位点复制到目标数据集中。

在图a中,那个有大量缺失基因型的个体就是图1中的个体。图中下半部分由多个个体构成的参考单倍型集(reference haploypes)。这些参考集的基因型都是完整的。从这些参考数据集中,我们可以推断整个群体的单倍型构成。然后,根据缺失样本有限的基因型信息(仅有3个位点),就可以判断这个样本与参考单倍型集中的哪种单倍型最为相似(图中分别对应紫色、绿色、黄色三种单倍型)。然后,将对应的最相似的单倍型赋予给该样本,从而让该样本获得完整的基因型,图b

基因型填充常用软件

目前,随着计算生物学和生物信息学的发展,有很多算法和软件都有能力完成基因型填充的任务。

这些方法基本可以分为两大类:

(i)计算密集型,比如IMPUTE、 IMPUTE2、MACH、 和fastPHASE/BIMBAM。这种类型的方法在填充的过程中充分考虑到全部可以观察到的基因型信息,使得对缺失值的估算更加精确;但以上大部分软件都是针对人类的开发的。人类种群的遗传特性是个体杂合率较高、近交率低、系谱关系来源随机。很多植物,尤其作物的遗传特性则和人类相反。以玉米为例,玉米在育种过程中,会伴随大量的自交,因此纯合度较高,而且系谱关系(杂交方式)往往可控。以上针对人类学开发的软件就未必适用了。如果是遗传特性与玉米类似的植物的GBS数据,可以采用Tassel中包含的imputation模块。

(ii)计算高效型,比如PLINK、TUNA、WHAP和BEAGLE。此种算法仅仅关注与特定位点相邻的一小部分标记的基因型,因此在计算上更加快捷。表1列出了4种常见的基因型填充软件的特性

小结

对于人类的遗传研究,由于其条件与研究已经非常充分,缺失数据填充是很有必要的一步。对于其他物种,在允许的条件下,可以借助GBS或者一些测得比较好的SNP数据库去填充缺失的数据,如果条件不理想且自身杂交比较复杂,这步可以跳过。

转自整理于:奥迪基因 http://www.omicshare.com/forum/thread-1293-1-1.html

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,968评论 6 482
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,601评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 153,220评论 0 344
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,416评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,425评论 5 374
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,144评论 1 285
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,432评论 3 401
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,088评论 0 261
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,586评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,028评论 2 325
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,137评论 1 334
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,783评论 4 324
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,343评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,333评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,559评论 1 262
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,595评论 2 355
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,901评论 2 345

推荐阅读更多精彩内容

  • 重测序技术简介 全基因组重测序(Resequencing)是对已知参考基因组序列的物种进行不同个体间的基因组测序,...
    lakeseafly阅读 9,893评论 1 54
  • 非常优秀的研究总结,值得学习领会和思考。因为字数太多,可以去作者的博文地址http://www.huangshuj...
    王诗翔阅读 4,175评论 1 24
  • 遗传群体所用的技术 简化基因组 简化基因组(Reduced-Representation Genome Seque...
    JoJomjchen阅读 5,159评论 0 16
  • 索引 数据库中的查询操作非常普遍,索引就是提升查找速度的一种手段 索引的类型 从数据结构角度分 1.B+索引:传统...
    一凡呀阅读 2,862评论 0 8
  • 人人都知道中国有八大菜系,广州的面细细品味,大抵也可分四大品种: 欧成记银丝面,竹园竹升面,婆婆宽面,坚记伊府面。...
    七辻屋卖馒头的阅读 1,240评论 2 0