Hi-C文库数据质控及解读

来源：三维基因组Magic [三维基因组Magic](javascript:void(0);) 2017-11-29

Hi-C文库数据质控及解读

数据自身的质量在很大程度上决定了分析结果的准确和可靠，随着Hi-C技术在三维基因组学上的快速推广，对于Hi-C数据本身的质量和测序深度也逐渐引起研究人员的重视。同时对该技术的进一步优化和改进使之能够在更少的细胞起始量及测序量达到更高分辨率也成为了一个技术发展新的热点。本文旨在对Hi-C及相关技术的发展进行简略地介绍，并对Hi-C数据展示的无效数据进行分析，以期能让读者能更清晰地理解无效数据的组成，在后续的实验过程中能更好地改进实验方法，获得一份可靠的Hi-C的数据。

2009年Erez Lieberman-Aiden在3C的基础上，独创地在粘性末端添加了生物素，使得嵌合片段能被链亲和素特异性富集，发明了第一代 dilution HiC技术^1）。Hi-C的发明与二代测序完美结合，解决了5C在全基因组水平构象数据量瓶颈的问题，使得在全局范围内研究三维结构成为可能。

image

图1.Hi-C实验原理

早期的实验方案认为，去垢剂SDS在对交联的细胞核进行处理时，即使是低浓度的SDS（0.3%-1%SDS）在加热到65℃时，会导致细胞核碎裂，基因组的DNA会释放到溶液中，因此第一版本的Hi-C，在酶连反应体系下，选用了近8ml的大连接体系。后来，4C研发人员通过用显微镜观测SDS处理细胞核，发现细胞核仍然维持在一个较为稳定的核结构。在共聚焦显微镜下观察，1%SDS处理细胞核，会导致细胞核的通透性发生改变，但很少细胞核发生裂解。

另一个影响交联反应的因素是温度，通常认为65℃以上，在有NaCl存在的情况下，甲醛交联的DNA会发生解交联现象，从而影响染色质构象的稳定。

在第一版本的Hi-C选用了65℃ 1%SDS处理细胞核10min，从最终的数据看染色质间的互作数据高达27.1%-65.3%。通常认为染色质是独立折叠定位在细胞核中形成染色质领域的，因此染色质间的数据通常会认为是无效数据（bais）。

直到2012年Chen Lin实验室意识到细胞核的扰动会影响到染色质的高级构象，因此他们在Hi-C实验的基础上，将生物素标记在蛋白上，将反应体系固定在磁珠上，使得反应体系扰动更小，更稳定，TCC^2）获得的数据结果表明该方法可以显著降低染色质间的数据占比例valid pairs的比例。

image

图2.TCC实验原理

2014年EreZ对Hi-C的实验进行了进一步的改进^3），他们在SDS处理细胞核的步骤选用了更温和的0.5%SDS 62℃处理5-10min，而细胞连接的体系也降低到1ml，值得一提的是他们在文章中尝试了未交联的HiC实验。发现除了噪音增加外，得到了与正常HiC类似的热图。

In situ Hi-C的改进使得染色质间的互作数据进一步降低，实测数据显示Trans-interaction其占valid pair的比例在20%左右。

在2015年，又有研究将SDS的处理条件更换成37℃ 60min，他们认为该方法可以更大程度维持细胞核的稳定性，提高intra/inter数据的比例^4）。

image

表1：in solution Hi-C与 in nucleus Hi-C数据比较

随着对HiC数据的进一步认识，研究人员发现一些超近距离的连接（<20Kb的数据）可能并不是有意义的由蛋白介导的空间上靠近的互作，而可能就是线性距离较近而引起的随机连接，因此引入了这一参数来评判数据的质量。

为了更好地去除随机连接导致的bais，有研究利用统计模型认为三片段的连接可减少随机连接的可能性，因此他们采用了类似于ChIA-PET

的方法，在连接反应过程中，添加一个带有生物素的bridge-linker^5），通过富集带有linker的嵌合片段，来改善实验中存在的随机连接可能性。作者自测的结果表明，添加linker后染色质内的互作比例比in situ Hi-C和HiChIP都有显著改善。

image

图3.BL-HiC实验原理图

除了cis/tran作为评判Hi-C数据的质量以外，Hi-C数据中还存在大量的无效数据，它们的存在会影响数据的有效利用率，以下篇幅将逐一进行介绍。

为了更好地理解Hi-C数据，在此我们简要介绍下基于illumina平台的二代测序文库。

image

图4.二代测序文库建库示意图

在标准的二代文库中，DNA片段通过末端补平加A；再添加adapters ；此时reads的两侧各带发卡结构P5/P7的测序接头；为了获取足够上机的DNA文库，通常还需要进行一轮扩增；扩增后的文库两端各带一种测序接头。

image

图5.桥式PCR

在pool DNA到芯片上时，文库片段首先anneal在芯片的测序接头上；然后用DNA聚合酶进行扩增，DNA生长在芯片上；经过25-28轮的扩增，每条reads被扩增至数以千计的拷贝，此时就可以利用添加可逆的终止子来检测碱基的组成。通过150轮添加可逆终止子并采集信号即可完成测序。

由于DNA聚合酶的自身的偏性，GC含量相对合适的片段及小片段更容易在芯片生长阶段得到富集。小片段（<150nt）在测序过程中，由于两端各读取150个碱基，就极可能将DNA插入片段读通，从而这部分的DNA就可能被检测到adapter污染。

image

图6.测序read示意图

Hi-C标准文库是标准的Chimera结构，在将两端序列进行比对到基因组上时，理论上两侧pair ends可以分别比对到基因组的两个座位。由于DNA在碎片化过程中，剪切是随机的，因此酶切位点末端补平形成的junction fragment很可能分布在一侧的reads中，常规的比对分析是很难处理chimera的。在HiC-Pro^6）和HiCUP^7）软件中，他们会去识别理论的junction fragment。如HiC-Pro在比对时先进行Global Mapping，后将unmapping的reads用junction fragment序列进行识别并切割，再进行local mapping，最终将数据进行合并。

image

图7.HiC-Pro的两种比对策略

在实际比对中即使采用两步比对方式，仍有可能是只有一端序列能比对到基因组中，另外一端无法识别到基因组中，这种情况我们将其归类为Singleton。它产生的原因可能有①adapter污染（先前数据没进行过滤）；②另一侧数据质量较差，多数为N的区域；③DNA片段被降解或酶切反应产生星号活性。同时片段过短，150碱基已经读通了生物素标记的位点，但是该位点不是正常的junction fragment。在植物样本中，singleton较为常见，可能与细胞壁破碎不完全，部分细胞质成分进入到反应体系影响酶切有关。

有些植物的基因组存在大量的重复序列，如玉米中85%的序列被认为是重复序列。这对要求两端都要唯一比对的HiC而言是巨大的挑战，一旦有一段比对到两个或两个以上的位点，该reads就将被归类到Multiple mapped reads中。

如果在比对过程中，global mapping 和 local mapping均无法将序列识别到特定的位点，这种序列会被归类到Unmapped reads。它可能产生的原因是基因组的组装完整度较差，基因组中存在大量的gap无法识别，被填充为NNNNN。另一个原因是酶切片段较碎，多个酶切片段连接在一起，无法识别到特定座位。

如果两侧数据都能比对到基因组的数据会被统一认为是Unique mapped reads，此时对于动物基因组，unique mapped reads 占测序量（clean reads）50%以上应是可接受的范围。对于植物样本，尤其是重复序列较多的样本，unique mapped reads 比例可能会急剧降低。

在获取unique mapped reads后，要进行进一步过滤，以识别真正有效的interaction reads。

image

图8.三种比对过程识别的无效数据

根据HiC实验的基本原理PLA(proximity ligation assay)：空间上相互靠近的片段更有机会被连接在一起。因此仅且仅有两个来源不同的片段连接在一起才会被认为是标准的文库片段。而这片段是指利用限制性内切酶酶切的Fragments，即唯有两个片段能分别比对到两个不同的酶切片段上，且实际片段大小（observe）符合理论的片段大小，在分析是才会将其归类到valid pairs中。

image

图9.Hi-C数据过滤

因此在分析过程中会将部分无效的数据进行过滤，首先是如果两个片段原本通过一个酶切位点连接在一起，在HiC文库中如果该片段即使酶切后添加生物素仍然连接在一起，该片段会被归类到Re-ligation reads中；

而如果两个的reads比对到同一个fragment，但是方向相反，则该reads会被认为是首尾相连形成了S**elf-circle **；

如果pair end 同时比对到一个酶切片段上，则该片段会被认为是Dangling ends；

如果有一个发现是adapter污染，该reads会被认为是Adapter polluted;

如果两侧的end均能比对到基因组的两个酶切片段中，但是观测到的片段大小与理论的片段大小不一致，则该片段会认为是错误连接而被归类为Dumped reads；

只有比对到两个酶切片段且片段的理论值等于实际值的reads，才会被认为是Valid pair reads。

在这里我们解释下Dangling ends和Dumped的成因。

Dangling ends 主要来源于两部分，①经DNA连接酶连接反应后，携带生物素的DNA片段末端并未形成嵌合片段，在末端生物素切割的（klenow）时又未将末端的生物素去除，从而进入到最终的文库中；②磁珠洗脱步骤未完全将非特异性结合的DNA洗脱下来。有文章报道，只有将Dangling Ends的比例控制子啊10-45%以下才会被认为是成功的Hi-C文库^8）。

Dump的主要原因在于酶的星号活性导致切割位点不在经典的位点，这有可能是酶切时间过长或反应体系中盐离子浓度和种类不合适导致的；另外一个原因是片段被DNA外切酶降解，使得片段的大小发生了改变。

获得了interaction reads后，要去除文库中完全一样的reads，因为这部分可能是由于PCR扩增导致的Duplication，去除Duplication后，Valid pairs数据可用于后续的滑bin统计分析了。

最后，对分享的内容进行总结。

判断HiC的文库是否合格的一个重要的指标是cis/trans的比值，一般认为cis interaction比例越高，表明该数据的质量越好。如果tran interaction的比例高于cis interaction的比例，则要慎重检查实验操作步骤是否出现纰漏。

对于植物样本，尤其是大基因组的植物样本，其unique mapped的比例可能较低，此时为了达到足够的数据量，需要提高测序深度；然而如果对于人鼠等动物样本，如果unique mapped ratio较低则可能是实验原因。

在unqiue mapped数据过滤步骤中dangling ends 过高可能是末端生物素去除不完全或磁珠洗脱步骤中出现问题所致。如果dump的比例过高则可能是样品发生了降解或星号活性。

最后一步去除PCR duplication，如果该步骤中duplication比例过高，则表明PCR循环数过高导致。

Hi-C实验步骤繁多，一份好的Hi-C实验数据需要实验人员针对不同的样本进行实验优化及在整个实验周期每个步骤用心地操作。出现不如人意的实验结果对于新手而言是正常的，此时就要对数据进行仔细分析，并将自己融入到实验的每个细节中细细体会，才会有所收获。最后给大家一个建议，多看看最近发表的文章，比较每个protocol的细微差别，如颉伟老师^9）和陈阳老师^5）今年发表的文章。相信看完后，会有自己的体会。

参考文献

Lieberman-Aiden E, Van Berkum N L, Williams L, et al. Comprehensive mapping of long-range interactions reveals folding principles of the human genome[J]. Science, 2009, 326(5950): 289-293.
Kalhor R, Tjong H, Jayathilaka N, et al. Genome architectures revealed by tethered chromosome conformation capture and population-based modeling[J]. Nature biotechnology, 2012, 30(1): 90-98.
Rao S S P, Huntley M H, Durand N C, et al. A 3D map of the human genome at kilobase resolution reveals principles of chromatin looping[J]. Cell, 2014, 159(7): 1665-1680.
Nagano T, Várnai C, Schoenfelder S, et al. Comparison of Hi-C results using in-solution versus in-nucleus ligation[J]. Genome biology, 2015, 16(1): 175.
Liang Z, Li G, Wang Z, et al. BL-Hi-C is an efficient and sensitive approach for capturing structural and regulatory chromatin interactions[J]. Nature Communications, 2017, 8(1): 1622.
Servant N, Varoquaux N, Lajoie B R, et al. HiC-Pro: an optimized and flexible pipeline for Hi-C data processing[J]. Genome biology, 2015, 16(1): 259.
Wingett S, Ewels P, Furlan-Magaril M, et al. HiCUP: pipeline for mapping and processing Hi-C data[J].F1000Research, 2015, 4.
Belton J M, McCord R P, Gibcus J H, et al. Hi–C: a comprehensive technique to capture the conformation of genomes[J]. Methods, 2012, 58(3): 268-276.
Ke Y, Xu Y, Chen X, et al. 3D chromatin structures of mature gametes and structural reprogramming during mammalian embryogenesis[J]. Cell, 2017, 170(2): 367-381. e20.

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,723评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,485评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 152,998评论 0赞 344
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,323评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,355评论 5赞 374
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,079评论 1赞 285
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,389评论 3赞 400
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,019评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,519评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,971评论 2赞 325
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,100评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,738评论 4赞 324
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,293评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,289评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,517评论 1赞 262
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,547评论 2赞 354
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,834评论 2赞 345

Hi-C文库数据质控及解读

Hi-C文库数据质控及解读

推荐阅读更多精彩内容