单细胞测序技术将彻底改变整个生物科学
Single-cell sequencing-based technologies will revolutionize whole-organism science
全文链接: https://www.nature.com/articles/nrg3542
核心观点
DNA测序技术的发展使得能够分析单细胞的基因组和转录组,并且很快将实现单细胞表观基因组学和蛋白质组学分析。
单细胞基因组分析可揭示单个细胞之间的基因组变异性,并用于以谱系树的形式重建细胞祖先。
单细胞转录组分析可用于研究单个细胞的功能状态并以无偏差的方式推断和发现细胞类型。
基于高通量测序整合单细胞分析,将能够同时分析细胞的基因组,转录组学和表观基因组。这些数据将揭示细胞的类型及其祖细胞,并以它们的当前功能状态,推断它们的祖细胞的类型和功能状态。
单细胞综合分析,将揭示生物学和医学的基本问题,包括癌症起源和发生,人类细胞类型的数量和关系,以及再生组织中细胞更新的速率和结构。
Methods for single-cell isolation-单个细胞的分选方法
生物体有成千上万种细胞类型,有多种方法可以从生物体组织中分离出单个的细胞。(主要分为随机和靶向分离两种)
号外:分离细胞是单细胞研究中最困难的步骤之一。目前的单细胞分离策略主要分为三类:手动分离、荧光激活的细胞分选和微流体技术。在进行单细胞转录分析之前,我们需要确定自己拿到了正确的细胞。如果你想要的细胞已经处于悬浮状态(比如循环肿瘤细胞),而且含量相对比较丰富,那么流式细胞分析将是你的理想选择。如果样本是实体组织,我们可以用酶分解掉胶原和其他细胞外蛋白。不过酶学消化对细胞影响较大,甚至可能改变基因转录情况。把组织细胞制成悬液之后,我们就可以通过特异性的荧光标签分离出自己想要的细胞。进一步拿到单细胞是比较棘手的一步,可能需要用到微流体设备。将细胞分散到悬液中,会失去它们在组织里的位置信息。如果你想要了解单细胞所处的环境,就得使用激光捕获显微切割技术。这种技术通过扫描组织切片定位目的细胞,并将其提取出来。操作者需要非常小心,以免切到细胞或细胞核。数量最为稀少的细胞只能用毛细管等器具手动获取。
从实体组织中分离单个细胞关键两步:
第一步,(单个细胞)通常是用酶解的方式把离体或者活体分解成单个的细胞;
第二步,单个的细胞必须在单个的反应器中进行裂解和进一步的分析。
四种方式获得单个细胞及其优缺点(Table 1):
显微操纵(精密控制)(micromanipulation)
荧光激活的流式分选:flow sorting using fluorescence-activated cell sorting (FACS)
激光捕获显微切割(Laser Capture Microdissection,LCM)
http://www.tj3zx.cn/system/2016/06/27/012259863.shtml
微流体技术(microfluidic device)
Single-cell genomics
Reconstructing cell lineage trees using somatic mutations.
基于体细胞突变重建细胞谱系图。
最初,人们认为同一个个体不同的细胞具有完全相同的基因组的观点证明是错误的。体细胞分裂时DNA的复制不可能绝对精确无误-引起体细胞突变。体细胞突变从受精卵阶段开始积累,这些突变具有很高的几率赋予我们身体中的每个细胞具有独特的基因组特征。体细胞独特的基因组信号可以构建精度很高的细胞谱系。人类生物学和医学中尚未解决的核心问题实际上是关于人类细胞谱系树的问题:它在发育,生长,更新,衰老和疾病中的结构,动力学和变异性。完全了解每个细胞中积累的独特体细胞突变将允许我们以极高的精度重建细胞谱系树。
Cell lineage reconstruction of cancer will elucidate its development.
癌细胞谱系重建将阐明其发展过程
细胞谱系重建癌症将阐明其发展。癌症患者通常不会死于肿瘤的发生,而是死于癌症转移。然而,尽管进行了数十年的研究,关于转移灶起源于何处的关键问题尚未得到彻底的阐述(图2)。转移癌细胞的来源癌症病灶中的任何一个细胞还是来自于不肿瘤亚克隆?或是来自于肿瘤干细胞?或者是转移来自肿瘤细胞和正常移动的巨噬细胞融合形成的杂合体?化疗后癌症复发的原因,可能是普通肿瘤细胞随机逃避化疗引起的?癌细胞谱系对解答这些问题至关重要。
早期的实验分析了每个细胞中的几个关键标记。在最近的一个例子中,通过荧光原位杂交(FISH)测定单个细胞中多达8个染色体畸变及其组合的发生率,来研究了急性淋巴母细胞白血病的异质性和肿瘤起源。这使得在癌症进展过程中可以分析亚克隆结构。最近,使用数百个单核的测序产生个体乳腺癌细胞的近似拷贝数分布,从而重建肿瘤群体结构和进化历史。在另一项研究中,对患有骨髓增生性肿瘤的患者的全外显子组进行单细胞测序,以重建肿瘤祖细胞并识别出候选驱动突变。
使用二代测序构建的体细胞突变谱系示踪,已经在体内大量细胞群体中得到了证实,但对于单个细胞尚无报道。且bulk测序不能显示,关于突变或畸变的不同组合的准确信息,解决此类问题有待构建癌细胞的单细胞谱系分析
通向单细胞基因组学的道路。
虽然,现在对细胞群体的DNA进行测序已经变得很容易,但对来自单细胞的DNA进行测序仍然是一个挑战。尽管最近通量有所提高,获得足够深度的多个单细胞测序分析的成本仍然很高,这已经成为限制大规模应用单细胞基因组学,转录组学和表观基因组学的阻力。下面是对测序DNA测序建库、
Single-cell transcriptomics
单细胞转录组学
The molecular state of cell populations
细胞群的分子状态
给定异质细胞群,测量关键因子的平均值,例如基因型,RNA输出或目标基因座的表观遗传状态,仅提供系统状态的部分表征。不幸的是,用于量化细胞群的分子状态的大多数方法,从转录分析到蛋白质组学,是基于通过平均单个细胞的信号来估计数百万个细胞的集合中的平均行为。例如,不可能基于微阵列或RNA测序(RNA-seq)数据确定基因表达的细胞间差异,或确定信号蛋白的中间水平是否是双峰或均匀种群内的结果。基于标准蛋白质组学的分布。超越基于平均值的细胞群表征需要在不同尺度上平衡采样细胞的数量和功能覆盖的完整性(表2)。
Applications of single-cell transcriptomics.
单细胞转录组的应用
单细胞转录组学的应用。单细胞转录组学的一个主要应用是分析稀有细胞类型。例如,可以从患者血液中获得循环肿瘤细胞,但是通常每个血液样品仅分离少量细胞,并且这些细胞通常会被更多数量的正常细胞污染。单细胞RNA-seq可用于区分这些细胞类型,同时从肿瘤中获得表达数据。类似地,根据定义,早期人类胚胎仅包含稀有细胞类型,其仅存在于瞬时。关于早期发展的关键问题可以使用转录组学来解决。在这种情况下,转录组学具有能够使用序列多态性(例如,SNP)来区分衍生自两个亲本基因组中的每一个的转录物的优点。另一个将从单细胞转录组学中获益的领域是成体干细胞的研究,这种干细胞通常很少见,有时只是短暂存在,并且可以与其他细胞类型混合。然而,通过使用单细胞RNA-seq,可以简单地通过从组织中取无偏倚的细胞样品来广泛地采样每种细胞类型。
单个细胞的大小,形态,发育起源和功能特性差别很大。然而,尽管在某些特定情况下取得了进展,但我们目前对细胞类型,其起源,进化和多样性的理解程度却令人尴尬地很差85,86。此外,对哺乳动物体内细胞类型的数量没有普遍的一致意见。事实上,对于什么定义细胞类型没有达成一致,找到这样的定义肯定是我们开展大规模单细胞转录组分析时最重要的目标之一。作为起点,我们建议可以将细胞类型临时鉴定为全局转录状态相似的细胞。只是相似的,以及转录组的哪些部分是相关的,将是未来的关键问题。但是这种细胞类型的临时概念立即引发了一种无偏见的细胞类型发现方法(图3):从感兴趣的组织中收集大的,无偏的细胞样本,为每个细胞生成转录组并使用计算方法来查找集合相似的细胞。建立的聚类和降维方法 - 例如K均值,亲和传播和层次聚类以及主成分分析 - 将是有用的起点87。由于一些实验室已经在分析数百或数千个单细胞转录组,我们预计很快就会开始进行大规模的全身细胞类型发现和表征。
The road to single-cell transcriptomics.
单细胞转录组学之路
通往单细胞转录组学的道路。尽管单分子DNA72,73,74和RNA92测序取得了进展,但尚不可能直接从单细胞中测序RNA。目前,RNA需要转化为cDNA并进行扩增,这必须以最小的损失实现,并且不会引入太多的定量偏差。
在单细胞转录组实验中存在几种噪声源。全局(即,影响细胞中RNA的总量)和局部(例如由于共调节或大规模染色质修饰)存在生物学波动。还存在技术噪音,例如由于移液误差,温度差异,测序深度的差异,PCR扩增偏差和逆转录效率的差异。重要的是要认识到单细胞转录组分析也是单分子分析,因为许多基因仅在每个细胞的少数mRNA分子中表达。来自少量分子的扩增受蒙特卡罗效应的影响,其中PCR的前几个循环中的随机事件以指数方式放大,导致大的定量误差。
定量单细胞转录组分析的最终目标必须是精确计数细胞中的每个RNA分子,导致接近零的技术错误。例如,如果我们要使用mRNA计数分布的形状来推断转录动力学,则这是必需的。事实上,通过使用分子的独特标签93,94,95,96,97,可以实现精确的分子计数。在扩增和深度测序后,可以鉴定每个原始分子。只要样品的测序深度足够,使每个分子标记至少观察一次,扩增效率的差异就无关紧要了。尽管迄今为止仅使用独特的分子标记仅用于大量样品,但它是一项关键的进步,可能能够对单细胞转录组进行更加定量的分析。
另一个错误来源是损失,这可能是严重的。公布的方案的检测限是5-10个mRNA分子。如果可能的话,检测极限主要取决于样品制备过程中的损失,这表明80-90%的mRNA丢失。或者,换句话说,90%的损失导致大约50%的机会未能检测到以7个mRNA分子(来自二项分布)的水平表达的基因。这些损失在小细胞(例如干细胞)中尤其成问题,其中mRNA含量开始时较低。但即使在较大的细胞中,由于少量分子的随机取样,这种损失也会引起严重的定量误差。例如,测量100个具有90%损失的分子导致10±3个检测到的分子,这意味着单独的损失引入了30%的标准偏差。为减轻技术噪音的影响,我们建议分析大量单细胞(方框2)。
最
Single-cell epigenomics and proteomics
单细胞表观组和蛋白组
显然,细胞的基因组和转录组仅捕获其部分状态,并且细胞的大部分功能由其表观基因组和蛋白质组决定,这增加了群体中细胞的多样性。细胞的表观基因组状态包括表观基因组标记,例如DNA甲基化和组蛋白甲基化和乙酰化,与染色质结合的结构和调节蛋白,增强子和形成转录复合物的启动子之间的空间相互作用,以及染色体的三维方向。大块亚硫酸氢盐测序提供了关于基因座处的成簇CpG位点组的平均DNA甲基化状态的信息。 CpG甲基化的消耗与转录激活有关,并且可能是调节蛋白结合的结果。批量实验可以提供细胞或等位基因内甲基化分布的数据105,106,或差异甲基化随机出现的支持模型107。然而,在大量实验中,通常不可能确定两个甲基化位点是否实际存在于单个细胞中,除非甲基化位点非常接近以至于它们可以在单个测序读数中检测到。染色质免疫沉淀,然后测序(ChIP-seq)用于研究全基因组的蛋白质-DNA相互作用108,以及产生组蛋白修饰的全基因组图谱。 ChIP-seq已被用于确定转录因子结合的全基因组模式及其与活性转录和表观基因组标记的关系。使用染色体构象分析及其所有衍生方法(例如,3C109,4C110和Hi-C111),还可以直接测量远端染色质元件之间的相互作用,从而揭示细胞核内的大规模染色体组织,以及作为个体基因座增强子 - 启动子相互作用的更精细细节。然而,再次,通过使用大量实验,不可能知道复杂的染色质构象或结合的转录因子的组合是否实际存在于单个细胞中。例如,考虑肿瘤样本的分析。转录因子与启动子结合并且相应基因被转录的观察结果不一定意味着这两个事件发生在同一细胞中。相反,有可能在肿瘤中发生一个事件而在浸润的基质细胞中发生另一个事件。需要在单个细胞中组合测量表观基因组和转录组状态以解决该问题。基于测序的方法在单细胞表观基因组学中的广泛应用尚未见报道。将表观遗传学扩展到单细胞水平的挑战与单细胞转录组学所面临的挑战相似:避免材料损失和最小化定量偏差。由于这个原因,在单个细胞中应该相对容易地检测广泛且大部分二元标记,例如DNA甲基化和组蛋白修饰。实际上,已经证明了DNA甲基化112,113和组蛋白修饰114的概念验证单细胞表观遗传分析。相比之下,ChIP-seq靶向单细胞中的转录因子是一项艰巨的挑战,因为任何单个细胞中存在少量转录因子,对其靶序列的亲和力低以及抗体通常不完美。将表观遗传标记用于大量细胞群以分析结肠直肠癌的动态41,115,116并构建结肠隐窝干细胞的谱系树117,118,119。蛋白质组学分析方法包括蛋白质阵列120,FACS分析121,共免疫沉淀122,下拉分析123和质谱分析124,它们揭示样品中不同的蛋白质性质(例如,蛋白质浓度或蛋白质 - 蛋白质相互作用)。还开发了基于DNA的蛋白质组学分析的方法 - 例如,免疫-PCR125和邻近连接测定126-并且最近使用NGS7,127应用这些方法。与表观基因组学一样,基于测序的方法在单细胞蛋白质组学中的广泛应用尚未见报道,尽管已经发表了初步的概念验证研究[128,129]。
单细胞转录组学的另一个应用领域是转录波动的表征。 RNA含量的动态变化与循环过程相关,例如细胞分裂和昼夜节律的细胞周期。其他波动是随机的,反映了转录是由许多概率步骤组成的离散过程的事实。通过细胞分裂时细胞内容的不均匀分配引入了进一步的异质性(例如,参考文献88)。大量单细胞的直接转录组分析应该开启对未受干扰的细胞群中振荡和随机调节过程的研究。在假定相同的细胞群中,可以鉴定多组共同调节的基因。每组必须是功能过程的一部分,例如振荡器或随机过程。例如,共享共同上游调节因子的基因可能会显示相关表达。目前,为了发现协变基因而必须分析的单个细胞的数量是未知的,并且在不久的将来找到这些数字的第一估计将是关键任务。还有证据表明转录受到强烈的内在波动89,90。解释这种内在噪声的模型可以预测mRNA拷贝数分布的形状,可以根据实验测量的分布进行测试89。这种测试不能使用批量测量来进行,批量测量不提供有关方差或任何更高时刻的任何信息。尽管如此,单细胞转录组分析仅提供了及时的快照,并且通过例如延时显微镜91进行动态的长期测量来补充该视图仍然是重要的。
conclusion
结论
单细胞是生命的基本单位。因此,单细胞分析不仅仅是更进一步地迈向更敏感检测,而且是对生物学更基本原理理解质的飞跃。在这里,我们描述了基于单细胞测序分析的最新进展。这些进展包括单个细胞的基因组和转录组测序,我们预测很快就可以在数千甚至数百万个细胞中的核酸完成全基因组测序。此外,我们也描述了如何将细胞现象转换为基于DNA序列的读数。例如,可以通过ChIP-seq将诸如组蛋白修饰的表观基因组标记转化为DNA信号。类似地,蛋白质修饰和相互作用可通过邻近连接测定法转化为DNA信号。
DNA测序的海量信息及其不断增长的势头,意味着许多不同的细胞现象可转化为DNA读出。这种融合的结果应该允许多种模态的综合测量。这种整合的可行性已经在基因组学和转录组学分析中得到证实,并且同时分析单细胞中的DNA,RNA和蛋白质可用于定量描述分子生物学的中心法则。尽管单细胞分析方法正在快速发展,但在单细胞整合分析中同时分析多种特性仍待开发。细胞特性之间的生化差异导致分析它们的方法需要改变。并有待开发通用性的单细胞多特性分析测量。这种整合单细胞遗传,表观遗传,转录和蛋白质组学的分析方法(图1),将允许构建多个分子标记之间的关系,无偏见的识别复杂细胞群结构,直接或间接表征其之间的因果关系。开发复杂的单细胞遗传分析方法可以更好地理解这些细胞特性,并重新定义“细胞类型”的概念。这种整合的可行性已经在基因组学和转录组学分析中得到证实。
最后,在发育过程中单个细胞的突变的积累,可以用于推断每个细胞的祖细胞。虽然细胞命运图描述了特定状态下细胞的下一潜在状态,但并不能获得它们的精确谱系关系。相比之下,使用体细胞突变重建细胞谱系树,不但能获得细胞间的谱系关系,还可以提供它们祖细胞的状态信息。我们预计,对单细胞进行的综合分析将为推动小鼠和人类等高等生物研究发展提供动力。如果采样细胞的状态 - 由它们的转录组和表观基因组决定,并且可由它们的蛋白质组进一步增强 - 构成重建细胞谱系树的叶子,那么可以精确的知道,其祖细胞的状态;由谱系树内部节点可以形式化为数学模型。这将允许扩展重建范围来描述其状态改变的动态,并将细胞谱系树与细胞命运整合在一起。
高等生物的细胞谱系树可以回答人类生物学与医学中的许多开放性问题,并且有可能将医学转变为个性化的诊断和治疗。大约十年前,就有人提出,单细胞基因组学的发展可能会开启“人类细胞谱系项目”,并以重建整个人类细胞谱系树为目的。我们相信,对单细胞测序技术的回顾和发展将是我们更接近使实现这一目标,并将彻底改变整个有机体科学。