重生之我在剑桥大学学习单细胞RNA-seq分析——1. 单细胞RNA测序介绍(2)

1.4 转录本定量
转录本定量有两种类型:全长和片段化。全长方法试图实现整个转录本的统一read覆盖,而片段化的方法仅捕获5’或3’端。量化方法的选择对于数据可用于哪些类型的分析具有重要意义。
为单细胞准备全长文库与在Bulk RNA测序中所做的基本相同,并且仅限于基于微孔板的方法,如SMART-seq2。尽管理论上全长方法应该提供均匀的转录本覆盖,但有时整个基因体的覆盖可能会存在偏差。全长方法还允许检测可变剪接体,这对于其他方法来说很难做到。

用于Illumina测序的RNA文库制备。样本中富含含有poly(A)尾的RNA,这避免了对rRNA进行测序(但代价是也会丢失其他非编码RNA)。然后将RNA片段化并逆转录为更稳定的cDNA,将Illumina接头连接到每个分子,最后进行PCR扩增。在单细胞RNA测序中,使用具有特定barcode的接头,可以识别属于单个细胞的测序read。https://www.labome.com/method/RNA-seq.html
将测序read与转录组比对后,基因体覆盖中的3’偏差的示例。每条线代表细胞中所有基因的平均覆盖率。在这个例子中,除了所有细胞的3'偏差之外,还有三个细胞相对于其余细胞看起来像异常值,应该从下游分析中删除。这些细胞的RNA质量可能较差,例如由于降解所致。

使用片段化的方法,仅对转录本的一端(3'或5')进行测序。片段化方法的主要优点是它们可以与唯一分子标识符(UMI)相结合,这有助于提高转录本定量的准确性。这种改进的原因与文库制备过程中的PCR扩增步骤有关,该步骤会为每个分子创建多个重复副本。由于这种扩增是指数级的,分子可能在最终的文库中不公平地呈现,导致由于这些PCR重复而对其表达进行高估。为了解决这个问题,细胞barcode被唯一地标记一个随机核苷酸序列UMI,它对于单个分子来说是唯一的。该UMI是测序read的一部分,然后可以在量化转录本的丰度时通过计算将其考虑在内。目前大多数scRNA-seq方法都是片段化的,包括流行的基于液滴的10x Chromium方法。片段化方法的一个缺点是,由于仅限于转录本的一端,它降低了我们将read与转录本明确比对的能力,也使得区分不同的异构体变得困难。

10X Chromium的3’文库方法概述。细胞被捕获在含有bead的单个油滴(GEM)中。单个bead含有具有共同barcode的接头,但具有多样且不同的唯一分子标识符 (UMI) 序列。使用poly(dT)引物将带有poly-A尾巴的mRNA逆转录为cDNA。然后将GEM破碎,并通过PCR扩增富集cDNA。最后,将cDNA片段化,并在分子的另一端连接另一个Illumina接头。最终的文库由一条包含细胞特异性barcode(用于识别来自不同细胞的read)和分子特异性UMI(用于量化基因的表达)的read,和一条包含来自实际cDNA分子的序列的可以用来将其与参考转录组比对的read组成。

5'或3'?
基于5’和3’片段化的方法之间的区别在于对转录本的哪一端进行测序。尽管3’端测序方案更为常用,但现在许多方法都允许从任一端进行测序。5'端测序的优势在于,我们可以获得有关转录起始位点(TSS)的信息,从而可以探索不同细胞之间TSS的使用情况是否存在差异。

1.5 实验设计
进行scRNA-seq实验时需要考虑几点。每个细胞的成本、需要多少个细胞、或者每个细胞的测序量等因素都可能影响我们对方法的选择。另一方面,必须小心避免由于在不同时间处理批次而产生的偏差,缺乏足够的重复也可能限制可以进行的分析类型,从而限制我们回答一些感兴趣的问题的能力。
1.5.1 如何选择方法
最合适的平台取决于当前的生物学问题。例如,如果要表征异质性组织的组成,那么基于液滴的方法更合适,因为它可以以几乎无偏的方式捕获大量细胞。另一方面,如果要表征具有已知表面标记的特定细胞群,那么最好使用FACS进行富集,然后以更高的测序深度对较少数量的细胞进行测序。
显然,如果研究不同的异构体,全长转录本定量将更合适,因为片段化方法在这方面受到更多限制。相比之下,UMI只能与片段化方法一起使用,并且可以改善基因水平的量化。
如果对稀有细胞类型(没有已知标记)感兴趣,那么需要对更多细胞进行测序,这将增加实验成本。Satija实验室开发了一个有用的工具来估计需要测序的细胞数量:https://satijalab.org/howmanycells/
决定使用哪种方法的另一种方式是依赖专门比较不同方法的研究。这些研究主要关注敏感性(每个细胞检测到多少个基因)、准确性(例如与Bulk RNA-seq相比)以及恢复样本中存在的所有细胞类型的能力(在市售细胞混合物上测试)等问题。Ding等人在2020年进行的一项研究表明,与高通量方法相比,低通量方法具有更高的灵敏度。另一方面,低通量方法无法捕获样本中一些较稀有的细胞类型,从而导致对细胞群体的表征不完整。

PBMC混合物中不同方法的转录检测灵敏度。该图取自Ding等人,显示了a)每个细胞检测到的不同UMI的数量(对于使用片段化的转录本定量的方法)和b)跨方法每个细胞检测到的基因数量。显示了两次实验重复的结果。

Ziegenhain等人的另一项研究(Ziegenhain et al. 2017)比较了同一小鼠胚胎干细胞(mESC)样本的五种不同方案,得出了类似的结论。最后,Svensson等人(Svensson et al. 2017)的一项研究使用已知浓度的合成转录本来测量不同方案的准确性和灵敏度。通过比较广泛的研究,他们还报告了方法之间存在的显著差异。

来自Svensson等人的图表,比较了不同协议的a)准确性(以与Bulk RNA-seq数据的Pearson相关性来衡量)和b)灵敏度(检测到的分子数量)。

随着方法的开发和改进,以及量化技术噪声的新计算方法的出现,未来的研究可能会帮助我们进一步了解不同方法的优势。这些比较研究不仅有助于决定使用哪种方法,而且有助于开发新方法,因为基准测试可以确定哪些策略是最有用的。
除了方法之间的通量和灵敏度差异之外,成本也可能是规划scRNA-seq实验的决定性因素。虽然我们可以参考 Satija Lab提供的这个工具作为起点:https://satijalab.org/costpercell/,但很难准确估计一项实验需要花费多少钱。例如,一些基于液滴的方法(如Drop-seq)比10x Chromium等商业产品更便宜。然而,他们要求实验室配备齐全以制备文库,还需要训练有素的工作人员和专门的时间。
细胞哈希算法(Stoeckius等人)等方法可以进一步降低使用当前平台进行测序的成本。该方法具体包括将寡核苷酸标签附着到细胞膜上,从而允许每次实验加载来自多个样本的更多细胞,然后可以在分析过程中进行分离。
1.5.2 数据挑战
Bulk RNA测序和单细胞RNA测序之间的主要区别在于,每个测序文库代表单个细胞,而不是一群细胞。因此,在单细胞水平上不可能有“生物重复”:每个细胞都是独一无二的,不可能重复。相反,可以根据细胞的相似性对其进行聚类,然后可以对相似细胞类群进行比较。
单细胞RNA测序的另一大挑战是每个细胞的起始数据量非常少。这会导致数据非常稀疏,其中大多数基因未被检测到,因此我们的数据包含许多零。这可能是由于基因未在细胞中表达(“真正的”零)或基因已表达但我们无法检测到它(“丢失”)。这会导致细胞间差异,这种差异并不总是生物学上的,而是由于细胞间PCR扩增不均匀和基因“丢失”造成的技术问题。提高转录本捕获效率、减少扩增偏向是解决这些问题的方法,且仍是技术研究的活跃领域。然而,正如我们在本课程中看到的,通过适当的数据标准化可以缓解其中的一些问题。
需要考虑的另一个重要方面是批次效应。即使使用不同的技术对相同的材料进行测序时也可以观察到这些现象,如果没有正确地标准化,则会导致错误的结论。

使用三种不同的单细胞方案(颜色)对同一细胞群进行测序。

样本处理还应以避免实验控制变量(如治疗、基因型或疾病状态)与样本制备和测序时间之间混淆的方式进行。例如,如果计划进行一项实验来比较10位患者的健康和患病组织,如果每天只能处理10个样本,最好每天同时处理5个健康样本+5个患病样本,而不是一天准备所有健康样本,另一天准备所有患病样本。另一个考虑因素是确保组织样本的重复。例如,当从器官收集组织时,从器官的不同部位采集多个样本可能是一个好主意。或者考虑收集样本/重复样本的时间(由于基因表达可能发生的昼夜变化)。总之,在执行scRNA-seq时应考虑实验设计中所有常见的最佳实践。

混淆设计(顶部)和平衡设计(底部)的图示。形状表示不同的样本类型(例如组织或患者),颜色表示处理批次。在混淆设计中,不可能将生物变异与加工批次造成的变异区分开来。在平衡设计中,通过使用组织重复并将它们跨批次混合,可以区分生物和批次相关的变化。

1.6 总结

  • scRNA-seq非常适合研究异质性细胞群。例如,为了识别组成组织的细胞类型、定义不同细胞类型的“转录指纹”、研究细胞分化、探索由于疾病或环境因素导致的细胞组成变化等。
  • 典型的样品制备工作流程包括分离单细胞(或细胞核)、将RNA转化为cDNA、准备测序文库和测序。
  • 已经开发出了许多单细胞方法,一些是公开的,另一些是商业的。它们主要在通量、量化类型以及成本方面有所不同。
  • SMART-seq2是一种流行的低通量方法,可提供全长转录本定量。它非常适合更详细地研究较小的细胞群(例如差异异构体的使用、低表达转录本的表征)。
  • 10x Chromium是一种流行的高通量方法,使用UMI进行转录本定量(从3'或5'端)。它非常适合研究高度异质的组织和大规模采集大量细胞样本。
  • 在规划实验时,应注意避免因批次效应而造成的混淆,并确保足够的重复水平以解决感兴趣的问题。

参考文献
Archer, Nathan, Mark D. Walsh, Vahid Shahrezaei, and Daniel Hebenstreit. 2016. “Modeling Enzyme Processivity Reveals That RNA-Seq Libraries Are Biased in Characteristic and Correctable Ways.” Cell Systems 3 (5): 467–479.e12. https://doi.org/10.1016/j.cels.2016.10.012.
Kharchenko, Peter V, Lev Silberstein, and David T Scadden. 2014. “Bayesian Approach to Single-Cell Differential Expression Analysis.” Nat. Methods 11 (7): 740–42. https://doi.org/10.1038/nmeth.2967.
Svensson, Valentine, Kedar Nath Natarajan, Lam-Ha Ly, Ricardo J Miragaia, Charlotte Labalette, Iain C Macaulay, Ana Cvejic, and Sarah A Teichmann. 2017. “Power Analysis of Single-Cell RNA-Sequencing Experiments.” Nat. Methods 14 (4): 381–87. https://doi.org/10.1038/nmeth.4220.
Tang, Fuchou, Catalin Barbacioru, Yangzhou Wang, Ellen Nordman, Clarence Lee, Nanlan Xu, Xiaohui Wang, et al. 2009. “mRNA-Seq Whole-Transcriptome Analysis of a Single Cell.” Nat. Methods 6 (5): 377–82. https://doi.org/10.1038/nmeth.1315.
Ziegenhain, Christoph, Beate Vieth, Swati Parekh, Björn Reinius, Amy Guillaumet-Adkins, Martha Smets, Heinrich Leonhardt, Holger Heyn, Ines Hellmann, and Wolfgang Enard. 2017. “Comparative Analysis of Single-Cell RNA Sequencing Methods.” Mol. Cell 65 (4): 631–643.e4. https://doi.org/10.1016/j.molcel.2017.01.023.

往期回顾:
重生之我在剑桥大学学习单细胞RNA-seq分析——1. 单细胞RNA测序介绍(1)

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容