我们现在知道,当RNA被包裹在囊泡中或通过与脂蛋白或RNA结合蛋白结合时,它可以在生物液体的恶劣环境中生存下来。这些细胞外RNA(exRNA)在细胞间信号转导中发挥作用,作为疾病的生物标志物,并形成疾病治疗新策略的基础。
细胞外RNA通信联盟(ERCC)举办了一个为期两天的在线研讨会(2021年4月19-20日),内容是细胞外RNA数据分析的独特挑战。其目标是促进一个关于最佳实践的开放对话,并讨论该领域的开放问题,最初主要关注小的exRNA测序数据。
可提供研讨会介绍和讨论的录像(https://exRNA.org/exRNAdata2021-videos/)。
有三个目标受众:
- 生成exRNA测序数据的实验人员
- 与这些小组一起分析数据的计算和数据科学家
- 以及该领域的实验和数据科学家
在这里,我们总结了研讨会期间探讨的问题,包括开发exRNA数据分析挑战的努力进展,以参与社区解决这些开放的问题。
文章信息
- 文献标题:Open Problems in Extracellular RNA Data Analysis: Insights From an ERCC Online Workshop
- Doi:10.3389/fgene.2021.778416
- 发表时间: Frontiers in Genetics 03 January 2022
- 通讯作者:
- Ryan M. Spengler 威斯康星大学麦迪逊分校医学和公共卫生学院
- 细胞外RNA通信联盟 Roger P. Alexander
ERCC来源介绍
2013年,美国国立卫生研究院共同基金启动了细胞外RNA通信联盟,以促进对细胞外RNA的基础生物学及其在疾病诊断和治疗中的临床应用的研究。第一阶段的一个产品,ERCC1(2013-2018),是exRNAAtlas,一个包含小rna测序和RT-qPCR数据的数据库。迄今为止,该地图谱包含了来自14种生物液体和16种疾病的7700多份样本。
目前的阶段,ERCC2,重点关注于表征外RNA载体和分离、表征单个胞外囊泡(ev)含量的技术的发展。exRNA图谱的一个关键优势是,小RNA-seq数据集由细胞外RNA处理工具包(ecepRpt)统一处理。
从ERCC1中得到的一个惨痛教训是,很难从数据中根除系统偏差,这使得比较不同条件下的exRNA谱变得困难。2021年4月举行了在线研讨会,以解决exRNA数据分析中的这些问题和其他问题。
exRNA数据分析中的开放问题
1.一个关键的挑战是:不同的实验方法之间的exRNA数据质量有很大和系统的差异
从实验样本中分离和纯化exRNA和细胞外囊泡(ev)本身是困难的,用于这些任务的RNA分离试剂盒被认为是由此产生的exRNA数据可变性的一个主要来源。补偿这种变异是一个核心挑战,因为每种试剂盒和RNA测序方法都有不同的序列偏差,这在进行更大规模的分析时必须加以解释。
Dr. Kitchen强调,在尽可能使用相同方法制备的样品中,应该尝试比较不同样品中的exrna的相对数量。即便如此,exRNA载体丰度的大样本-样本差异仍然存在,这掩盖了病例对照研究中的生物信号。
2.在exRNA和EV生物学中,另一个有趣的中心问题是确定生物流体中不同的exRNA簇起源的组织和细胞类型
Dr. Kitchen认为,在尿液和唾液等外周生物液体中可能存在,但在循环血清和血浆中更具挑战性,在那里,exRNA 成分可能过于多样化而无法分析。对于囊泡外rna,这个问题应该通过改进分离EV亚组分的实验技术来简化,如选择具有细胞类型特异性表面蛋白的EV。然而,随着分馏技术的改进,将有必要补偿可变的富集效率。
3.非编码RNA注释的质量
Juan Pablo Tosar特别关注了非编码RNA注释的质量。他概述了miRNA和piRNA的生物发生机制是如何作为miRbase等现有注释的基础的。问题是,这样的数据库往往缺乏严格的管理,导致许多序列在任何合理的定义下都不是miRNAs或piRNAs。
Tosar描述了两个来自miRbase注释的两个例子,表明miR-1202实际上是小核仁RNA,SNORD126和miR-1246,一种富含ev的microRNA,可能是细胞培养基中胎牛血清(FBS)的污染物,也可能是小核RNARNU2-1的片段。
Tosar强调,piRNAs具有复杂的生物发生机制,具有强烈的偏倚,以U开头或在第10位有A,它们从具有高密度piRNA序列的基因组簇中表达。PiRNA主要在性腺和早期胚胎中表达,它们的主要作用是抑制转座因子的表达。然而,现有的piRNA数据库中有极少数(<1%)的污染序列不符合这些标准,并且与其他ncRNA家族有100%的重叠(Tosar等人,2018a)。在癌症和生物体液中发现的piRNA表达通常在这组假阳性污染物的序列中高度富集。
exRNA数据源
在一次关于exRNA数据源的会议上,Matt Roth概述了ERCC的exRNA图谱:从广泛的生物液体和疾病状态中产生的外显RNA测序和qPCR数据的精选目录。
Roth概述了exRNA图谱的特性,它便于访问、查询、解释和重用实验数据和样本元数据。他还描述了正在进行的努力,以扩展图集内容,包括作为ERCC2的一部分正在开发的其他exRNA技术的数据和元数据,并将exRNA图集数据集成到NIH共同基金数据生态系统(https://app.nih-cfde.org/)中。
Justin Chang预览了exRNA探索器工具,这是一个数据探索和可视化工具,很快将被集成到公开的exRNA图谱中。 Joel Rozowsky 后来在exRNA图谱中概述了用于处理短exRNA测序数据的超越管道。
Pieter Mestdagh展示了人类生物流体RNA图谱(Hulstaert等人,2020年),该图谱使用小RNA测序和mrna捕获测序来描述和比较了各种生物液体(n=20)中的exRNA转录组谱。
-
通过计算反褶积,可以将exRNA谱分解为贡献组织,这是稍后在研讨会上深入探讨的主题。他表明,反褶积的准确性取决于几个因素,包括(Mestdagh还提出证据表明,环状rna(环状rna)存在于生物液体中,相对于线性转录本的丰度比例可能高于细胞和组织中)
- 1)exRNA-seq read count适当转换和归一化,
- 2)反褶积算法的选择和
- 3)参考数据的质量和完整性。
Klaas Max讨论了血清和血浆中细胞外miRNA的健康参考谱,Max注意到,健康受试者中许多最可变的miRNAs是细胞谱系肝脏、神经内分泌器官、肾上腺、上皮细胞和肌肉的特异性miRNAs。具有共同起源的几个这样的miRNAs的丰度是中度相关的。尽管他们发现了其他可变表达的miRNAs, Max指出,已知的miRNAs很少是细胞谱系特异性的,这使得去卷积和识别起源组织的方法变得复杂。血浆通过超离心分离富集非造血mirna,并没有导致器官或细胞型�特异性mirna的强烈富集
exRNA-SEQ处理
1.外源性exRNA
微生物RNA污染:Karolina Elżbieta Kaczor-Urbanowicz研究团队收集了2000份来自GC患者和非GC对照组的唾液样本,并注意到唾液中微生物RNA的比例远高于其他生物液体。因此,对于ERCC的exceRpt管道的质量控制(QC)标准必须进行修改,以考虑到不成比例的高微生物RNA含量。该研究团队评估了是在映射到人类基因组之前还是之后,将RNA-seq读取的数据映射到微生物RNA上。他们发现,处理唾液长RNA-seq数据的最好方法是首先映射到微生物组,并在映射到人类之前去除比对上的细菌序列。
识别污染:研究还人员发现,通过进行反褶积和方差划分分析来分离外来的变异源,可以提高他们识别exRNA生物标记物的能力
2.exRNA文库制备的注意事项
Ryan Spingler强调标准的小RNA-seq库制备方法要求rna具有5‘磷酸和3’羟基,但相当一部分exrna缺乏这些末端化学修饰。Spengler在连接接头前用多核苷酸激酶(polynucleotide kinase, PNK,DNA及RNA 5′末端的标记)孵育RNA池,发现exRNA转录组图谱发生了显著变化,例如血浆中mRNA和lncRNA片段的数量显著增加。
这些片段可能来自于mRNA转录的特定区域,这些区域不受RNase(核糖核酸酶能催化核糖核酸(RNA)的降解)的降解,且在样本间也不受RNase降解的区域类似。
仔细过滤reads映射到重复和非人类序列对于识别真正的mRNA片段至关重要。在一项造血干细胞移植受者的纵向研究中,mRNA片段分离成几个不同的时间共表达signatures,与转录本可能的起源组织(即肝脏和骨髓)相关。
3.生物标志物发现
Leonora Balaj讨论了识别与胶质瘤相关的细胞外mRNA signatures的成就。
他们检测了从胶质瘤患者分离的ev中提取的RNA-seq长序列,并将其与年龄和性别匹配的健康个体进行比较。他们还展示了一种两种混合捕获方法,使用外显子组panels从蛋白质编码的mrna中富集exRNA reads。包括核糖体RNA去除步骤,他们能够大量富集mRNA序列,并在很大程度上消除非捕获文库中占主导地位的非mRNA reads。
4.小RNA Clusters从头发现
exRNA和RNA结合蛋白
在生物液体中循环的细胞外RNA必须被保护起来,使其不受恶劣环境的影响,特别是不受消化RNA的酶的影响。
- 一些exRNA对RNase的消化具有抗性,例如,Gly/GlutRNA片段,可以形成稳定的同源和异源二聚体
- 其他的exrna在囊泡内或通过与rna结合蛋白的结合而受到保护
- 最近的研究表明,一些细胞表面的外rna受到糖基化的保护
RBP相关的exRNAs一直难以研究,因为分离和鉴定人类基因组中数百个RBPs的RNA结合位点需要微妙的蛋白质生物化学。
- Eric Van Nostrand概述了来自RNA元件百科全书(ENCORE)的资源来帮助这一工作,包括经过验证的抗体和shRNA试剂
反褶积
该领域的两个主要开放性问题是确定生物液体中exrna的来源组织,并将其与分子载体联系起来,无论是RNA结合蛋白,脂质,如HDL或LDL,还是各种类型的细胞外囊泡。
计算反褶积是一种将异构数据集划分为不同独立成分贡献的方法,可以补充解决此类挑战的实验性方法。反褶积算法有两大类:基于参考的和无参考的:
- 基于参考的算法:需要从所有细胞类型或分子载体中分离出一个已知的基因表达谱的签名矩阵
- 无参考方法:同时估计特征矩阵和混合物中每种细胞类型或载体的相对比率
例子:
XDec algorithm:一种两阶段无参考反褶积算法,将生物流体样本中的exRNAs分离为与不同分子载体相关的组——胞外囊泡、脂蛋白HDL和低密度脂蛋白,以及三类RNA结合蛋白
DAISM-DNN algorithm
CIBERSORTx:baseline reference methods,基于早期的细胞类型识别,通过估计RNA转录本的相对子集(CIBERSORT)算法
数据可用性
本研究分析了公开可获得的数据集。数据来源包括
- exRNA图谱(https://exRNA-Atlas.org)
- 人类生物流体RNA图谱(https://r2.amc.nl)
- 来自肿瘤反褶积DREAM挑战的数据可在https://www.synapse.org/#!Synapse:syn15589870/wiki/582446上获得