文献信息
标题:Transcriptomic Features in a Single Extracellular Vesicle via Single-Cell RNA Sequencing
日期及杂志:2022 Nov, Small Methods
作者及单位:Tao Luo, Si-Yi Chen, Zhi-Xin Qiu, Ya-Ru Miao, Yue Ding, Xiang-Yu Pan, Yirong Li, Qian Lei,* and An-Yuan Guo*, Department of Laboratory Medicine Zhongnan Hospital of Wuhan University
文献概述(这篇文献的结论是什么?)
尽管许多研究已经研究了细胞外囊泡(EV)中的功能分子,但单个EV中核糖核酸分子的确切数量尚不清楚。因此,在单个EV水平上探索转录组学特征和异质性至关重要。在这里,使用10x基因组学平台,对来自人类K562和间充质干细胞(MSC)的单个EV的RNA进行了分析。关键步骤是使用calcein-AM标记完整的EV,通过流式细胞术检测EV浓度,并使用具有自适应阈值的CB2算法有效区分真实EV和背景。单个EV包含的基因数为6 ~ 148个,平均为52个。核糖体基因、线粒体基因和真核翻译延伸因子1α在所有EV样品中具有较高的占比。血红蛋白基因在k562 - EV中高表达,而细胞骨架基因在MSC - EV中富集。在单个EV数据集中,10个或更多具有不同marker基因的集群显示出EV异质性。此外,将EV及其亲本细胞整合在一起,可以同时发现每个簇中的EV和细胞,表明各种EV的细胞来源不同。据作者所知,这项研究提供了第一个单EV水平的高通量转录组,并提高了对EV的理解。
文献结果(每个结果的图片详细解读)
1、表征及浓度分析
通过连续差异离心分离出来自K562和MSC细胞的EV。如(图1a)所示,通过透射电镜观察到具有膜状结构的球形囊泡。NTA分析证实,EV的粒径分布在直径范围为100-1000nm之间,其中大部分在100-200nm范围内(图1b)。通过EV标记物的表达来验证EV,包括跨膜蛋白(CD9)、胞质蛋白(Alix和TSG101)和微囊泡特异性marker蛋白AnnexinA1(图1c)。使用流式细胞术测量EV浓度,用100、300、500和1000 nm的校准珠定义EV门控策略(图1d)。在P6 gate处记录K562-EV和MSC-EV样品的calcein-AM阳性事件浓度(图1e,f)。
2、从10x Genomics数据中鉴定出单个EV
为了发现单个EV的转录组特征,基于10x Genomics平台对3个EV样本(K562-EV1、K562-EV2和MSC-EV)进行scRNA-seq检测。(图2a)在去除背景条形码、识别异常值和去除双重序列后,三个原始的10x Genomics输出数据集用于下游分析。(图2b,c)分别显示了原始基因条形码矩阵和从每个数据集中去除背景条形码的过滤矩阵的Barcode rank plot。(图2b)中Barcode rank plot形状上的拐点通常用于区分与细胞相关的条形码和背景条形码,然而EV通常比细胞小,在本研究中的EV Barcode rank plot中没有明确的拐点。因此,在0x Genomics平台上的Cell Ranger上的cell-calling算法不能将EV与背景区分开来,因为每个EV的RNA含量较低。CB2算法通过将条形码根据其总唯一分子标识符(UMI)计数分为上阈值和下阈值来解决这个cell-calling问题。去除背景条形码后,(图2c)有了清晰的拐点。(图2d)柱状图显示了不同EV样本的EV数量和检测到的基因总数(左),以及每个EV中基因数量和UMI计数的中位数(右)。(图2e,f)分别显示了检测到的基因分布和每个数据集中的UMI计数的频率直方图。
3、EV样本中的高表达基因
接下来,本研究调查了每个EV数据集中的前500个高表达基因。3个EV样本共有323个共有基因,其中包含78个(24.1%)核糖体基因和8个(MT-ATP6、MT-CO1/2/3、MT-CYB和MT-ND1/3/4)线粒体基因(图3a)。此外,本研究比较了在单EV和bulk-EV RNA-seq数据中表达量最高的前500个基因,以验证单EV集的可靠性,发现有229个基因在所有5个数据集中都有高表达,其中包括76个(33.2%)核糖体基因和7个线粒体基因(图3b)。结果表明,单EV测序数据的可靠性,与bulk-EV RNA-seq数据具有可比性。接下来,还研究了每个数据集中基因表达百分比最高的前10个基因(检测到的EV数量除以EV总数)(图3c)。
4、单EV转录异质性
为了探索单个EV的转录异质性,采用非线性降维策略t-SNE和无监督聚类对单EV测序数据进行了分析。使用Harmony包对K562-EV1和K562-EV2数据集进行去批次效应,然后确定了12个聚类(图4a,b)。在MSC-EV数据集中确定了10个聚类(图4c)。同时,使用Seurat软件包中的FindAllMarkers功能来表征每个EV簇中的marker基因。在整合的K562-EV数据集中,cluster0的EV数量最多(≈为28.9%),但没有显著的marker基因,在cluster1和cluster2中分别检测到1个和2个核糖体marker基因,cluster6和cluster11的标记基因均为线粒体基因,cluster8的标记基因均为血红蛋白基因(图4d)。在MSC-EV数据集中,cluster7中的marker基因为线粒体基因(图4e)。
5、EV与亲本细胞整合的转录谱
为了比较EV与其亲本细胞的表达,将单个EV数据集与亲本细胞的单细胞数据集整合,进行进一步分析。结果表明,每个cluster既有EV,也有细胞,表明不同的EV来源于不同的细胞。在所有三个K562数据集(K562- EV1, K562- EV2和K562)中,识别出9个不同的cluster(图5a,b)。cluster1中的marker基因主要为血红蛋白基因,cluster2中的marker基因主要为线粒体基因(图5e)。此外,在MSC- EV和MSC集成数据集中鉴定了12个cluster(图5c),并且MSC- EV中的单个EV分散在MSC中。在MSC- EV和MSC集成数据集中检测到的marker基因如(图5f)所示,包括许多细胞骨架基因,如微管蛋白基因(TUBA1A/B/C和TUBB4B)和肌动蛋白基因(ACTA2/G2)。
文献方法(使用的生物信息学方法)
单EV降维和无监督聚类:主成分分析(PCA)使用默认设置的前1000个高变异基因进行。利用前10个主成分,将EV聚类,通过FindNeighbors和FindClusters函数在Seurat中构建共享最近邻(SNN)图。可视化是通过具有相同主成分的t-SNE降维策略进行的。
EV数据集整合:使用harmony(v 0.1.0)软件包来校正批次效应,以整合EV数据集。首先,运行SCTransform函数分别对每个样本进行归一化,得出检测到的基因数量。此外,利用SelectIntegrationFeatures函数来确定PCA算法所需的前1000个高变异基因。然后,使用r中的merge函数对所有数据集进行合并。最后,使用RunHarmony函数将SCT分析数据与前50个主成分进行整合。
EV数据集中聚类的差异基因表达分析:使用基于Wilcoxon秩和检验的Seurat FindAllMarkers函数对每个聚类中的marker基因进行鉴定。通过将logFC设置为0.15来确定每个cluster的特征基因。
GO富集分析: GO富集分析是对每个数据集中特异性表达的基因进行Fisher精确检验。该过程使用clusterProfiler(v 4.2.2)。显著富集的阈值为p值< 0.01和q值< 0.05。
文章亮点(这篇文献的优点在哪?)
- 本研究首次揭示了单个EV中的基因数量,并确定了同一细胞群中个体EV的异质性。
我的疑问(这篇文献的不足在哪?)
在本研究中,完整的EV被定义为Calcein-AM阳性事件。Calcein-AM在被动进入EV之前不荧光,然后被囊泡内酯酶激活,成为荧光和EV无关,这对EV定量有一定的影响。
由于10x Genomics平台的局限性,基于液滴的单细胞平台中的每个液滴都可能包含环境RNA。特别是,环境RNA可能对低RNA含量的条形码有显著的影响。
在本研究中,重点研究了具有蛋白质编码功能的mRNA,其他RNA仍有待于其他方法的进一步研究。
和我相关(我从这篇文献里学到了什么?)
- CB2算法将条形码根据其总UMI计数分为上阈值和下阈值。总UMI计数高于上阈值的条形码被定义为真实的EV。总计数低于较低阈值的条形码被定义为背景条形码,并用于估计背景分布。剩下的条形码被分成几组。然后,CB2算法根据估计的背景分布对每个聚类组进行测试。利用期望最大化算法和高斯混合模型获得了运行CB2算法的自适应上、下阈值。利用自适应的上下阈值等默认参数,通过应用CB2算法消除了背景条形码。
相关文献(文献扩展,其他补充资料)
1.https://genomebiology.biomedcentral.com/articles/10.1186/s13059-020-02054-8