Nat Methods | 28000种遗传和化学扰动下细胞的高维基因表达和形态特征
原创 huacishu 图灵基因 2022-11-17 10:11 发表于江苏
收录于合集#前沿生物大数据分析
撰文:huacishu
IF=47.99
推荐度:⭐⭐⭐⭐⭐
亮点:
1、作者创建了一组基因表达(GE)和形态学数据集,这些数据集具有多模态数据分析和集成中机器学习研究所需的尺度和注释;
2、作者提出了一个框架,通过定义跨数据类型的共享信息和补充信息可能有用的应用程序,并使用生物学领域新手可以理解的术语,来思考多模态数据的效用;
3、作者在每个小组中演示示例应用程序,揭示有趣的生物学关系,并为每个小组提供基线方法、代码、评估指标和基准结果,作为未来面向生物学的机器学习研究的基础。
美国麻省理工学院-哈佛大学的博德研究所Shantanu Singh教授课题组在国际知名期刊Nat Methods在线发表题为“High-dimensional gene expression and morphology profiles of cells across 28,000 genetic and chemical perturbations”的论文。细胞可以受到各种化学和遗传处理的干扰,对基因表达和形态的影响可以分别通过转录组分析和基于图像的分析来测量。在这些高维数据中观察到的模式可以为药物发现和基础生物学研究提供参考,但这两种方法很少用于大规模实验。
本文作者提供了四个数据集的集合,这些数据集包括基因表达和形态数据,可用于开发和测试多模态方法。在28000多个化学和遗传扰动中,两种数据类型中的每一种都测量了大约1000个特征。作者定义了在这两种数据模式中使用共享和互补信息的生物问题,为多组学应用提供分析和评估指标,并公开了数据资源(https://broad.io/rosetta/)。
生物系统可以用许多不同的方式进行量化。例如,研究人员可以使用显微镜和图像分析或分子细节(如细胞中mRNA或蛋白质的水平)来测量细胞的形态。现在,“剖析”实验捕捉到每个样本的高维特征,数百到数千个样本可以被量化。
作者观察到,没有公共数据集提供两种不同类型的分析读数的细胞遗传和化学扰动。这样的数据集将支持多模态(也称为多组学)分析和应用。实例包括整合两个数据源以更好地预测测定中化合物的活性,基于药物与药物的相似性预测药物的作用机制(MoA),或基于其与基因的相似性来预测基因的功能。
从多个角度观察一个系统可以揭示数据中的模式,而这些模式在单个角度中可能是不可见的。机器学习方法已经在各个领域进行了探索,以从多个来源进行学习,继而从数据中做出更好的推断。在生物学中,测量多组分数据的技术的进步引发了对不同高维读数的关系和整合的研究。例如,转录组学、蛋白质组学、表观基因组学和代谢组学数据可以结合起来预测化合物的MoAs。
本文作者创建了一组基因表达(GE)和形态学数据集,这些数据集具有多模态数据分析和集成中机器学习研究所需的尺度和注释。GE数据使用L1000测定法获得,形态学数据使用细胞绘画(CP)测定法获得。当细胞样本受到数百到数千种不同条件(包括化学和遗传条件)的干扰时,该资源提供了大约1000个mRNA水平和1000个形态学特征,从而提供了两种不同的、丰富的细胞视图。
此外,作者提出了一个框架,通过定义跨数据类型的共享信息和补充信息可能有用的应用程序,并使用生物学领域新手可以理解的术语,来思考多模态数据的效用。在每个小组中演示示例应用程序,揭示有趣的生物学关系,并为每个小组提供基线方法、代码、评估指标和基准结果,作为未来面向生物学的机器学习研究的基础。
基因表达和形态特征
所有数据集都是在作者的机构创建的,涉及两种类型的“输入”之一:化学扰动和遗传扰动(图1)。还有两种类型的高维输出被测量:GE轮廓和形态轮廓,每一种都有大约1000个特征被测量。对于每个数据集,在一个实验室中,细胞被放置在两组相同的板中,每个板用相同的化学(或遗传)扰动处理,然后一组用于测量GE,另一组用于测定形态学。
使用L1000分析捕获GE(mRNA)谱。L1000分析报告了用给定扰动处理的大量细胞群体中大约978个基因的样品mRNA水平。使用CP分析捕获了形态特征。使用CellProfiler软件对图像进行处理,以提取每个细胞形态的数千个特征,如形状、强度和纹理统计,从而形成每个细胞的高维轮廓。然后为每个样品孔中的所有成像单细胞创建聚集(群体平均)分布图。
共享与补充信息内容
细胞形态和GE是两种非常不同的细胞状态测量方法,它们之间的关系非常复杂。例如,形态的改变可以诱导GE改变,而GE改变可以诱导细胞形态的改变。然而,严格的关系并不总是如此;许多药物影响细胞的mRNA或形态特征,但并非两者都有。
蛋白质稳定性或翻译后修饰的改变可以诱导形态学改变而不改变GE;例如,在Rho家族中,形态变化的时间尺度很短,无法用mRNA的变化来解释。这两种数据类型是在不同的时间点收集的,每个时间点都是最佳的。因此,作者假设每个数据类型中的信息由共享子空间、模态特定互补子空间和噪声组成(图1)。这两个子空间都可以用于生物应用。
跨两种模态的共享子空间
GE和细胞形态学之间的共享子空间正在开始探索。例如,跨模态自编码学习了单细胞RNA测序(RNA-seq)和染色质图像的共享潜在空间,以整合和跨模态翻译。在另一项研究中,在组织学图像和大量GE RNA序列数据的配对样本中发现了一个共享的结构,这表明共享的潜在变量在形态学和GE之间形成了一个复合表型,这可能是有用的。
共享子空间的存在支持多个应用。最重要的是,如果存在足够的共享信息,可以使用另一种模态进行计算预测,从而节省大量实验资源。共享子空间的另一个用途是识别两种类型的特定特征之间的关系。
模态特定的互补子空间
每个模态都可能有一个模态特定子空间,其中包含该模态特有的信息,而另一个模态则无法预测。数据模态融合和集成技术是机器学习中的一个活跃研究领域,在有多种模态可用的数据集上,可能为许多不同的生物特征分析任务产生优异的样本表示。同样,使用这两种数据类型,基于与其他基因的相似性来预测基因的功能可能会更成功。
应用1:跨模态预测
使用Lasso作为基线线性模型,使用多层感知器(MLP)作为回归问题的基线非线性模型。一些数据集在从形态学数据预测某些mRNA水平方面表现出优异的准确性,MLP产生的结果优于Lasso(图2a,b)。能够改进这些基准的机器学习方法将对生物医学界非常有用。其中两个数据集(LUAD和LINCS)的性能明显高于其他两个(TAORF和CDRP bio),这表明后两个数据集中的数据质量可能较差,或者模态排列较差。
鉴于LUAD和LINCS都使用A549细胞,也可能转录-形态学联系是细胞系依赖性的,并且由于某种原因,它在A549中更强;然而,表现上的差异似乎更可能与数据技术质量的差异有关。同样,进一步的预处理和去噪技术,也是未来机器学习研究的另一个目标。
除了跨模态的对齐,跨不同数据集的对齐对于跨不同数据集中转换预测模型也是必要的。在每个性能最高的数据集上训练并在另一个数据集(LUAD和LINCS)上测试的模型的应用表明模型在数据集之间的可翻译性较差。提高跨数据集的模型通用性需要专门设计的方法,以纠正本文所述数据类型的批量级信息中的技术变化和批量效应。
两种模式中的共享信息可以以其他方式使用。可以根据一个或多个数据集确定高度可预测的标志性基因中的重叠(图2c);在四个数据集中,至少有三个数据集预测了59个标志性基因。对于LUAD数据集,作者确定了高度可预测基因的基因家族。LUAD高度可预测基因集的过度表达分析表明,许多过度表达类别与CP分析中染色的成分有关,如DNA和肌动蛋白。
最后,在实验中检查了每一类基于图像的特征的预测得分,以帮助理解哪些特征是预测哪些基因mRNA水平的基础。为此,首先将CP特征分为四类(强度、纹理、径向分布和形状)和五个荧光通道(DNA、RNA、ER、AGP和Mito),然后计算并显示特征组特定预测得分,作为中值预测得分的分层聚类热图(图2d)。
为了更全面地检查观察到的GE–CP关系(图2d)是否与L1000标志性基因的已知生物学功能一致,作者进行了基因本体(GO)术语搜索分析(方法)。作者想知道,与其他CP通道相比,通过每个特定CP通道的形态特征高度可预测的标志性基因是否更有可能具有与该通道相关的GO注释;通常情况并非如此,这与大多数可预测的基因一致,这些基因在所有类型的特征中显示信号,而不是强烈的通道特异性(图2d)。
作者发现很大一部分形态学特征是高度可预测的,尤其是对于LUAD和LINCS数据集(图3a)。根据所有数据集对高度可预测的形态特征进行分组显示,它们主要属于所有通道的径向分布和纹理特征类别(图3b)。同样,人们可以查询形态学特征以找到其mRNA水平具有预测性的标志性基因。例如,形态学特征“Cells_Texture_InfoMeas1_RNA_3_0”依赖于其预测中许多基因的水平,包括已知参与mRNA加工的几个基因(图3c)。
应用2:整合基因表达和形态学
辨别化合物如何工作是药物发现的一个主要瓶颈。这项任务被称为MoA测定,其目的是确定药物影响生物系统的机制。现有的方法通常是资源和时间密集型的,成功率很低。因此,很少有策略在多种药物中得到系统测试;大多数策略本质上只对药物或靶标类型的子集起作用,因此通常同时采用多种方法来生成用于进一步测试的假设。
几项研究报告成功地分别使用GE或细胞形态学数据预测了化合物的MoA,但没有一项研究将这两种数据类型结合在一起,以测试在监督或非监督环境下的预测能力的提高。因此,作者使用集合中的两个化学扰动数据集(CDRP bio和LINCS)提供了这方面的基准。在应用程序1中,许多基因不能基于形态学进行很好的预测,这一发现为两种模式可能携带互补信息的观点提供了一些支持。
单独使用每个CP和GE模态对扰动进行聚类表明,CP在这两个复合数据集中的MoA检索任务中优于GE。尽管与GE空间相比,大多数集成方法提高了集成空间中的聚类检索性能,但只有正则化广义正则相关分析(RGCCA)单独提高了CP空间中的性能(图4a)。
在有监督的环境中,使用逻辑回归和MLP分类器作为基线模型,作者独立地使用每种数据模式预测MoA标签,对筛选的化合物子集进行交叉验证。CP剖面图与GE剖面图相比,每个数据集的MoA预测性能更高(图4b)。
所有三种集成策略在预测两个数据集和两种模型类型的MoA方面表现出相对可比的性能,表现较好的模态的性能平均改善较小(图4b),突出了开发更好地利用模态互补性的数据融合方法的必要性。探索综合模态的MoA类特定F1分数揭示了类特定预测结果的高度差异(图4c)。对于单个MoA类别,模态的集成并不总是比单独的更高性能模态提高MoA预测任务的性能。
讨论
作者为研究团体提供了一组多模态数据集,包括GE和形态学读数,代表两种细胞类型和两种扰动类型(遗传和化学)。将这些数据的有用生物学应用分为两类:使用共享信息的应用和使用模态特定的补充信息的应用。作者为每个类别中的一个应用程序提供数据、代码、指标和基准测试结果。
结果表明,GE和形态学图谱包含关于细胞状态的有用重叠和不同信息。在这些高通量测定的条件下,许多mRNA可以通过细胞形态预测,反之亦然。形态学捕获的信息超出了mRNA图谱中的信息;也就是说,这两种模式包含独特的信息,作者确定了哪种化合物的机制更好地被每种模式捕获。
结果还表明,这些应用具有足够的挑战性,可以提供改进的空间。这样的技术还可以充分地将四个数据集相互对齐,以探索通用的、独立于数据集的模型。此外,该预测任务中的真实性仅由可用的实验GE和细胞形态学数据定义,该数据受技术变化和误差的影响,因此不是绝对真实的。对于MoA预测,任何单一分析的成功率都很低;最常见的是使用几种策略来确定MoA。
除了已经指出的数据质量之外,所呈现的数据集还有多个额外的限制。这些数据集中捕捉到的基因干扰数量为几百个,而基因组中大约有21000个基因,每个基因中都有许多变异,这些变异可能会被过度表达或敲除。同样,这里测试了数千种化合物,但制药公司通常有数百万种化合物。扩展这些数据集的唯一限制是进行实验的财政资源。
最后,细胞类型是来自两名白人患者,一名男性(A549)和一名女性(U2OS)。因此,这些数据得出的结论可能只适用于这些人的人口学或基因组学,而不是更广泛的群体。之所以选择这些细胞系,是因为它们都非常适合于显微镜检查,并且它们提供了使用它们连接广泛的先前研究和数据集的优势。尽管仍然非常罕见、规模小且劳动密集,但具有单细胞分辨率的GE和形态学数据集已开始通过原位RNA-seq方法获得,并可能加速多模式生物数据分析领域的发展。
教授介绍
Shantanu Singh是Broad Institute成像平台的高级组长。他领导了一个数据科学小组,该小组开发了计算和统计方法,从细胞的显微镜图像中创建基因、化学物质和疾病的指纹。使用细胞绘制等检测方法,捕捉细胞的广泛形态特性,以单细胞分辨率对细胞群进行表征,以发现处理之间的相似性和差异性。这项工作有可能改变如何确定疾病的靶点和治疗方法。在俄亥俄州完成计算机科学博士学位后,Shantanu加入了Imaging Platform,受到该团队将细胞形态与基因组一样可计算的愿景的启发。他曾在梅赛德斯-奔驰研发部、通用电气全球研究部和劳伦斯·利弗莫尔国家实验室的研究小组工作,在那里他将计算机视觉和机器学习技术应用于道路安全、细胞生物学和地理空间成像等一系列问题。
参考文献
Haghighi M, Caicedo JC, Cimini BA, Carpenter AE, Singh S. High-dimensional gene expression and morphology profiles of cells across 28,000 genetic and chemical perturbations. Nat Methods. 2022;10.1038/s41592-022-01667-0. doi:10.1038/s41592-022-01667-0