代谢组数据分析一：从质谱样本制备到MaxQuant搜库

介绍

液相色谱-质谱串联（LC-MS/MS）是一种高效且灵敏的分析技术，广泛应用于多个领域中的化合物检测、鉴定和定量。在残留化合物检测方面，LC-MS/MS能够精确识别并测定环境样品、农产品和工业产品中残留的微量化学物质，如农药、兽药和化学品等。在有机小分子检测领域，该技术凭借其高分辨率和强选择性的特性，能够有效分离和检测复杂样品中的有机小分子，为化学研究、药物开发和环境监测等领域提供有力支持。

此外，LC-MS/MS在污染物鉴定和定量方面展现出显著优势，能够准确识别并量化环境污染物，如重金属、持久性有机污染物等，对环境保护和污染治理具有重要意义。在医药和食品领域，LC-MS/MS被广泛应用于添加剂检测和生物小分子分析。它可以帮助监测药品中的杂质、辅料和代谢产物，确保药品的安全性和有效性。同时，该技术还可以用于食品中添加剂、营养成分和生物活性物质的检测，为食品安全监管和营养健康评估提供科学依据。

LC-MS/MS一般包含五个步骤：

样本制备；
样本分离：使用液相色谱方法分离；
质谱上机：离子化、LUMOS原理、采集模式（DDA、DIA、SRM/PRM）；
质谱鉴定：谱图格式（Raw、MzXML、MGF）、搜库、打分算法、FDR质控、蛋白推断；
生信分析：谱图校验和下游数据统计分析。

image.png

步骤详解

样本制备

在提取样品中的蛋白质后，为了进行后续的质谱分析或其他蛋白质组学研究，通常会对这些蛋白质进行酶切处理。此过程中，常用的蛋白酶是胰蛋白酶（Trypsin），它能够特异性地切割蛋白质中的肽键，从而生成较小的肽段。一般来说，经过胰蛋白酶酶切处理后的肽段长度在35个氨基酸（AA）以内，这样的肽段大小适合用于质谱仪进行分析。通过酶切处理，可以将复杂的蛋白质样品转化为更易于分析和鉴定的肽段混合物。

image.png

样本分离

液相色谱包括固定相和流动相的一类分离技术，以液体作为流动相，固定相可以是多种类型也可以是液体也可以是固体等。Figure3 固定相是3A中圆孔材料，流动相是两类液体，液体A可将肽段插入到固定相中。在不断增加液体B的浓度后，肽段可以及液体B的浓度大小呈现梯度整齐分布，最后计算肽段在液相过程的保留时间（Retention time, RT），该指标反应肽段的疏水作用，时间越长疏水效果越强。

image.png

质谱上机

质谱仪的构成简要图（Figure 4）

image.png

质谱仪元件

离子源 [Ion Sources make ions from sample molecules.]

基质辅助激光解吸电离（MALDI）
电喷雾电离（ESI）

质量分析器[Mass analyzers separate ions based on their mass-to-charge ratio (m/z)]

傅立叶变换离子回旋加速器（FT-MS）
线性离子阱(Linear ion trap)
三维离子阱(3D ion trap)
轨道离子阱(Orbitrap)
四极杆(Quadrupole)
飞行时间(Time-of-flight, TOF)

信号检测器[Ion Detector registers the number of ions at each m/z value.]**

微通道板（Microchannel Plate）
电子倍增器（Electron Multiplier）
光电倍增混合管（Hybrid with photomultiplier）

质谱图谱示意图（Figure5）图解：

正面主视图是液相色谱图（以Retention Time作为X轴，intensity可认为是relative abundance作为Y轴），每个峰表示RT时间相近也即是疏水作用强度相同的肽段离子；
侧面黑色X轴是m/Z是一级质谱图，x轴是肽段的质荷比，每一个峰表示该比值下的肽段集合；
侧面蓝色是上一步一级图谱同质荷比下的二级图谱，是分辨率更高的图谱结果；
intensity可以理解为色谱和质谱的响应强度。

image.png

数据采集模式

非靶向质谱数据采集模式：Full-scan（全扫描）、DDA（数据依赖采集）和DIA（数据非依赖采集）。

全扫描模式是将肽段一级和二级图谱分开全部扫描，所需时间较长，但获取的峰最多。
DDA数据依赖采集，根据全扫描的一级图谱中的一堆母离子的intensity以及动态时间去解析二级图谱，但该过程可能后漏掉携带有用信息的峰；优点：DDA采用了较窄m/z窗口，二级质谱图没有干扰离子影响，搜库鉴定容易；缺点：丰度依赖，谱图采样随机性大，重复性差。
DIA数据非依赖采集，在一级图谱扫描过程不对碎裂母离子做筛选，而是设置窗口（窗口大小依据仪器和软件设定），落在该窗口内的母离子全部进入二级碎裂得到二级图谱。优点：全面获取所有离子的碎片信息。缺点：采集点多会导致谱图信息过度，难以解析。鉴定需要依赖于预先lable的DDA库。

由于DIA是一次性放了一堆母离子进来，同时碎裂，所以对于DIA来说，不是一张谱图对应一个母离子，而是一堆谱图对应一堆来自多个母离子的碎片离子混合物。因此，我们不可能通过对二级谱图的解析来得到一个一个的母离子。

那我们应该如何解析呢？我们用DIA二级谱图与平行实验中的DDA的二级谱图进行比对，从中抽取出相同的二级信号，拿这些数据来进行DIA数据的定性以及相应的定量，而这个定量就是依赖于MS2的信号强度。

Targeted是靶向质谱数据采集

image.png

质谱鉴定

质谱的原始图谱格式通常有：

Thermo RAW（赛默飞二进制加密的图形文件，Thermo Xcalibur Browser软件查看）；

image.png

MGF（Mascot Generic Format，是常用格式但仅保留二级谱图信息，原始数据一般不能被肽段图谱比对打分软件识别，需要经过格式转换为打分软件可识别的格式）；

image.png

mzXML

质谱打分比对软件

图谱识别可通过De novo和Database Search两种方式实现.

image.png

搜库策略：软件根据设定理论参数对蛋白数据库模拟实验过程进行理论酶切，接着理论肽段又会生成理论图谱，最后将实验得到的图谱也就是质谱的图谱和数据库模拟出的理论图谱进行比较，最终鉴定和定量蛋白质。（Figure7）

image.png

搜库步骤

搜索引擎会对数据库里所有的蛋白序列进行理论酶切，得到肽段序列，再对肽段序列进行理论碎裂，形成理论谱图。

然后，用每一张导入搜索引擎的实验谱图与落入母离子质量误差窗口内的理论谱图进行匹配打分，并选择打分最好的理论谱图对应的肽段作为该实验谱图的鉴定结果。

image.png

搜库质控：实验图谱和理论图谱匹配不一定正确，一般需要设置p value等评估匹配结果的指标阈值

错误匹配原因：

蛋白质序列库不完整或者存在测序错误；

未知修饰，导致谱图难以被正确鉴定；

酶切实验的偏差，比如错切、漏切等；

母离子或子离子质量偏差；

搜索引擎的打分无法区分谱图对应的正确肽段和错误肽段，因此需要评价肽段鉴定的可靠性，搜索引擎才能根据鉴定到的可信肽段序列进行蛋白质推断。

定性和定量蛋白质

在获取质谱图谱数据后，为了进行蛋白质的定性和定量鉴定，我们通常会使用带有搜库引擎的软件进行数据处理。然而，从仪器中心获得的原始质谱数据通常是Thermo RAW格式的二进制加密文件，这种格式在一般的搜库软件中是无法直接识别的。

为了解决这个问题，我们需要使用特定的工具，如Thermo Raw File Parser或MSconvert，将RAW格式的加密文件转换为搜库软件能够识别的文件格式。这些转换工具能够将原始数据转换为通用的开放格式，如mzML或mzXML，以便后续的分析和鉴定。

值得一提的是，FAIMS（Field Asymmetric Ion Mobility Spectrometry）技术在这个过程中起到了重要的作用。FAIMS技术相当于在现有的质谱图谱分级基础上，对肽段进行了再一次的分级。通过FAIMS技术，我们可以根据肽段的电迁移率差异，在电场中对其进行分离，从而进一步提高质谱数据的分辨率和信噪比。这种技术有助于我们在复杂的样品中更准确地鉴定和定量蛋白质。

PS：在获取图谱过程中，常会用到2018年才推出的FAIMS（High-Field Asymmetric Waveform Ion Mobility Spectrometry）技术以用于加载不同电压（肽段在ESI离子化后，进入质谱之前实现快速气相分离，提高分离的峰容量），直接使用多电压下的raw data做MaxQuant定量分析是错误的，MaxQuant软件只能识别单电压的raw data，因此需要使用FAIMS MzXML Generator 软件将raw data转换成各自电压下的MzXML文件。

软件

格式转换软件

ThermoRawFileParser
MSconvert
FAIMS MzXML Generator

搜库软件：

免费：MaxQuant，MSGFplus，Comet（前一个最好用win版本，后两个用linux版本，然后后两个是最好用主流的质控软件）；
收费：Proteome Discoverer， Mascot；
也有基于X!Tandem算法的rTANDEM R包。

结果评估：

PTXQC R包
proteoQC R包

数据库

关于蛋白质数据库的选择与构建，可以归纳为以下几点：

常用数据库：来自欧洲生物信息学中心的UniProt KB数据库是目前广泛使用的蛋白质数据库。该数据库整合了蛋白质的所有信息，为全世界的研究者提供服务。
自定义数据库：除了选择公共数据库外，研究者还可以根据实际需求自行添加数据或从头开始构建蛋白质数据库。在构建过程中，通常会加入实验室常见污染物数据库，以便在后续分析中剔除这些污染物的干扰。
无对应物种数据库时的选择：如果所研究的物种没有对应的专门蛋白质数据库，研究者可以选择与该物种亲缘关系最近的物种的序列库作为参考。这种方法可以帮助研究者在缺乏直接相关数据的情况下，仍能进行有意义的蛋白质分析。

image.png

实操过程

下面部分是原始质谱数据定性和定量蛋白质过程：

安装数据转换和搜库软件：本教程基于MaxQuant 1.6.17.0版本，该软件可从MaxQuant官网直接下载或从子目录Software直接解压获取。另外，需和仪器中心确定是否使用了FAIMS技术后，再从子目录Software中解压安装FAIMS MzXML Generator软件；

image.png

下载蛋白质数据库：Database子目录下已下载23/2/2021年的human的Uniprot蛋白质数据，或者直接上Uniprot官网下载(1.进入官网，选择Proteomes；2.以human作为关键字搜索后，选择Organism的Homo sapiens后进入；3.进入下图后选择Download按钮以FASTA格式下载数据即可)；

image.png

转换原始数据格式：若使用FAIMS技术，则需要使用FAIMS MzXML Generator软件将RAW转换成40/60/80不同电压下的mzXML文件，否则跳过该步骤；

image.png

搜库鉴定蛋白质：我们使用免费开源的MaxQuant 1.6.17.0版本软件进行鉴定蛋白质，在运行前，需要配置好一下参数和注意以下事项：
- Raw data功能项导入图谱数据(mzXML)，可通过最右侧功能栏设置样本的名称和分组等信息；
  
  image.png

*   Group-specific parameters：

    *   "Modifications"：选择样本相关的修饰（LabelFree增加Deamidation(NQ)、Gln->pyro-Glu）；

    *   "Instrument"：MaxQuant会自动选择机器类型，也可以手动修改，参数选择软件默认的即可；

    *   "digestion"：选择默认的Trypsin/P；

    *   "Label-free quantification"：选择LFQ及其默认参数。 ![image.png](https://upload-images.jianshu.io/upload_images/10780526-98c189be96b78767.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)


*   Global parameters：（其他参数选择默认参数即可，也可根据实际情况自行设置）

    *   "Sequence"：选择"Add"导入蛋白质fasta文件，并点"Identifier"，选择"Up to first space"；

    *   "Identification"：选择Match between runs；

    *   "Label-free quantification"：选择iBAQ；

    *   "Folder locations"：可自行设置Combined结果的输出路径也可使用默认。  ![image.png](https://upload-images.jianshu.io/upload_images/10780526-450bbfd56478e0e5.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)


*   在设置完所有参数后，点击上面File选择保存parameters files，方便下次重复运行。  ![image.png](https://upload-images.jianshu.io/upload_images/10780526-8e1d64c34663f9e5.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)


*   完成保存设置参数文件后，最左下方提供选择CPU数目，一般设置电脑total(CPU) -1的数目。设置完成后，可在电脑空闲时候选择Start，即可在Performance界面看到软件在运行的状态。

结果

MaxQuant是一款强大的蛋白质组学数据分析软件，它能够完成蛋白质的定性和定量分析。当MaxQuant完成分析后，会生成一个名为“combined”的目录。在这个目录下，有一个名为“txt”的子目录，其中包含了多个文本文件。特别地，proteinGroups.txt文件就是蛋白质结果文件，它包含了所有经过MaxQuant分析后得到的蛋白质组信息。这个文件是蛋白质组学研究中非常重要的输出之一，可以用于后续的生物学解释和数据分析。

image.png

致谢

非常感谢张同学在他的seminar中分享的PPT内容。本文中的许多图片和知识点都源自于他的精彩展示，这对我来说非常有帮助。我再次向张同学表示衷心的感谢。

参考

最后编辑于：2024.10.22 22:13:15

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 211,639评论 6赞 492
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 90,277评论 3赞 385
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 157,221评论 0赞 348
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 56,474评论 1赞 283
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 65,570评论 6赞 386
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,816评论 1赞 290
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,957评论 3赞 408
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,718评论 0赞 266
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 44,176评论 1赞 303
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,511评论 2赞 327
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,646评论 1赞 340
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 34,322评论 4赞 330
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,934评论 3赞 313
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,755评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,987评论 1赞 266
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 46,358评论 2赞 360
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 43,514评论 2赞 348

代谢组数据分析一：从质谱样本制备到MaxQuant搜库

介绍

步骤详解

样本制备

样本分离

质谱上机

质谱鉴定

定性和定量蛋白质

软件

数据库

实操过程

结果

致谢

参考

推荐阅读更多精彩内容