【代谢组学】3.数据分析

非靶向代谢组实验设计

1.代谢物提取，一般要求每组至少10个样；
2.在所有提取好的样本中取等量混合作为QC；
3.QC样本与实验样本穿插上机，开始十个QC，结尾三个QC，中间每十个样本穿插一个QC样本
。

得到质谱谱图数据经软件处理后得到峰表。
峰表格式一般为：每行为一个m/z，每列为一个样本
数值表示该样本中某个m/z的信号响应。

image.png

第一列为保留时间_质荷比来代表离子，如0.10_96.9574m/z。

数据分析流程

一般有如下几点：
1.数据预处理。如缺失值过滤填充、数据归一化等。
2.数据质控。包括CV分布、QC等。
3.统计分析。包括单变量、多变量等。
4.功能分析。包括Pathway、网络分析、Biomarker筛选等。

1.数据预处理

缺失值处理
1）缺失原因
a. 信号很低检测不到；
b. 检测错误，如离子抑制或者仪器性能不稳定；
c. 提峰的算法限制，不能从背景中将低的信号提取出来；
d. 解卷积时不能将重叠的峰全部解析出来。

2）缺失值过滤
比如：
QC样本中缺失超过50%的去除；
样本中缺失值超过80%的去除。

3）缺失值填充
-- 最小值填充
-- 平均值/中值填充
-- KNN（ k-nearest neighbour）填充
-- BPCA（Bayesian PCA）填充
-- PPCA（probabilistic PCA）填充
-- Singular Value Decomposition (SVD)
一般推荐KNN。

噪音信号去除
一般是低质量的离子。
1）低质量离子的确定：
计算某个离子在QC样本中的RSD（标准差/均值）；其值越小，说明偏差越小；

2）判断标准：
-- 对单个离子峰而言，RSD<0.3，则该离子峰合格，否则去除；
-- 对于整体数据而言，RSD<0.3，峰所占比例>60%，则整体数据合格；

样本归一化
目的是为了提高样本间的可比性。
样本间有差异性，如不同人的尿液浓度不同，不能直接拿来比较。

可在采集前归一化，如肌酸酐归一化；也可在采集后归一化，如sum，pqn，quantile等。对于数据分析而言，通常是后者，如总和归一化（sum）。

数据转换
下游的分析一般要求数据为正态分布或者高斯分布；
所以数据通常要进行Log转化或power转化，这两者都能够将极大值的抑制效应消除，并且能够调整数据的分布，如下图；

image.png

Log转化对0值比较敏感，必须首先去除零值。

数据转换——scaling
目的是消除极大值效应。
对不同样本中同一个m/z的强度差异过大进行调整，极大值的存在往往会掩盖较低值的变化特征。

可将某个m/z在所有样本中的强度的值，除以一个因子（SD值）；
方法如auto (uv)，pareto（推荐），vast， range等。

相当于上面样本归一化是为了样本可比，scaling是为了离子可比。

2.数据质控

QC样本的TIC重叠情况

image.png

上图分别是阴离子和阳离子模式下QC样本的TIC重叠情况。

一般认为：
所有的QC样本峰重叠良好；
峰强度波动差别不大；

QC样本中CV<30%的峰所占比例

image.png

PCA中QC样本的聚集程度

image.png

QC样本的相关性

image.png

上图分别为归一化前和归一化后的数据。

3.统计分析

单变量分析
一次只分析一个变量，即一个m/z，考察不同组别不同样本的这个m/z表达有无差异？
常见的方法有倍数分析，t检验，秩和检验，方差分析等。

聚类分析
核心思想就是根据具体的指标(变量)对所研究的样品进行分类；
聚类分析需要设定一个方法来衡量样本间的相似性或者不相似性（常用欧式距离，相关性系数等）；
常见聚类的方法：系统聚类（层次聚类）、K-均值聚类等。

K-均值首先要估计出将要分出几个类，然后将全部的基因按照相似性的距离，归入这几类中。
K– means计算量要小得多，效率比层次聚类要高。

无论哪种分类方法，最终要分成多少类，并不是完全由方法本身来决定，研究者应结合具体问题而定。
聚类分析是一种探索性的数据分析方法。相同的数据采用不同的分类方法，也会的得到不同的分类结果。分类的结果没有对错之分，只是分类标准不同。
使用聚类方法时，首先要明确分类的目的，再考虑选择哪些变量(或数据)参与分类，最后才需要考虑方法的选择。

多变量分析
1）PCA分析
以下分别是得分图（样本在新的坐标系中的位置
）和载荷图(loading图，原变量与主成分间的夹角)

image.png

PCA怎么看？

组内差异
组间差异
异常样本
PC1与PC2得分

2）偏最小二乘法
PLSDA的图和PCA类似。只是一种监督学习的方法，事先给样本分类，最后看能否将不同组分开。

用R2和Q2进行模型评价。
R2是相关性系数，表示这个模型的拟合效果，是一个定量的测量（范围0-1），意味着所建立的模型能在多大程度上代表真实的数据；
一般当R2在0.7-0.8表示模型解释能力较好，较差的模型的R2往往为0.2-0.3

Q2表示PLS-DA模型的预测能力；
一般Q2大于0.5表示预测能力较好，并且R2与Q2的值应该比较接近。

使用permutation test模型进行过拟合检验。

VIP ( Variable Importance in Projection)变量重要性投影
每一个m/z都有VIP值，表示这个m/z在某一个主成分上的投影，即重要程度；
一般我们使用第一、第二主成分的VIP来表示这个m/z对模型分型的贡献程度，VIP>=1被认为是具有显著贡献的。

代谢组学数据分析最后两部分内容——功能分析和生物标志物筛选见下节内容

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 218,122评论 6赞 505
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 93,070评论 3赞 395
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 164,491评论 0赞 354
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,636评论 1赞 293
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,676评论 6赞 392
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,541评论 1赞 305
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,292评论 3赞 418
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,211评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,655评论 1赞 314
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,846评论 3赞 336
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,965评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,684评论 5赞 347
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,295评论 3赞 329
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,894评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 33,012评论 1赞 269
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,126评论 3赞 370
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,914评论 2赞 355

【代谢组学】3.数据分析

非靶向代谢组实验设计

数据分析流程

1.数据预处理

2.数据质控

3.统计分析

推荐阅读更多精彩内容