生信学习还是在GEO数据库的认识中,比较基础小白。
(一) 图表认识
图表主要是以下几种:热图、散点图、火山图、箱线图、PCA
对FC(Foldchange)的概念有了新的理解:基因(探针)对应的表达量都是取过log2的,所以:对照组表达量的log平均值为log(y),而处理组表达量的log平均值为log(x),那么公司给的那些分析后的数据log2(FC)=log2(x/y)=log(x)-log(y)。
总之,重点知道真实的差异倍数应该为
有时候对P值会取log10,-log10(P value)越大,则差异越显著。
(二) GEO相关知识及分析思路
目的肯定是做差异分析和富集分析,差异基因——代谢通路/功能注释——解释差异原理
重要知识点:GSM(样本):GSE(系列/研究);GPL(芯片/平台)
分析思路:
1. GSE编号(文献)
2. 下载数据(表达矩阵、临床信息)
下载;对象形式读入R(eSet);提取
3. 检查数据(分组间是否有差异,PCA、热图)
4. Limma差异分析及可视化(根据P、logFC;火山图、热图)
芯片注释:探针和基因的对应关系。可以依据(GPL页面表格;biocoductor注释包;官网下载或自主注释)
5. 富集分析KEGG、GO
输入数据:差异基因的entrezid
所有基因的entrezid
id转换:bitr( )
新知识:GeneRatio:该通路的差异基因数/能够对应到数据库中的差异基因数
BgRatio:该通路总共多少基因/数据库中所有通路总共多少基因
蛋白质组学(视频学习)
蛋白质组学后续分析
?如何从差异蛋白中选择候选通路
1.结合表型挑选方向
2.选择明星通路
3.根据文献报道(兴趣点)进行推测
?如何选择候选蛋白或直接锚定蛋白
1.根据差异倍数
2.明星蛋白或酶类
3.根据文献进行推测
4.修饰位点数量/某位点修饰水平变化的水平/修饰位点所在结构域