纸上得来终觉浅,绝知此事要躬行
学习要明确输入输出,多举例子,多找到应用场景,多进行检索练习——费曼学习法
之前总感觉WGCNA已经学习的差不多了,已经能够实际使用了,结果时间一长,就会把这个技能给生疏了,所以,记录下学习的过程,有助于自己的认识深入。
WGCNA的两次相关性分析
第一次相关性分析
WGCNA第一次实际上是把众多的基因进行了一个归类,将具有相似的生物学功能的基因放置在一起,这个过程可以理解为相关性,也可以是一种聚类的思维。许多的WGCNA教程都只是把代码跑了一遍,而这幅图非常好,是果子学生信课程图片,可视化展示了这个过程,摘录到此处。
将相似的基因归类为一类,那么也就是一个模块,可以继续分析。紧接着面对的问题就是,后续分析怎样利用到模块,而不是单纯继续对基因进行分析。模块思维就在这里使用了,将这些类似的基因,统一成一个值,就叫做epigene,我的理解,这个指标更像是一个聚类之后的评分。
后续的分析,就以新的epigene为基础,进行相应的分析。
第二次相关性分析
当得到了上面的epigene的矩阵文件后,紧接着就是怎么和我们的性状联系,下面的图也是从果子学生信中摘录。
这就是熟悉的两个矩阵求相关性的问题,在之前的批量相关性分析中,其实也涉及到这个操作,批量处理——基因与免疫细胞的相关性。
明白原理后,每一个步骤都会变得愉悦起来
通过上面两个矩阵之间的相关性分析,就可以得到模块epigene和性状之间的关系
这幅图是运行WGCNA作者给出的操作手册中的示例文件,得到的相关性图。颜色只是作者为了能够更好的可视化,其中这个给某一部分特征性上色的技巧可以迁移。
而这幅图就是我们最需要的一幅图,我们能够从这幅图中找到与性状有关的模块,进而能够将这些模块基因提取出来,再进一步分析,一定程度上,这已经缩小了一部分研究范围。虽然离聚焦到一个基因上而言还有一段距离,但是能够有这样的范围缩小,也会极大地有利于研究。
引用一下
当你想用纯生信发文章的时候,对一个技术的要求是苛刻的,恨不能用某个技术直接代替Western blot,直接给我定位到最重要的单个基因上去。
而,对于科研人员来说,一个技术能准确的把范围缩小到一群基因,已经很满意了。接下来通过多个技术和实验来确定最重要的基因就行了。
WGCNA: an R package for weighted correlation network analysis | BMC Bioinformatics
Tutorials for WGCNA R package (ucla.edu)