上次通过图文给大家讲解了如何从TCGA数据库下载体细胞突变的数据
☞ 如何从TCGA数据库下载体细胞突变数据(somatic mutation)
前面我们也讲过,如何从TCGA数据库下载RNAseq和miRNA-seq的数据。大家应该对TCGA数据库里面数据的格式有了一定的了解。
无论是RNAseq,miRNAseq还是体细胞突变的数据,都是单个的文件。也就是每一个样本会用一个单独的文件来存放相应的数据。如果我们想得到如下图所示的矩阵,就需要通过循环去读取每一个文件里面的内容,然后进行合并。
前面已经跟大家分享过如何通过R代码或者是使用零代码的工具来合并RNAseq和miRNA-seq的表达矩阵。
☞ 【视频讲解】R代码合并新版TCGA中RNAseq表达谱矩阵
☞ 【视频讲解】R代码合并新版TCGA中miRNA表达谱矩阵
合并体细胞突变数据的思路,其实跟前面讲到的合并表达矩阵的思路大体类似,当然也有一个很重要的不同之处。
1)读取sample sheet里面的内容,获取每个MAF(mutation annotation format)文件的路径,如下图所示。
2)循环读取每一个MAF文件里面的内容
3)将每个文件里面的内容按行贴起来,这个跟前面合成表达矩阵是不一样的。合并表达矩阵是按列来合并。最终我们可以得到下面这样一张表格。
基于这张表格的数据,我们就可以绘制前面提到过的瀑布图。关于这张表格里面每一列的含义,我会在下面的文章里面给大家做详细的介绍。
完整合并R代码+详细注释☟☟☟