蛋白质组学数据分析实践(一)

蛋白质组学分析实践(一)

文章标题:The Primary Effect on the Proteome of ARID1A-mutated Ovarian Clear Cell Carcinoma is Downregulation of the Mevalonate Pathway at the Post-transcriptional Level
期刊:Molecular & cellular proteomics
年份 : 2016
DOI: 10.1074/mcp.M116.062539.
数据来源:http://proteomecentral.proteomexchange.org, ID: PXD004570.

说明:本文是学习了生信技能树公众号蛋白质组学相关推文学习整理的。

MaxQuant搜库

MaxQuant搜库的部分主要是电脑在跑程序,设置几个参数,注意experiment中的设置,应该为每一个重复试验文件为一个名字,相互之间各不相同,才能得到6个LFQ值进行统计分析。(第一次搜库就是没有设置这个,导致只有一个LFQ的值)。

顺便说一下,MaxQuant搜库,OVCA429细胞敲除ARID1A和对照的这六个样本数据,电脑配置很菜:锐龙2600+8G DDR5 3000,跑了一天的时间才结束(设置的使用核心数是6个,电脑卡的几乎不能做其他事情)。

后面的分析直接使用了搜库结果的txt数据。

Perseus部分

导入数据

导入combined文件夹 --> txt文件夹 --> ProteinGroups.txt,选择LFQ intensity [分组]的6列数据为Main数据,其他的基本自动填充的。

数据筛选质控

数据筛选质控

Filter rows --> Filter rows based ong category column,里面有3项,分3次除去之后,得到5681个蛋白质;然后剔除只匹配到一个肽段的蛋白(single peptide hits),这里使用的是Filter rows --> Filter rows based ong numeric/main column,选择Razer + unique peptides,Relation 1 写入x>1, OK。

Filter rows

得到4973行,也就是4973个蛋白质,与文章中的描述一致。


4973个蛋白质
4973个蛋白质

聚类分析

文章结果的第二节(Label-free Comparisons Between ARID1A Knockout and Control Proteomes),就讲到使用的是LFQ来计算ARID1A敲除蛋白组和对照蛋白组中蛋白质组的相对丰度。

归一化和缺失值的处理

首先,点击Annot.Row,将样本分为两组,然后再进行数据转化操作。

Annot.Row

然后点击Basci --> transform,转换为log2的数据。这里会引入一些空值(NaN),因为数据本身有很多0,也就是没有匹配到蛋白信息。这些可能跟转录组有些差异,不能直接log(2+1),因为这样会导致数据偏差太大。文中的描述是:缺失值被假定为偏向于低于质谱检测限的低丰度蛋白质,称为:“missing not at random";(这是蛋白质组学研究中经常作出的假定); 缺失值被替换为中位数下移高斯分布中的随机值,以模拟低丰度LFQ值;每个样本分别从宽度为0.3,downshift为1.8的分布中进行估算。第二步,进行缺失值的处理,在imputation --> Replace missing values from normal distribution,默认参数,确定。


imputation

第三步,normalization,选择normalization --> Z-score,确定。2.3 聚类分析选择归一化后的数据,点击clustering图标,稍经调整,就可以得到文章中类似的图了


HeatMap
原文的聚类图

可以看到,趋势基本上是一致的。

差异分析-火山图

火山图选择log2后填充缺失值的数据,然后点击火山图的图标。使用的是双侧t检验,FDR在这里为T检验的p值,而S0是方差,当S0设置为0时表示仅p值起作用。number of randomization不知道是什么意思。结果如图:

ScatterPlot

目前只能达到这个效果,不知道设置。t检验显著的蛋白有2896个(奇怪的是每次计算都有所差异,是随机化的问题吗?)【用R做t.test的差异蛋白是2613,这其中的差别在哪里?】,然后计算|log2FC| > 1的有422个。文献讲到的是430和2606个,有些差别。在图的调整上,自由度也是非常有限。所以,如果要画火山图,还是将数据导出来,在R中绘制比较好。

通过R来绘制火山图:

火山图jpeg

原文的图:

原文的火山图

是相差不多的。火山图的代码:

draw_volcano_plot <- function(need_DEG,logFC_cutoff){
  if(! logFC_cutoff){
    logFC_cutoff <- with(need_DEG,mean(abs(log2FoldChange)) + 2*sd(abs( log2FoldChange)) )
  }
  #logFC_cutoff=1
  
  need_DEG$change = as.factor(ifelse(need_DEG$Pvalue < 0.05 & abs(need_DEG$log2FoldChange) > logFC_cutoff,
                                     ifelse(need_DEG$log2FoldChange > logFC_cutoff ,'UP','DOWN'),'NOT')
  )
  
  library(ggplot2)
  g = ggplot(data=need_DEG,
             aes(x=log2FoldChange, y=-log10(Pvalue))) +
    geom_point(aes(color=change)) +
    xlab("log2 fold-change") + ylab("-log(p-value)") +
    scale_x_continuous(limits = c(-10, 10))+
    scale_y_continuous(limits = c(0, 8))+
    scale_colour_manual(values = c("#00AAAA",'darkgray','#00AAAA')) + ## corresponding to the levels(res$change)
    geom_hline(yintercept = -log10(0.05), linetype =2,size = 1, color = 'red')+
    geom_vline(xintercept = logFC_cutoff, linetype =2,size = 1, color = 'red')+
    geom_vline(xintercept = -logFC_cutoff, linetype =2, size =1,color = 'red')+
    geom_text(aes(x = -6,y = 7),label = "179 Proteins\n downregulated", color = "black", size = 4)+
    geom_text(aes(x = 6,y = 7),label = "91 Proteins\n upregulated",color = "black", size = 4)+
    theme_prism(border = TRUE) +
    coord_cartesian(clip = "off")
  print(g)
}
draw_volcano_plot(dat, 1)

原文的上调蛋白是95,下调169。本次分析上调91,下调179。【可能有存在差异的地方】但是,后面的倍数变化的表格,也是对得上的。


倍数变化的表格

如果数据分析仅仅是这样的话,完全可以通过R来操作,归一化,缺失值的处理,剔除不符合条件的列,这些都可以通过R来分析。热图也没有问题。可能Perseus还有一些其他重要的内容吧,有时间把B站的视频学一遍。


最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,718评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,683评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,207评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,755评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,862评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,050评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,136评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,882评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,330评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,651评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,789评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,477评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,135评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,864评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,099评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,598评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,697评论 2 351

推荐阅读更多精彩内容