蛋白质组学数据搜库及FDR的控制

Part 1. 蛋白质组学中,谱图搜库是如何实现的?

蛋白质组学中,各种软件对质谱得到的谱图进行搜库时通常是利用以下三种方法之一进行:

  1. 根据相关的质量信息获得部分或完整的肽序列(first implemented by PeptideSearch and graph theory based de novo methods);

2.实验和计算得到的谱图的自相关性(最先应用于SEQUEST);

3.计算观测到的理论碎片质量和实际碎片质量之间匹配上的数目来自于偶然的概率(Mascot中率先使用)。

针对Andromeda肽段搜索引擎做些介绍:
嵌入到MaxQuant中Andromeda肽段搜索引擎就是基于二项式分布概率对肽段-谱图进行打分的,同时利用该得分进行后续的分析,如:对肽段进行排序、确定肽段修饰的可能性;standalone Andromeda可以处理少量的谱图,每张谱图经处理后都可以得到对应的有得分的肽段列表和蛋白列表,没有严格的FDR的控制。
Andromeda的优势展现在:1.确定同一肽段的多种修饰;2.解析混合谱图。

Schematic of the peptide scoring algorithm

transfer to charge=1

Part 2. FDR的控制

  • 当进行多重假设检验时,单次假设显著性测量值不足以评估整体性错误率;

when multiple independent statistical hypothesis tests are conducted, single hypothesis significance measures (like p-value) are neither sufficient nor amenable to extrapolation to calculate population error rate. This is a classic case of what is called as the multiple testing problem.

  • 进行多重假设检验时,有不同的方法可以对显著性阈值进行校正;Benjamini-Hochberg法
    False discovery rate (FDR) is a measure of the incorrect PSMs among all accepted PSMs (the rate of false positives in accepted hits).
    Note: FDR 是对population error rate进行评估参数,它不能表示单张谱图的可信度。在FDR进行校正后,q-value是表示单张谱图可信度的参数
  1. In the context of proteomics, it is a global estimate of the false positives present in the results obtained by a database search algorithm. There are many different strategies to estimate FDR like the nonparametric simple target-decoy (TD) database searches and parametric or semi-parametric mix- ture modeling approaches used in the Trans-proteomics pipeline (TPP).
  2. The q-value of a PSM provides a direct measure of significance for a particular PSM with respect to the complete dataset and the risk accrued to the total accepted matches if that hit is deemed significant.
  • 蛋白质组学是利用decoy database search对FDR进行评估,decoy database是将target database进行混排、随机或简单的反向排列得到的数据库。

The basic assumption made for target-decoy (TD) approach is that the number of false PSMs in decoy search will be equal to the number of false PSMs in target search above a given threshold score

  • TD database搜索的方式有两种,一种是一起搜库,另外一种是分开搜库。


    Target-decoy database search

The number of false positives divided by the total hits allows for easy calculation of FDR.

  • PEP表示的是a PSM是错误的概率,也可以称作local FDR,但它表示的是单张PSM错误的概率。

Posterior error probability (PEP) is the probability of a PSM to be incorrect.

  • PEP和q-value、FDR的区别
  1. While the q-value conveys the risk (error introduced) in the whole dataset if we accept the PSM at hand, the PEP on the other hand informs us whether the PSM is likely to be correct or not.
  2. FDR can be calculated from PEP by integrating (summing up) all the PEPs. PEPs can be accurately calculated by using machine learning to learn the model parameters from labeled (correct and incorrect) training data. For any given score x, the PEP can be predicted from the model parameters. This strategy is used in PeptideProphet and ProteinProphet.
  • FDR Calculation Using ProteoStats. ProteoStata是用Perl语言写成的程序。在计算蛋白质组学数据时,ProteoStata需要配置在电脑中。
  1. ProteoStats requires the data to be searched using separate TD approach as it can perform the TD competition after the search as suggested by Fitzgibbon et al..
  2. TD searches are completed separately and results in the form of target and decoy top hits provided as input to ProteoStats. When the searches are conducted separately, all different FDR methods can be applied a posteriori, but if a concatenated search is used, only concatenated FDR method can be applied as the correspondence between TD top hits is lost. ProteoStats removes the pep- tides identical in decoy and target considering isoleucine and leucine as identical. The resulting TD sets are sorted separately on the basis of scores/e-values/p-values from best to worst and depending on the search strategy chosen the FDR, q-value, and receiver operating curve (ROC) are calculated.
  • FDR的计算方法


    FDR的计算方法

    FDR计算方法

    计算过程(1)

    计算过程(2)
  • peptide and protein FDR

The FDR for protein estimation is calculated as the ratio of the expected number of false-positive protein identifications (those that have a hit to the decoy database proteins) to that of the total number of protein identifications mapping to the target database at any threshold protein score. For protein FDR, MAYU software can be used which performs protein identification-level FDR on the basis of peptide identifications.

结合Proteome Discoverer 2.2中应用的算法,对一些细节进行解释。

  1. 2.2中,默认PSM的FDR计算是将target和decoy database分开计算的;

  2. 当要搜索的spectra或者要搜的蛋白数目较少时,FDR不起作用,因为匹配到database的数目会很少,很难给出有意义的统计值;

  3. 2.2中默认的decoy database是将protein sequence直接反转过来,但是注意以下两种情况不适合用这种decoy database:
    a. peptide mass fingerprinting;
    b. no-enzyme MS/MS searches, 尤其是dynamic modification;


    PD 2.2中关于decoy database的说明
  4. 在PD2.2中 set up FDRs有两种: Percolator node and the Target Decoy PSM Validator node.

Percolator is a superior validation algorithm that uses a machine learning approach, but it requires a sufficient number of target and decoy matches that are not always available. In these cases, you can use the Target Decoy PSM Validator node. This node triggers a target and decoy search and calculates score thresholds to achieve the specified target false discovery rate (FDR). The derived score thresholds for the strict and relaxed FDR separate the identified PSMs into high-, medium-, and low-confidence identifications.

Percolator的限制
  1. 可以利用Maximum delta Cn减少PSM数目,从而影响PSM的FDR. 2.2中默认值是0.05. 在一般情况下,Top 1的score会很明显的大于其他被选择的PSM,但是当存在动态修饰时,匹配比较好的PSM的score会很接近;所以,在研究磷酸化时,应该适当的放大maximum delta Cn的值。
    delta Cn

    此外,还可以通过设置Maximum Rank parameter,Maximum Delta Mass parameter,Score and Threshold parameters对PSM进行筛选。
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,884评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,755评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,369评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,799评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,910评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,096评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,159评论 3 411
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,917评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,360评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,673评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,814评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,509评论 4 334
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,156评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,882评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,123评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,641评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,728评论 2 351

推荐阅读更多精彩内容

  • NAME dnsmasq - A lightweight DHCP and caching DNS server....
    ximitc阅读 2,822评论 0 0
  • pyspark.sql模块 模块上下文 Spark SQL和DataFrames的重要类: pyspark.sql...
    mpro阅读 9,448评论 0 13
  • 抽象类 关键字abstract。 抽象类中不一定有抽象方法。 如果类中有抽象方法,那么这个类一定是抽象类。 抽象类...
    chad_it阅读 152评论 0 0
  • 嘿,古少侠,还记得我们在去年年三十下午一起梳理的2016年计划吗? 现在眼看就要到2017年了,我觉得我得做一个完...
    bear_大雄阅读 542评论 0 50
  • 01 夏初,梧桐显出绿意,趁着兴致,我背起画板和颜料,在大自然中去溜溜。心有闲情,随意涂抹几笔,以抒发心中对自然的...
    漫步光之河阅读 1,096评论 6 7