BLAST算法简述及e-value解释

BLAST是目前最常用的序列比对的数据库搜索程序, BlAST的查询序列和数据库类型主要分为下图中的几种类型。

图片来自于由李霞、雷健波主编的《生物信息学》第2版


BLAST算法的大概思路就是:列表、扫描、延伸。下图是BLAST算法的三个主要处理阶段。

图片来自于刘娟主编 的《生物信息学》


blast算法的简要步骤:

1.  分割并创建列表

将查询序列分割为特定长度的字段“words”,然后创建synonyms字段列表并使用打分矩阵计算得到相应的分数。生成得分高于阈值T的“words”(synonyms)字段列表。


分割序列


计算synonyms字段列表得分


2.扫描

扫描整个数据库找到与这些“words”(synonyms)字段列表相匹配的记录。(双匹配方法)

3.延伸

延伸匹配的“words”,找到成为高分片段对(HSPs)的比对。


延伸

如果分数超过一个指定的分数阈值S,比对结果就会被输出。


M是根据替换矩阵得到的得分;c表示gaps的数量,O是存在一个空位的罚分,d是延伸的gaps的总长度,G延伸一个空位的罚分。

使用原始分数S的局限性:S的值取决于替换矩阵和空位罚分,当使用不同的替换矩阵和空位罚分时,无法对S值进行比较。

4.将原始分数(S)转换为Bit Scores(S’

λ 和 K代表所用的矩阵和罚分,是规范化特定矩阵和搜索空间的参数。

不同打分矩阵的blast搜索的Bit Scores是可以相互比较的。

Bit Scores的局限性:得到一个使用Bit scores排序来反应和查询序列相似程度的序列列表后,不知道需要多高的分数才能表明具有共同的祖先。仅基于Bit Scores,很难评估命中的是否是同源序列,所以计算E-value来解决这个问题。

5.E-value

E-value is number of subject sequences that can be expected to be retrieved from the database that have a bit score equal to or greater than the one calculated from the alignment of the query and subject sequence, based on chance alone ,not homology.

E-value是在特定数据库中随机条件下发生得分大于或等于当前比对得分的序列数目的期望值。或者说期望值E是在一次数据库搜索中随机条件下期望发生的得分大于或等于当前比对得分的序列数目。

n表示整个数据库中所有序列的有效长度,m表示查询序列的有效长度,m*n定义了搜索空间的大小。

E-value会随着S的增加呈指数下降;较大的E-value表明查询序列和检索到的序列相似性很可能是随机的,小的E-value表明序列相似性可能是因为同源(或潜在的趋同进化);E-value是反应比对显著性的一种方式,被广泛的用来评价查询序列和目标序列之间的同源性的可信程度。

参考资料:

1.《生物信息学》(主编:刘娟)

2.《生物信息学》第2版(主编:李霞、雷健波)

3.Kerfeld CA, Scott KM. Using BLAST to teach "E-value-tionary" concepts. PLoS Biol. 2011 Feb 1;9(2):e1001014. doi: 10.1371/journal.pbio.1001014. PMID: 21304918; PMCID: PMC3032543.(文章链接

备注:以上内容如有错误,请联系作者。著作权归作者所有,转载或内容合作请联系作者

©著作权归作者所有,转载或内容合作请联系作者
禁止转载,如需转载请通过简信或评论联系作者。
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,122评论 6 505
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,070评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,491评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,636评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,676评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,541评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,292评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,211评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,655评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,846评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,965评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,684评论 5 347
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,295评论 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,894评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,012评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,126评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,914评论 2 355

推荐阅读更多精彩内容