转录组组装软件:Trinity (转载)

原文:转录组组装软件:Trinity
视频参考:BroadE: Trinity - How it works和基因课的转录组原理的trinity原理视频类似。

本文添加了一些其他内容便于理解,添加内容有 ★{添加的内容}做标记。


image.png

trinity拼接原理.jpg

Trinity,是由 the Broad Institute 开发的转录组denovo组装软件,由三个独立的软件模块组成:Inchworm, Chrysalis和Butterfly。三个软件依次来处理大规模的RNA-seq的reads数据。

Trinity的简要工作流程

Inchworm
将RNA-seq的原始reads数据组装成Unique序列;
★{unique sequences,也就是contigs}

Chrysalis
将上一步生成的contigs聚类,然后对每个components构建deBruijn图;

Butterfly
处理这些deBruijn图,依据图中reads和成对的reads来寻找路径,从而得到具有可变剪接的全长转录子,同时将旁系同源基因的转录子分开。

下面对Trinity原理做一个详细的介绍

image

1)Inchworm生成contig


★{kmer
这里首先需要知道一个专有名词的概念,mer,其在分子生物学领域中意义为单体单元 (monomeric unit,mer)。通常用于核酸序列中的单位,代表nt或者bp,例如,100 mer DNA代表这段DNA序列单链长度100nt,或者双链长度100bp。

而k-mer则是指将核酸序列分成包含k个碱基的字符串,即从一段连续的核酸序列中迭代地选取长度为K个碱基的序列,若核酸序列长度为L,k-mer长度为K,那么可以得到L-K+1个k-mers。如下图所示,假设这里存在某序列长度为21,设定选取的k-mer长度为7,则得到(21-7+1=15)个7-mers。

k-mer.png


假设kmer长度是k,将测序reads以k-1的overlap分割成长度为k的k-mer,去除可能错误的kmer,低复杂度和单一的kmers,构建成kmer库,以出现次数最高的kmer作为基序,基于k-1个overlap向两边贪婪延伸,直到不能延伸之后得到一个contig,去除已经使用过的kmer,对于剩余的kmer按照上述方法延伸得到contig。直到kmer用完,生成contig过程结束。具体过程如下图所示:

举个具体的例子,假如kmer是7,kmer库为:

image

其中出现次数最高的是GATTACA,以ATTACA为overlap向两端延伸,下一个碱基的可能是只有四种G、A、T、C。其中出现次数最高ATTACAG和ATTACAC(4次)。

image
image

分别以TTACAG和TTACAC为基序延伸,以此类推延伸(反向也是如此),直到不能再延伸为止。最终contig序列为:…AAGATTACAGA…

image

2)contig聚类成components


image.png

根据最小overlap聚类contig。每一个component 是由contigs组成的集合,这些contig可能是来自可变剪切体或者相近的旁系同源物。

contig聚类满足的条件:

(1) contig之间有k-1碱基的overlap

(2) 满足跨越两个contig的junction的最小reads数,且(k-1)mer的junction两端分别有(k-1)/2的碱基支持。

image
image
image

3)构建de Bruijn图

每一个component构建一个de Bruijn图,k-1个字节大小表示节点,k个字节大小表示连接节点的边,原始数据集中支持的(k-1)mer的数目作为边的权重。

a. de Bruijn图简化

合并de Bruijn图中的线性路径中的连续节点生成较长序列的节点,剔除可能由于测序错误(只有极少reads支持)的分叉,使边均匀。(多倍体多态性似乎比测序错误更常见,保留)

b. 寻找最佳路径

动态打分算法,鉴定被reads或双端reads支持的路径,剔除reads支持比较少的路径,将最佳路径上的碱基输出到fasta文件中。

image.png

结 果

按照 DNAXX,components, gene和 isoform分组的线性序列(见以下可左右滑动方框),Gene以下 isoform通常可能为同一基因的不同可变剪切。

TRINITY_DN6743_c1_g1_i1 len:403_path:[5739,5784,5857,5863,353] TTGGGAGCCTGCCCAGGTTTTTGCTGGTACCAGGCTAAGTAGCTGCTAACACTCTGACTGGCCCGGCAGGTGATGGTGACTTTTTCCTCCTGAGACAAGGAGAGGGAGGCTGGAGACTGTGTCATCACGATTTCTCCGGTGATATCTGGGAGCCAGAGTAACAGAAGGCAGAGAAGGCGAGCTGGGGCTTCCATGGCTCACTCTGTGTCCTAACTGAGGCAGATCTCCCCCAGAGCACTGACCCAGCACTGATATGGGCTCTGGAGAGAAGAGTTTGCTAGGAGGAACATGCAAAGCAGCTGGGGAGGGGCATCTGGGCTTTCAGTTGCAGAGACCATTCACCTCCTCTTCTCTGCACTTGAGCAACCCATCCCCAGGTGGTCATGTCAGAAGACGCCTGGAG

【左右滑动查看完整信息】

以上就是Trinity组装的原理,你get到了吗?

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,591评论 6 501
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,448评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,823评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,204评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,228评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,190评论 1 299
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,078评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,923评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,334评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,550评论 2 333
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,727评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,428评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,022评论 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,672评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,826评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,734评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,619评论 2 354

推荐阅读更多精彩内容

  • lz从今天开始希望跟大家分享一些生信的实战,希望与大家一起进步,前段时间应老板的要求自学的转录组的拼接原理,经...
    lzufangyuan阅读 4,184评论 0 8
  • 基因组组装 1.k-mer 那么我们首先要看一下k-mer是什么。它的定义是:是指将一条序列分成包含k个碱基的子字...
    小潤澤阅读 11,786评论 5 39
  • 自从有了智能手机,微信朋友圈里的点赞似乎成为人们关注他人的一种主要方式。 今天特地搜索了“关注”这个词,它在百度上...
    西大调阅读 264评论 0 0
  • 打卡日期:2019年/2月/28日 打卡累计天数:59/90 宣言:自律者方自由、如何过一天就是如何过一生! 哥哥...
    奕奕清晨阅读 115评论 0 0
  • 今天我和爸爸妈妈去了附近的垃圾站扔我们的绿色垃圾。绿色垃圾就是树枝、草叶等等,所有绿色的植物都是绿色垃圾。 我本来...
    Ironlad阅读 494评论 3 1