使用Trinity进行转录组组装

Trinity

Trinity是Broad InstituteHebrew University of Jerusalem开发的RNA-Seq数据 转录组组装工具,包括三个模块,

  • Inchworn(尺蠖): 将RNA-seq数据组装成单个转录本,通常是主要转录亚型的全长转录本
  • Chrysalis(蛹): 这一步将上一步得到contig进行聚类,对于每个聚类构建完整的德布罗意图(de Bruijin graph)。每个转录本表示的是给定基因或者一组有着共同序列的基因的全部转录组成。 之后会根据图中不相交的点对全部短读数据进行拆分
  • Butterfly(蝴蝶): 并行处理各个图(graph), 追踪每个图中的短读和配对短读的路径,最后报告可变剪切亚型的全长转录本,并且区分出旁系同源基因的转录本

如果不能理解上面这段话,就尝试理解下面这张图吧

流程图

当然如果示意图也让你不好理解的话,那就直接用软件吧,反正这些流程图的目标就是想告诉你,“用我,没毛病”

软件安装用bioconda就行了。

conda create -n Trinity trinity -y
source activate Trinity

运行流程

当你在命令行敲出Trinity后,他就会输出一大堆信息。那么多信息分成3个部分:

  • 必须参数:包括--seqType表示输入序列类型,--max_memory允许使用最大内存(一般64G),还有输入数据的所在位置
  • 可选参数:包括链特异性测序参数--SS_lib_type, 线程数--CPU, 允许的最低组装contig长度--min_contig_length, 是否标准化--no_normalize_reads
  • 常见用法说明
Trinity --seqType fq --max_memory 50G  \
         --left condA_1.fq.gz,condB_1.fq.gz,condC_1.fq.gz \
         --right condA_2.fq.gz,condB_2.fq.gz,condC_2.fq.gz \
         --CPU 6  
# 有基因组引导组装
Trinity --genome_guided_bam rnaseq_alignments.csorted.bam --max_memory 50G \
                --genome_guided_max_intron 10000 --CPU 6

在常见用法中,Trinity提供了两种使用方式,一种是没有参考基因组进行组装,另一种则是先将序列回帖到参考基因组上,然后再进行组装。

前者很好理解,至于后者,大家可能会有疑问,这和TopHat2+Cufflink或HISAT2+StringTie的组合组装策略有什么区别呢?

Cufflinks和StringTie是根据参考基因组位置组装出转录本,基于原来的基因组返回GFF3文件,而Trinity只利用了参考基因组的位置信息,将同一个位置的read从头组装。这样的好处是在于,如果一个基因组存在多个旁系同源基因,无参考基因组组装可能会将这些基因的转录本组装成一个。但是如果原来的组装N50质量过差,片段化明显,就还是推荐使用无参考组装策略。

在运行中过程中,需要注意以下几点

  1. 质量控制(Quality control)。Trinity的--trimmomatic参数会调用Trimmomatic对数据进行过滤,这一步可以用其他软件完成。目前的RNA-seq质量也不需要过多的过滤。
  2. Trinity中有一个"In silico Read Normalization",用于对read进行标准化,适用于超过300M的数据,默认开启,可以用--no_normalize_reads关闭。标准化的原因是,由于某些高表达基因会被检测到很多次,但是对于组装没有帮助,所以可以提前剔除。
  3. 如果基因组中基因密度大(比如说真菌),一些转录本可能会在UTR区域有重叠。那么为了尽可能降低转录本的错误融合,需要用到--jaccard_clip。对于植物和脊椎动物,就不需要考虑这一步。

其他参数:

  • normalize_max_read_cov: 某些基因的表达量特别高,可以通过限制覆盖度的策略提高组装效率

输出解读

运行结束后,最后的结果是trinity_out_dirTrinity.fasta.Trinity将含有相同序列的转录本进行聚类,这种聚类可以被粗粗的被认为成一个基因的多个转录本。举个例子

 >TRINITY_DN1000|c115_g5_i1 len=247 path=[31015:0-148 23018:149-246]
 AATCTTTTTTGGTATTGGCAGTACTGTGCTCTGGGTAGTGATTAGGGCAAAAGAAGACAC
 ACAATAAAGAACCAGGTGTTAGACGTCAGCAAGTCAAGGCCTTGGTTCTCAGCAGACAGA
 AGACAGCCCTTCTCAATCCTCATCCCTTCCCTGAACAGACATGTCTTCTGCAAGCTTCTC
 CAAGTCAGTTGTTCACAGGAACATCATCAGAATAAATTTGAAATTATGATTAGTATCTGA
 TAAAGCA

"TRINITY_DN1000|c115" 是Trinity 聚类编号,“g5”是基因编号,“i1”是转录亚型编号

评估组装质量

有如下几种方法可以评估组装的质量

  1. 使用Bowtie/BWA将RNA-seq回贴到组装的转录组上,有80%以上的回帖率就行了。
  2. 用全长重构蛋白编码基因去搜索已知蛋白序列,见representation of full-length reconstructed protein-coding genes,
  3. 使用BUSCO根据保守同源基因进行评估
  4. 计算E90N50,
  5. 计算DETONATE得分
  6. 使用TransRate评估转录组组装

转录本定量

直接根据转录本进行基因表达丰度定量工具根据是否比对分为两类

  • alignment-based: RSEM, eXpress
  • alignment-free: salmon, kallisto

估计转录本丰度

Trinity提供了align_and_estimate_abundance.pl脚本用于调用不同的程序进行表达量定量。

RSEM相对于salmon或kallisto提供了更多的信息,但是速度明显地慢于salmon和kallsito。如果仅需要每个转录本的count, TPM和FPKM,那么更推荐用salmon。如果你为了更多的信息,愿意等待的话,那么你可以选择用RSEM.

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,454评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,553评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,921评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,648评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,770评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,950评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,090评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,817评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,275评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,592评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,724评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,409评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,052评论 3 316
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,815评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,043评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,503评论 2 361
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,627评论 2 350

推荐阅读更多精彩内容

  • "女性进化的程度远比男性更高",这是近年来坊间广为流传的说法。随着文明和社会的发展,伟大的女性们通过自强不息的奋斗...
    b2652774b2dd阅读 166,763评论 245 3,256
  • 最近店里人员流动较大,人员的不足导致员工工作上缺少激情,事多加班也多让每个人都有点疲乏。在这种状态下可能导致人...
    张惠惠betty阅读 348评论 3 0
  • 师弟们准备代表广东参加全国的比赛,路途的奔波也未阻挡我回来跟训的脚步。回到这个曾经令我成长不少的地方,就像回家了一...
    身披10号的托马斯穆健阅读 146评论 2 2