可变剪切工具的工具和系统评价

受人之托,所以又跑到另外一个领域去了,中文的资料还不是很全,所以还是自己动手吧

可变剪切工具大全

HussainAther/awesome-alternative-splicing: Alternative splicing resource (github.com)

Software

  • ALEXA-Seq - alternative expression analysis by massively parallel sequencing.
  • AltAnalyze - analyze alternative splicing from single-cell and RNA-Seq data.
  • Cufflinks - assemble and quantify transcripts.
  • DEXSeq - identify differential exon usage.
  • flotilla - reproduce machine learning analysis of gene expression and alternative splicing data.
  • GMAP and GSNAP - detect complex variants and splicing in short reads, SNP-tolerant.
  • G-Mo.R-Se - maps splice junctions to genome.
  • HMMSplicer - discovery canonical and non-canonical splice junctions in short read datasets.
  • JunctionSeq - identify differential splice junctions.
  • MapSplice - map RNA-seq data to reference genome for splice junction discovery.
  • MISO - determine alternative splicing expression.
  • MMES - statistically determine alternative splicing.
  • outrigger - calculate alternative splicing scores of RNA-Seq data based on junction reads and a de novo, custom annotation created with a graph database, especially made for single-cell analyses.
  • rMATS - RNA-Seq Multavariate Analysis of Transcript Splicing. Reading rMATS output
  • rmats2sashimiplot - visualize rMATS output using sashimi plots.
  • SAW - identify splicing events from RNA-Seq data.
  • Scripture - reconstruct transcript isoforms.
  • SingleSplice - detect biological variation in alternative splicing within a population of single cells.
  • SpliceMap - discover and align splice junctions for RNA-Seq reads.
  • SpliceR - detect alternative splicing and predict coding potential.
  • SplicingCompass - detect differential splicing using RNA-Seq data.
  • SplitSeek - predict splice events from RNA-Seq data.
  • STAR - identify alternative splicing.
  • SUPPA - identify alternative splicing.
  • TopHat - map splice junctions for RNA-Seq reads.

Databases

  • ASIP - Alternative Splicing in Plants.
  • ASG - Alternative Splicing Gallery for human genes.
  • ASPicDB - Alternative Splicing PredICtion DataBase.
  • ENSEMBL - Human and mouse genome annotations.
  • FAST DB/Easana - Friendly Alternative Splicing and Transcripts Database.
  • Hollywood exon annotation database - A website for querying a relational database of constitutive and alternative human exons, by using biological and descriptive features.
  • HS3D - Data set of Homo Sapiens Exon, Intron and Splice regions extracted from GenBank Rel.123.
  • H-DBAS - Human-transcriptome DataBase for Alternative Splicing.
  • MAASE - Convenient access, identification, and annotation of alternative splicing events (ASEs), designed specifically with experimentalists in mind.
  • Pro-Splicer - Alternative splicing database based on protein, mRNA, and EST Sequences.
  • SpliceNest - Visualizing splicing of genes from EST Data for human, mouse, Drodophila and Arabidopsis.

可变剪切工具的比较
Systematic evaluation of differential splicing tools for RNA-seq studies | Briefings in Bioinformatics | Oxford Academic (oup.com)

差异剪接(DS)是一种转录后的生物学过程,对大量的细胞活动和疾病过程具有重要的、广泛的影响。迄今为止,已经发展了许多计算方法来识别和量化 RNA-seq 数据中的差异剪接基因,但是目前缺乏这些方法的全面的相互比较和评价。在这项研究中,我们系统地评估了10个 DS 分析工具的一致性和重复性、精确性、召回率和错误发现率、差异剪接基因的一致性和功能丰富性。这些工具被选择来代表三个不同的方法类别:

exon-based (DEXSeq,edgeR,JunctionSeq,limma)
isoform-based (cuffdiff2,DiffSplice)
event-based (dSpliceType,MAJIQ,rMATS,SUPPA)

总的来说,所有基于外显子的方法和两种基于事件的方法(MAJIQ 和 rMATS)在所选择的测量方法中都得到了良好的评价。在测试的10个工具中,基于外显子的方法通常比基于异构体和基于事件的方法表现得更好。然而,总的来说,不同的数据分析工具在不同的数据集或样本数量上表现出明显的不同。当需要考虑计算性能时,建议使用 limma 和 edgeR。

Introduction

差异剪接(DS)使生产各种信使 rna (mRNAs) ,从而各种蛋白质产品,从一个基因。这一过程允许大量的复杂性和多样性的信使核糖核酸和蛋白质产物没有随之增加的基因组大小。例如,人类多外显子基因中有90-95% 以上被发现经历了 DS。DS 的功能障碍与细胞功能障碍和不同疾病,特别是癌症的病理有关。此外,DS 事件已被提议作为生物标志物和药物发现的潜在目标[6]。

目前 AS 事件主要分为5种类型: 跳过外显子(SE)、选择性5′(供体)剪接位点(A5SS)、选择性3′(受体)剪接位点(A3SS)、保留内含子(RI)和互斥外显子使用(MXE)。
在外显子跳跃中,一个外显子与其侧面的内含子从转录本中剪接出来。外显子跳跃是高等真核生物中最普遍的 AS 事件,约占全部 AS 的40% ,但在低等真核生物中很少发生。在高等真核生物中,选择性剪接位点3′和5′分别占 AS 的18% 和8% 。在植物、真菌和后生动物中,内含子保留(Intron retention)是常见的现象,而在高等真核生物中,它只占已知 AS 事件的5% 左右。其他几个不太频繁、复杂的 AS 事件也得到了确认,其中最常见的是 MXE,每次只保留一个从属外显子。

Rna 测序技术(RNA-seq)使得对转录组及其在不同条件下或不同组织中的变化的详细分析成为可能。尽管 RNA-seq 具有巨大的应用价值,但由于测序读码的短小性(通常在100-150 bp 或更短),RNA-seq 并不能自然而然地用于阐明 DS 事件,从而导致它们可能与同一基因的不同转录本相一致。然而,到目前为止,已经发展了一些计算方法用于 DS 分析。

目前 DS 分析主要采用两种策略: isoform-based的 (如 cuffdiff2和 DiffSplice )或基于计数的(count-based),后者进一步分为基于外显子的(如 DEXSeq、 edgeR 、 JunctionSeq 和 limma )或基于事件的方法(如 dSpliceType 、 MAJIQ 、 rMATS 和 SUPPA,SUPPA2)。

Isoform-based的方法旨在重建和量化全长转录品,之前的差异表达分析。使用count-based的方法,基因通常被配置成由计数单元组成的单一表示,例如,可以是完整的或截断的外显子区域或连接区域。计数被记录为下降到每个计数单元的测序读数,然后进行差异表达式分析来调用差异表达的计数单元。

虽然大多数现代方法能够在不同的样本群体之间分析 DS,但一些较早的工具,如 MISO 、 ALEXA-Seq 、 rSeqDiff 和 SpliceSeq 只在两个单独的样本之间进行分析,限制了它们在许多研究中的应用。

作为一个新兴领域,DS 数据分析方法有了迅速的发展,但是,仍然需要对它们的性能进行系统的评估。一些工具的开发人员进行了初步的比较,比如 JunctionSeq 、 dSpliceType 和 rSeqDiff 。此外,在模拟和真实的植物 RNA-seq 数据集上进行了 DS 工具的比较 ,然而,与脊椎动物不同的是,植物内含子保留比外显子跳跃更为常见,这使得研究结果对高等真核生物的适用性成为可能。

在我们的比较中包括的所有10个工具都使用了4个 RNA-seq 数据集进行了测试。前两个: 人类前列腺癌(PCa)数据集(n = 28)和人类前列腺癌(HCa)数据集(n = 100)被选择为合理的样本数量,以便调查样本数量对结果的影响。另外两个数据集包括几个 qpcr 验证的拼接事件。首先,小鼠验证集(MVS)将野生型小鼠与上皮剪接调节蛋白(Esrps)敲除型小鼠进行比较,包括28个 qPCR-validated exon 跳跃事件基因。第二个验证集,即人类验证数据集(HVS) ,比较了两个人类前列腺癌细胞系,包括32个 qpcr 验证的 DS 基因。

image.png
image.png

基因组的参考序列和注释文件都是从 Illumina igenomes 公司下载的,包括人类基因组 grch37和小家鼠基因组 ncbim37的 https://support.Illumina.com/sequencing/sequencing_software/igenome.html。Grch37的转录组参考文件序列以 fasta 格式从 ensemble (GRCh37: release 83)下载,并使用 bowtie2[39]进行索引。

从 SRA 或 GEO 下载的 SRA 文件使用 sratoolkit. 2.8.0转换为 fastq 文件,并使用 FastQC v0.11.3工具[41]分析了读取的质量。在主成分分析数据集中,低质量的读数用trimgalore v0.4.1修剪到大于20个基点的长度。rMATS 有一个限制,即它只能在提供相同长度的读数时才能执行 DS 分析,因此对于 rMATS,使用 rMATS 提供的脚本将读数额外地截断到80 bp。这些片段被映射到参考基因组(bl Homo sapiens: GRCh37,Mus musmusculus: NCBIM37) ,使用 STAR v2.6.1 b [43]默认设置。补充表 s1提供了每个数据集中的总读数和映射读数的汇总。

对于每种方法的 DS 基因的选择,FDR 阈值设置为0.05。在考虑基因排序的地方,大多数方法都是基于 FDR 进行排序。对于 DiffSplice,使用了该方法自己的测试统计量,因为这是它提供的唯一统计量,而对于 cuffdiff2,由于很少发现 FDR 小于1,结果按 p 值排序。在需要的地方,测试统计量被用作次要的排名标准。

高通量测序数据分析是一项计算密集型任务。衡量工具性能的主要指标是它们最大的内存消耗和总的运行时数量,以及不断增加的样本数量,这里确定了所有工具的样本数量(图5)。所有的工具都运行在一个由免费的,开源的资源管理简单 Linux 工具(SLURM)管理的计算机集群上。报告的运行时不包括生成运行 exon count 文件等工具所需的文件的时间。总的来说,limma 和 edgeR 在时间上优于其他所有方法,而 MAJIQ 的最大记忆量最小,其次是 limma 和 edgeR。Limma 和 edgeR 运行不到一个小时,而 cuffdiff2、 DEXSeq、 JunctionSeq、 rMATS 和 DiffSplice 运行几天(图5a)。在基于事件的方法中,dSpliceType 比 SUPPA/SUPPA2、 MAJIQ 和 rMATS 更快。在基于等形式的方法中,DiffSplice 比 cuffdiff2快,尽管 cuffdiff2能够利用使用多个计算核心的优势。在最高的内存占用中达到峰值的工具是 cuffdiff2,其次是 DiffSplice (图5b)。由于样本量较小(n = 3和 n = 5) ,sapa 对内存的需求很小,但随着样本量的增加(n = 10、25和50) ,其内存使用量迅速增加。

为了研究不同工具报道的 DS 基因列表中差异表达基因的比例是否存在差异,我们在完整的 PCa 和 HCa 数据集中进行了基因水平差异表达分析,这些数据集需要 FDR < 0.05和绝对折叠 > 2(补充表 S6)。DS 基因中差异表达基因在前列腺癌中的比例为9% ー20% ,在 HCa 数据集中的比例为23% ー28% 。结果表明,DS 基因的检测不受基因表达差异的影响

在 HCa 和 PCa 数据集中,所有基于外显子的方法(DEXSeq、 edgeR、 JunctionSeq、 limma)和两种基于事件的方法(MAJIQ 和 rMATS)总体表现良好,具有较低的 FDR、较高的精度和中等的召回率(图2)。虽然顶级 DS 基因在这些工具中的重叠相对较低,但是一般来说,基于外显子的方法彼此重叠最多,而与基于异构体的方法重叠最少(图3)。基于事件的方法 rMATS 和 MAJIQ 观察到 GO 项的总体富集最强(图4)。MAJIQ 和 SUPPA 在 MVS 和 HVS 数据集中 qpcr 验证的 DS 基因比例总体得分最高,其次是 SUPPA2(表4)。在时间和内存消耗方面,limma 和 edgeR 明显优于所有其他工具,而 MAJIQ 占用的内存最少(图5)。事实上,没有任何一种工具在所有测量方面都优于其他工具,这与先前对模拟数据和真实植物 RNA-seq 数据进行的研究结果一致。在我们比较的10个工具中,DEXSeq,rMATS,cuffdiff2和 DiffSplice 也包括在前面的比较中,其中 DEXSeq 和 rMATS 被普遍认为表现良好。

在我们的比较中,这些工具是使用默认设置运行的,就像大多数用户实际上会做的那样。最初,我们根据 Tophat2[54]生成的比对进行了所有的分析,但后来根据 STAR [43]生成的比对进行了修正,最近的一项研究[55]表明,尽管选择了运行参数,但仍然是一个稳健的比对器(也关于拼接点计数) ,而 tophat2对其参数设置特别敏感。另一项最近的研究[56]进一步调查了 STAR 的不同参数设置,并得出结论: 在默认设置下运行时,它是非常稳健的。然而,这里报告的一般趋势也可以在早期的 tophat2基础结果中观察到(数据没有显示)。在我们的研究中,每次只比较两组。对于更复杂的实验设置,可能需要更复杂的比较设计和混杂变量(如批处理效果)的合并。所有基于外显的方法都有一个基于建模的灵活支持复杂的实验设计,包括混杂变量(表2)。Cuffdiff2、 dSpliceType 和 MAJIQ 只支持不成对的两组比较,而 DiffSplice 还允许一个变量用于阻塞。rMATS 和 SUPPA/suppa2支持成对样本设置。

对于所有方法,我们使用相同的完整注释文件(包括基因结构的定义) ,除了不使用任何注释的 DiffSplice。一些方法(cuffdiff2,JunctionSeq,rMATS,MAJIQ)也检测未注释的新的拼接事件,但是我们限制了与已知的注释的比较。考虑到所观察到的不同方法之间的重叠很少,以及前面已经表明在注释不完整的情况下性能显著下降 ,基于不完整注释的比较对本研究似乎没有意义。

测序深度和测序长度对于 DS 的影响已经研究过了。Liu 等人的研究[17]表明,大多数方法对 RNA-seq (25 × 100 ×)的不同阅读深度和覆盖范围具有较强的鲁棒性,当阅读深度减小时,识别能力略有下降。另一方面,Chhangawala et al. [57]表明,当使用较长的读长度(≥100 bp)和配对末端数据时,已知和新的剪接位点的检测有明显改善。我们的分析再次证实,在每个样本读取4000万到6000万次之后,DS 结果是相当稳健的(补充图 S5)。此外,我们分析了该基因的差异表达状态是否对结果有很大影响,但是在我们的比较中没有发现这一点的证据(补充表 S6)。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 211,561评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,218评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,162评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,470评论 1 283
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,550评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,806评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,951评论 3 407
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,712评论 0 266
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,166评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,510评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,643评论 1 340
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,306评论 4 330
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,930评论 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,745评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,983评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,351评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,509评论 2 348

推荐阅读更多精彩内容