Trimmomatic详细使用

软件介绍

    于2014年首次发表在Bioinformatics期刊上,Trimmomatic是一个快速的多线程命令行工具,可以用来整理和裁剪Illumina(FASTQ)数据以及删除adapter。根据库准备和下游应用程序的差异,不去除可能会造成很严重的问题。

该程序主要有两种模式:

Paired end(PE) mode and Single end(SE) mode,就是常说的双端和单端。

        Trimmomatic对FASTQ文件有效(使用phred + 33或phred + 64质量分数,这取决于使用的Illumina管道)。支持使用“gzip”或“bzip2”压缩的文件,分别通过 .gz和 .bz2的文件后缀加以识别。

软件使用   

        在SE模式下,只有一个输入文件和一个过滤之后的输出文件

java

-jar <path to trimmomatic jar> SE [-threads <threads>]

[-phred33 | -phred64] [-trimlog <logFile>] <input>

<output> <step 1> <step 2> ...

在PE模式下,有两个输入文件和四个输出文件,详细见实例。

java

-jar <path to trimmomatic.jar> PE [-threads <threads]

[-phred33 | -phred64] [-trimlog

<logFile>] >] [-basein <inputBase> | <input 1>

<input 2>] [-baseout <outputBase> |

<paired output 1> <unpaired output 1> <paired output

2> <unpaired output 2> <step 1> <step 2> ...

软件对应实际情况剪切策略

A 模式:测序 reads 从起始位置开始就包含了完整的接头序列,那么根据 Illumina 测序原理,这整条 reads 都不可能包含有用序列了,整条 reads 被丢弃。

B 模式:这种相对常见,由于文库插入片段比测序读长短,会在 reads 末端包含部分接头序列,若是这部分接头序列足够长是可以识别并去除的,但如果接头序列太短,比接头匹配参数设置的最短长度还短,那么就无法去除。但是,如果是 PE 测序,可以按照 D 模式去除 reads 末端的很短的接头序列。

C 模式:PE 测序可能出现这种情况,正向测序和反向测序有部分完全反向互补,但是空载的文库,两个接头直接互连,这样的 reads 不包含任何有用序列,正反向测序 reads 都被丢弃。

D 模式:是 Trimmomatic 利用 PE 测序进行短接头序列去除的典范,如果文库插入片段比测序读长短,利用正反向测序 reads 中一段碱基可以完全反向互补的特点,将两个接头序列与 reads 进行比对,同时两条 reads 之间也互相比对,可以将 3' 末端哪怕只有 1bp 的接头序列都可以被准确去除,相对 B 模式去除接头污染更彻底。

PE 模式的两个输入文件,正向测序序列和反向测序序列:

sample_R1.fastq    sample_R2.fastq

以及四个输出文件:

sample_paired_R1.clean.fastq    sample_unpaired_R1.clean.fastq

sample_paired_R1.clean.fastq    sample_unpaired_R1.clean.fastq

上面四个文件为过滤之后的,双端序列都保留的就是paired,反之如果其中一端序列过滤之后被丢弃了另一端序列保留下来了就是unpaired。

部分参数介绍

ILLUMINACLIP: 过滤 reads 中的 Illumina 测序接头和引物序列,并决定是否去除反向互补的 R1/R2 中的 R2。

SLIDINGWINDOW: 从 reads 的 5' 端开始,进行滑窗质量过滤,切掉碱基质量平均值低于阈值的滑窗。

MAXINFO: 一个自动调整的过滤选项,在保证 reads 长度的情况下尽量降低测序错误率,最大化 reads 的使用价值。

LEADING: 从 reads 的开头切除质量值低于阈值的碱基。

TRAILING: 从 reads 的末尾开始切除质量值低于阈值的碱基。

CROP: 从 reads 的末尾切掉部分碱基使得 reads 达到指定长度。

HEADCROP: 从 reads 的开头切掉指定数量的碱基。

MINLEN: 如果经过剪切后 reads 的长度低于阈值则丢弃这条 reads。

AVGQUAL: 如果 reads 的平均碱基质量值低于阈值则丢弃这条 reads。

TOPHRED33: 将 reads 的碱基质量值体系转为 phred-33。

TOPHRED64: 将 reads 的碱基质量值体系转为 phred-64。

使用实例

可参见  https://mp.weixin.qq.com/s/kp009Js1E0dhXAN1Oeglqw


更多详细参数,参考官网manual

http://www.usadellab.org/cms/uploads/supplementary/Trimmomatic/TrimmomaticManual_V0.32.pdf

论文链接

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4103590/pdf/btu170.pdf

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,544评论 6 501
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,430评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,764评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,193评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,216评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,182评论 1 299
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,063评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,917评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,329评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,543评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,722评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,425评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,019评论 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,671评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,825评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,729评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,614评论 2 353