核苷酸/氨基酸序列聚类去重Cd-hit

我们在分析测序数据或者下载数据库数据时,经常需要合并数据。期间不可避免的出现重复序列,为了减少减少后续资源的使用,更快速地分析数据,往往需要先对数据进行聚类/去重。这种类型的软件很多,今天给大家介绍两个常用的工具。

seqkit软件

该软件是一款很老的、用于序列处理的软件,经常被用来处理二代测序fastq文件,比如常用的序列提取(sample、grep)、文件格式转化(fq2fa)等。

软件中rmdup模块用来序列去重,可以根据序列id、序列全名以及序列进行去重。

$ seqkit rmdup -h
remove duplicated sequences by ID/name/sequence

Attentions:
  1. When comparing by sequences, both positive and negative strands are
     compared. Switch on -P/--only-positive-strand for considering the
     positive strand only.
  2. Only the first record is saved for duplicates.

Usage:
  seqkit rmdup [flags]

Flags:
  -n, --by-name                by full name instead of just id
  -s, --by-seq                 by seq
  -D, --dup-num-file string    file to save number and list of duplicated seqs
  -d, --dup-seqs-file string   file to save duplicated seqs
  -h, --help                   help for rmdup
  -i, --ignore-case            ignore case
  -P, --only-positive-strand   only considering positive strand when comparing by sequence

软件去重时通过-n、-s两个参数指定使用序列全名和序列进行去重,默认使用id(此处的id依照一般的序列读取规则,选取>行第一个空格前的部分作为id)进行去重。去重时,默认考虑正负两条链,同时可以通过-i参数,忽略序列序列中碱基或者氨基酸的大小写。

该软件去重时使用精确匹配,只有完全一致才会去除。为了方便后续的分析,我们有时想对序列进行相似性聚类,这款软件就难以实现这样的功能,可以考虑cd-hit软件。

cd-hit软件

该软件可以对序列进行聚类,以此来达到缩减数据集的目的。软件基本原理是先对输出的fasta文件中所有序列进行排序,以最长的序列为代表序列,考查其他序列与该序列的相似程度,在阈值范围内的序列会归为一类。该软件最大的特点是运行速度快,比如使用90%相似度阈值对NCBI网站中nr数据库(2006.02)进行过滤,该数据库共包含3287897条序列,过滤后剩余1982695条序列,用时7h50m。

软件包括很多分析模块,可以根据自己的数据类型选择

* cd-hit Cluster peptide sequences
* cd-hit-est Cluster nucleotide sequences
* cd-hit-2d Compare 2 peptide databases
* cd-hit-est-2d Compare 2 nucleotide databases
* psi-cd-hit Cluster proteins at <40% cutoff
* cd-hit-lap Identify overlapping reads
* cd-hit-dup Identify duplicates from single or paired Illumina reads
* cd-hit-454 Identify duplicates from 454 reads
* cd-hit-otu Cluster rRNA tags
* cd-hit Web server Cluster user-uploaded data
* cd-hit-para Cluster sequences in parallel on a computer cluster
* scripts Parse results and so on
* h-cd-hit Hierarchical clustering

一般常用的是cd-hit对氨基酸序列聚类,用cd-hit-est对核苷酸序列聚类,聚类时有两个重要的参数,一个是-c,指定聚类阈值,一个是-n,指定word size,这两个配套使用,有推荐的阈值。

cd-hit 氨基酸聚类阈值:
word size 5 is for thresholds 0.7 ~ 1.0
word size 4 is for thresholds 0.6 ~ 0.7
word size 3 is for thresholds 0.5 ~ 0.6
word size 2 is for thresholds 0.4 ~ 0.5

cd-hit-est 核苷酸聚类阈值:
Word size 10-11 is for thresholds 0.95 ~ 1.0
Word size 8,9 is for thresholds 0.90 ~ 0.95
Word size 7 is for thresholds 0.88 ~ 0.9
Word size 6 is for thresholds 0.85 ~ 0.88
Word size 5 is for thresholds 0.80 ~ 0.85
Word size 4 is for thresholds 0.75 ~ 0.8

什么样的word size和聚类阈值条件下能达到比较好的分析效果,需要根据自己的数据进行测试。如果数据量比较大,可以使用-T参数并行计算,减少分析时间。

运行完成后,分析结果会给出聚类后的筛选结果及聚类详细信息。

>Cluster 0
0       502nt, >63778083-f569-4214-... at +/100.00%
1       256nt, >eec9e8c2-abb7-4e90-... at +/100.00%
2       951nt, >31654eb2-f4e9-4d3b-... at +/100.00%
3       30300nt, >440a3b49-c1a7-4e3c-... *
4       262nt, >78d3005d-da28-4f0f-... at +/100.00%
5       1219nt, >de1fecf0-671d-45ad-... at +/100.00%
6       363nt, >be8a1159-80b5-4ee4-... at +/100.00%
7       340nt, >3b3cd125-fed8-4655-... at +/100.00%
8       449nt, >71b64698-a551-4358-... at +/100.00%
9       517nt, >2d3b31bf-2492-4750-... at +/100.00%
10      1047nt, >79eae31c-e365-4687-... at +/100.00%
11      453nt, >0cea7a85-f764-41fc-... at +/100.00%
12      448nt, >425d4faa-497c-4e5c-... at +/100.00%
13      306nt, >908f4fb7-45c2-49ee-... at +/100.00%
14      360nt, >f1367801-98f6-46f3-... at +/100.00%
15      269nt, >2a461953-cbce-4bf8-... at +/100.00%
16      360nt, >8e45ff14-1c2f-4e81-... at +/100.00%

每一个聚类中,+/后面表示的是序列相似度,标注*为该聚类下最终选择的序列(一般是最长的那条)

其他软件

如果有做过微生物16S、ITS或者宏基因组测序项目的小伙伴,对聚类一定不陌生。有很多配套的软件可以使用,比如uclust、usearch、uparse等,都可以实现对序列进行聚类,只是应用场景、配套数据库或者资源使用情况有差异。

除了这些专有软件,其他软件也可以间接进行序列聚类及去重,比如BLAST、DIAMOND、LAST,都可以对序列间进行比对,之后根据比对结果自己筛选序列即可,只不过操作上会比较麻烦,需要一定的分析经验。

参考文献

[1] https://bioinf.shenwei.me/seqkit/
[2] https://www.bioinformatics.org/cd-hit/references.php
[3] https://www.bioinformatics.org/cd-hit/

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,634评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,951评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,427评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,770评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,835评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,799评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,768评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,544评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,979评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,271评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,427评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,121评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,756评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,375评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,579评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,410评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,315评论 2 352

推荐阅读更多精彩内容