16s rRNA分析流程和工具的介绍【转】

16s rRNA分析流程和工具的介绍

本文转载自肖斌科学网博客
16s rRNA早期的分析策略,如FISH(fluorescent in situ hybridization)、DDGE(denaturing gradient gel electrophoresis)、PCR cloning、T-RFLP(terminal restriction fragment length polymorphism)。随着NGS(next generation sequencing)测序技术的发展,在此主要讨论NGS技术在16s rRNA分析中的应用。
16s rRNA NGS数据分析的主要工具有:

16s rRNA NGS数据的分析主要有3个大步骤:
原始数据预处理:包括去接头,数据过滤,信号杂音去除,嵌合体检查,数据均一化;

微生物多样性分析:OTU和OTU代表序列界定,包括OTU和代表序列的挑选,物种分类分配,进化树分析等;

数据深入及可视化分析:包括alpha和beta多样性分析,聚类和相关性分析,数据可视化等。


下面详细说一下整个流程步骤~

01

去接头和数据过滤

16s经常是pooling测序,为此需要将下机数据根据barcode序列信息将数据拆分到各样品中。QIIME中的“split_libraries.py” 和“split_libraries_fastq.py”实现数据拆分和数据过滤的双重目的。Mothur利用“Trim.seqs”。不过QIIME和Mothur都不能直接处理sff文件(454下机产生的数据格式),不过可各自利用“process_sff.py”和Sffinfo将sff格式转换为FASTA和QUAL文件。
数据过滤考虑的参数有:minimum average quality score allowed in a read、maximum number of ambiguous bases allowed、minimum and maximum sequence length、maximum length of homopolymer allowed、maximum mismatches inprimer or barcode allowed、whether to truncate reverse primer,and so on.

02

杂音去除和嵌合体排查

16s建库的pcr过程、测序过程均会导致序列出现错误,在分析过程过程中需要有效排除这种错误。测序误差矫正常用的工具有Denoiser(implemented in QIIME)、AmpliconNoise、Acacia、Pre.cluster(implemented in Mothur)。嵌合体查找的工具有ChimeraSlayer、UCHIME、Persus、DECIPHER,ChimeraSlayer、UCHIME、Persus在mothur中均可调用。在这些工具中,存在有待于优化的问题(these different methods often disagree with one another on the list of identified chimeras,probably because of their different mechanisms or algorithms. More efforts are required to evaluate these methods and coordinate their inconsistencies in chimera identification.)


在分析中有个关于古细菌序列的情况需要注意:a very small proportion of archaeal sequences may be generated for 16S rRNA gene amplicon datasets amplified with bacteria-specific primers. These unexpected sequences should be identified after denoising and chimera removal, and are advised to be discarded before subsequent data normalization.

03

数据均一化

测序深度不理想和不均匀的话会对alpha多样性及beta多样性均有影响。Uneven sequencing depth can affect diversity estimates in a single sample(i.e.,alpha diversity),as well as comparisons across different samples(i.e., beta diversity),thus data normalization is required. 对于此问题有两种处理策略,分别是relative abundance and random sampling(i.e., rarefaction),in addition,z-score亦用于normalization的过程中。但不同的方法均会有缺点。

04

OTU界定

OTU的界定主要根据序列的一致性进行,(The OTUs are picked based on sequence identity,and various identity cutoffs of 16S rRNA gene have been used for different taxonomic ranks. For example, identity cutoffs recommended by MEGAN are 99 % for species,97 % for genus,95 % for family,and 90 % for order level,respectively)。OTU界定时选择的工具与算法对后期分析有很大影响(The OTU picking strategy and algorithms have significant effects in the downstream data interpretation. )。

根据分析过程中是否使用数据库,OTU界定的策略可分为de novo、closed reference和open reference。在OTU界定中有很多聚类的方法,There are many clustering or alignment tools available for OTU picking,such as Uclust,cd-hit,BLAST,mothur,usearch,and prefix/suffix. These tools are implemented in QIIME. Among them,the mothur method contains three clustering algorithms to pick de novo OTUs,namely, nearest neighbor,furthest neighbor,or average neighbor.

当序列聚类好后,代表了一个OTU,接下来就是从这个OTU找到代表序列,一种做法是a representative sequence can be a random,the longest,the most abundant(as default in QIIME), 另一种操作方法是the first sequence in an OTU cluster。 还有一种策略是the distance method in mothur identifies the sequence with the smallest maximum distance to the other sequences as the representative sequence。

05

物种分类

taxonomic assignment的策略有:
word match,如RDP classfier;

best hit;

Lowest Common Ancestor,如MEGAN、SINA Alignment Service。

06

进化树分析

Phylogenetic relationships一般可以用树来表示,phylogenetic relationships主要是通过序列比对来实现的,序列比对的工具有ClustalW,MUSCLE,Clustal Omega,Kalign,T-COFFEE,COBLAT和FastTree。目前针对16s rRNA NGS数据的分析工具都可以实现,如MEGA,RAxML,MRBAYES,PhyML,TreeView,Clearcut,FitTree。其中RAxMLand PhyML are the most widely used programs for maximum-likelihood phylogenetic analysis,probably because they are specifically designed and optimized for such purpose。

07

alpha和beta多样性分析

alpha多样性有众多指标可以表示,在mothur中有Shannon,Berger-Parker,Simpson,Q statistic;observed richness,Chao1,ACE,and jackknife。而在QIIME中,有phylogenetic diversity(PD)-whole tree,chao1,and observed species。
还有一种物种丰度的比较方法:rarefaction curve。QIIME中主要用“single_rarefaction.py”、 “multiple_rarefaction.py”,在mothur中主要用“Rarefaction.single”和“Rarefaction.shared”。
beta多样性计算主要反映不同样本之间的差异度,several distance metrics,such as Unifrac,Bray-Curtis,Euclidean,Jaccard index,Yue & Clayton,and Morisita-Horn,have been often employed。beta多样性计算根据是否考虑OTU的相对丰度,可分为定量指数和定性指数。

08

统计检验

在Two-sample/group中,多考虑t-test。在其中需要注意,Particularly for independent two-sample t-test, independence and equal variances(which canbe tested by F-test,Levene’s test,etc.)of two populations arerequired. In the case of non-normal distribution of data sets,nonparametric two-sample tests robust to data non-normality,such as Wilcoxon signed-rank test,and Mann-Whitney U testare applicable for significance testing of difference betweengroup medians。
在Multiple-sample/group tests中,用ANOVA。

09

样本聚类分析

clustering可以分析样品之间的亲疏关系。classfication的策略用来对样品进行类别判定。

10

样本相关性分析

在样本的相似度和距离计算完后,可以利用principal component analysis(PCA),principal coordinates analysis(PCoA,also known as metric multidimensional scaling),Nonmetric multidimensional scaling(NMDS),canonical correspondence analysis(CCA),linear discriminantanalysis(LDA),and redundancy analysis(RDA)等构建样本间的关系。

10

网络模型建立

与基因表达、代谢分子、蛋白等数据一起分析共表达网路或者共表达模式(co-occurrence and co-exclusion patterns)。
参考文献:JuF, ZhangT. 16s rRNA gene high throughput sequencing data mining of microbiota diversity and interactions, Appl Microbiol Biotechnol. 2015, 99(10):4119-4129

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,755评论 6 507
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,305评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 165,138评论 0 355
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,791评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,794评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,631评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,362评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,264评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,724评论 1 315
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,900评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,040评论 1 350
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,742评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,364评论 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,944评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,060评论 1 270
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,247评论 3 371
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,979评论 2 355

推荐阅读更多精彩内容

  • line-height: 150%、1.5em、1.5的区别 line-height:150% 父元素的行高为15...
    Volcaner阅读 2,417评论 0 3
  • 我在你眼里不语也深情 你在我诗里深情且不语 我送你十亩花田 你还我春渡风暖
    小麦iii阅读 561评论 2 16
  • 昨日我想通了,原来最终还是自己的原因葬送了这一段幸福。 我的人生中极少有光明的时候,这一线的光明也被我抛弃掉,我心...
    董心涤阅读 991评论 0 1