宏基因组CAG、MGS、MLG以及Bin、MAG、Draft genome

宏基因组的Binning主要针对Contig进行聚类,旨在得到潜在的单菌基因组信息。除了Contig,宏基因组中还有一类序列信息,即Gene。所以类似的,我们也可以基于基因丰度进行序列聚类,比如Canopy聚类算法、Chameleon算法,得到的集合(Cluster)称为CAG、MLG、MGS等,不同的称呼对应不同的聚类方法或者集合的质量信息(表1)。基因的聚类旨在探究“种层级”的功能特征。

表1 宏基因组“单菌”常见描述

基因聚类的核心思想与Binning类似,来自同一个菌株的基因,在不同样本间的丰度变化高度一致[1],反过来,则可以基于基因丰度,将变化高度一致的基因聚在一起,形成一个潜在的基因组。如图1,第一行的小人表示样本,颜色表示不同的物种。第二行为测序组装预测的结果,即非冗余基因集。第三行表示每个基因在样本中的丰度分布。按示例,来自一个基因组的基因丰度变化一致。最后一行即为聚类的结果,基于丰度一致性,划分不同的Cluster。

但真实的研究中,群落组成更复杂,样本更多,聚类过程远比图示的困难,如何实现呢?

图1 CAG原理示意图

准备基因集

从上图可以看出,分类是基于基因变化的一致性实现的,所以有足够多的变化信息,才能将不同类别的基因区分开。想获得足够多的变化信息,有两种操作:

1)前期实验样本量充足,一般推荐15个以上样本;

2)挑选普遍存在的基因,比如有一个样本特有的基因,其他样本的丰度都为0,则无法获得该基因的变化信息,参与分析反而会干扰数据计算。所以需要整理基因集合,一般选取至少在10个样本中都存在的基因。

基因聚类

①Canopy聚类算法

丰度变化一致性,就是我们非常熟悉的Pearson相关系数。Canopy聚类[1]就是基于相关程度,进行聚类。但是,宏基因组获得的基因数据量非常大,两两基因都计算一次相关系数,那可能要算到天荒地老了。怎么简化呢,Canopy想到了一个办法,如图1:

1)随机挑选某个基因作为种子序列(Seed);

2)基于基因丰度,计算种子基因与其他基因的Pearson相关系数,将相关系数>0.9的其他基因加入到此种子基因的分组中,形成一个所有基因表达量高度接近的Cluster;

3)继续挑选其他未成组的基因作为种子基因,依次按照1和2步骤分组,直到所有基因都被分到Cluster中;

4)以每个Cluster中所有基因的丰度中位数,计算Cluster之间的Pearson相关系数,将系数0.97以上的Cluster进行合并;

5)把基因数目大于2的Cluster归为CAG;

6)将基因数目大于700的CAG归类为MGS(Metagenomic Species)。

所以,MGS其实是高质量的CAG,分析算法是一样的,是对基因丰度信息的充分挖掘,属于无参考的聚类。

② Chameleon算法

也称为变色龙算法,一种两阶段层次聚类算法[2]。如图2:

1)Construct,将输入基因集作为一个初始的Sub-cluster;

2)Partition,然后使用动态模型,拆分成小的Cluster,基于Interconnectivity(互连性)和Closeness(近似性),计算Cluster间的similarity(相似度),按Cluster间相似度大于0.4,组合形成Semi-clusters;

3)Merge,重新计算新的Semi-clusters间的Similarity,对Semi-clusters进行注释,若相似度大于0.2且注释为同一个物种,则合并为一个MLG。

所以MLG也是对基因聚类结果的称呼,但算法与CAG不同。该算法综合了物种注释和基因丰度两部分信息,算法依赖数据库的物种信息,可以理解为半参考的聚类。

图2 变色龙算法

基因聚类应用

聚类分析完成后,即可获得每个CAG等包含的基因组成信息。怎么在文章中应用CAG的结果呢?可以把每个CAG当一个物种,进行分析。

第一步,我们需要通过基因注释和统计,知道每个CAG代表的物种、功能信息。如图3,研究挑选了MGS进行物种注释,MGS基本信息的统计[3],包含基因数量、物种注释,注释到的物种层级,数据库有注释的基因占比等。

图3 CAG基本信息统计

除了注释信息,还可以挑选关键的CAG进行差异分析。为鉴定并验证微生物与结直肠癌、炎症性肠病的关联,采集3组炎症性肠病样本、4组结直肠癌样本[4]

如图4,标题表示CAG编号,横轴为不同时期的样本,纵轴是CAG丰度,橙色是炎症性肠病组,蓝色健康组,通过盒型图直观展示目标CAG在组间的丰度差异。

图4 CAG组间差异分析

如图5,纵轴为CAG编号和属水平物种注释,横轴第一列,各CAG与结直肠癌的相关性;第二列,CAG中基因所属的门水平注释;第三列,CAG基因在KEGG数据库的分类注释。展示与结直肠癌密切关联CAG的物种、功能特征。

图5 CAG关联分析

参考

[1] Nielsen HB, Almeida M, Juncker AS, et al. Identification and assembly of genomes and genetic elements in complex metagenomic samples without using reference genomes. Nat Biotechnol. 2014;32(8):822-828. doi:10.1038/nbt.2939
[2] Qin J, Li Y, Cai Z, et al. A metagenome-wide association study of gut microbiota in type 2 diabetes. Nature. 2012;490(7418):55-60. doi:10.1038/nature11450
[3] Zhijun Zheng, Wendi Zhong, Lin Liu, et al. Bioinformatics Approaches for Human Gut Microbiome Research.
[4] Minot SS, Willis AD. Clustering co-abundant genes identifies components of the gut microbiome that are reproducibly associated with colorectal cancer and inflammatory bowel disease.
参考://www.greatytc.com/p/b2721fa00cac

-------------------------------------------------------------------------------------------------------------------------------------------- I`m a line! Thanks! ------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,029评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,395评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,570评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,535评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,650评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,850评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,006评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,747评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,207评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,536评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,683评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,342评论 4 330
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,964评论 3 315
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,772评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,004评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,401评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,566评论 2 349

推荐阅读更多精彩内容