找到一篇进化树科普文章,Phylogeny for the faint of heart:a tutorial 作者Sandra L. Baldauf 英语贼烂看得慢,挑了下重点翻译了一下,还有些术语不知道中文,有些地方可能有错(自学刚入门〒▽〒)。原文内容包括如何解读树、整合数据、多序列比对、树构建方法、bootstrap analysis、长分支工件、一些软件资源;原文链接见文末。
系统发育学是一门基于DNA或蛋白质序列的比较来估计进化历史的科学,建于分子系统学理论基础之上。
系统发育树又名分子进化树。
一些术语
进化树可由multigene families(多基因家族?)或者来自多个分类群的单基因绘成,又或者两者的结合。前者的内部节点(nodes)对应于一次次基因的复制,后者对应于物种的形成。
Groups
一个节点及其产生的一切都是一个“支系(monophyletic group)”或“单系群”。单系类群是一个自然类群;所有成员都来自唯一的共同祖先(相对于树的其余部分),并从该祖先那里继承了一组独特的共同特征。
一个不包括一些后代的群体是一个“副系(paraphyletic group)”(例如动物不包括人类)。
许多远亲OTU(OTU??见文末)的“大杂烩”,可能外表相似或保留了相似的原始特征,构成一个“多系(polyphyletic group)”。
Trees
节点的宽度没有任何意义,只是为了调整宽度使各分支间距均匀。所有分支也可绕着节点自由旋转,因此一棵树可以呈现出各种形状。
分支的长度对应于两个节点之间的进化量(大致为序列差异的百分比)。因此,分支越长,两个节点上的序列就分歧越大(高度进化)。也有进化树为“分支图(cladograms)”形式,仅显示分枝,分支长度无意义(图3g),但不常见。
Roots
系统发育树的底部是它的“根”。最古老的点,共同的祖先。如何确定一个根?用outgroup(外类群),一个外部参照点。
Homology
同源序列:来源于共同祖先的相似的序列。同源只是对基因序列的定性。同源序列类型可分为直系同源(Orthologs )和旁系同源(Paralogs)。
直系同源:描述在不同物种中来自于共同祖先的基因。Orthologous基因可能有相同的功能,也可能没有;它们是严格垂直传播的(父母传给后代),因此它们的系统发育可以追溯到它们的宿主谱系。
旁系同源:描述在同一物种内由于基因复制而分离的同源基因。是多基因家族的成员,通过基因复制而产生。我个人理解,旁系同源应该就是高中生物所说的同源基因,比如红眼果蝇和白眼果蝇吧?(・ω・)。
一般建树流程
原文基本方法、原理都有讲;B站上东大生信课也有详细补充(见文末)
1.数据收集:可以从网站上找。原文有基因库网站、搜索引擎等的列举。
2.多序列比对:问题的核心。
3.建树。系统进化分析的时候常常是基于某个基因的序列进行分析,通过碱基的变化和差异计算相互之间的进化关系。既然涉及到计算,自然就各种各样的算法:(1)基于距离的方法(neighbor-joining就是一种常用的算法,简称NJ,用它计算出来的系统发育树就叫NJ树)(2)最大简约法(MP)(3)最大似然法(ML)(4)贝叶斯 从1-4,计算速度下降,精读提高。
可以想象成对花园中的花进行进化分类。你可以从计算花瓣、萼片和雄蕊等的数量开始——这就是你的数据集。如果你使用距离的方法,你可以简单地根据它们共有的特征数量来对你的花进行排序;一系列共有特征最相似的花被认为是关系最密切的。
4.测试:系统发育准确性最简单的测试是自举(bootstrap),它是系统发育准确性的一般衡量标准,70%或更高的值可能表示可靠的分组。此外还有个“Long-branch attraction”问题...
5.数据呈现。树美化推荐网站iTOL,对新手很友好(比如我),不会编程都能上手。
参考:
1.B站的东大生信课:https://www.bilibili.com/video/av59701475
2.有关同源序列:Orthology, paralogy and proposed classification for paralog subtypes
http://www.sciencedirect.com/science/article/pii/S0168952502027932 PloBhttp://www.sciencedirect.com/science/article/pii/S0168952502027932
3.Phylogeny for the faint of heart:a tutorial
http://www.sciencedirect.com/science/article/pii/S0168952503001124