我们都知道ChIP-seq生物信息分析流程主要涉及:数据过滤、序列比对、检峰、模体(motif)分析。
其核心的问题是寻找可靠的motif,也即转录因子结合位点结合的序列特征。
何谓模体
motif:再现的模式,如序列模体,结构基序或网络基。
这些基序通常是一些具有序列特异性的蛋白的结合位点(转录因子等)或涉及到重要的生物过程。
模体源起
早在1975年,Pribnow就发现了启动子区域的“TATAAT”盒,也成为pribnow框,它与上游的“TTGACA”基序是RNA聚合酶结合位点的特异性序列,在原核生物中这种特点尤其明显。
但是,并不是所有的结合位点都一定完美地与基序匹配。此外,结合位点与基序的匹配程度往往也与蛋白质、DNA的结合强弱程度有关。
发现模体
最初都是从生化试验开始的,诸如DNA酶足迹(DNase footprinting)、报告载体试验(reporter construct assays)等。后来,衍生出了许多基于试验-测序-计算的方法(ChIP-seq等)。
越来越多的基序被鉴定和验证,完善的基序数据库JASPAR(http://jaspar.genereg.net/)、TRANSFAC(http://gene-regulation.com/pub/databases.html)等也被建立起来。使得研究者们更加方便的去研究基序的功能。
这里主要介绍基于二代测序数据进行基序的检出和鉴定。
用于从头检测基序:homer、meme、dreme,glam2;
对检出基序注释:tomtom(与meme、dreme同属于MEME suite)
多个基序聚类:MCAST
寻找基序在序列中的位点:FIMO、MAST、glam2scan
基序功能注释:GOMO、CentriMo、AME、SpaMo
展示形式
文章中大部分的展示形式是以序列一致性的logo进行展示。
The height of symbols within the stack indicates the relative frequency (relative proportion and conserved property) of each amino or nucleic acid at that position.
一个序列logo图是代表着多个序列比对后包含颜色标记的碱基字母垛叠在一起的图形展示。logo的总高度依赖于序列的保守程度,碱基/氨基酸保守程度越高,字母的高度越高。每个位置(垛)中的字母从最高频率到最低频率进行排序,多以可以从各个位置的顶端读取一致性序列。
数据格式
那么上述序列logo图的背后是以什么数据格式来呈现呢?
(1)Consensus Sequence(一致性序列)
这里首先引入碱基编码规则,由于基序中相同的位置可能出现的碱基不尽相同,这种情况下对其进行新的字母编码,以区分多种可能的碱基。
实测示例:G/A =R
(2)矩阵打分
基于矩阵(Matrix)将各个一致性位置的碱基的都表示出来。
具体分为3种方法:1)Count-matrix, 即对各个位置碱基进行计数; 2)位置频率矩阵(position frequency matrix, PFM),即计算各个位置碱基的百分比和位置权重打分(position weight scoring, PWM),即频率取对数。
PFM又称:位置特异的概率矩阵(position-specific probability matrix,PSPM),位置特异的频率矩阵(position-specific frequency matrix,PSFM)
PWM又称:位置特异的打分矩阵(position-specific scoring matrix,PSSM)和位置特异的权重矩阵(position-specific weight matrix,PSWM)
参考资料
1. https://www.nature.com/articles/nbt0406-423
2. http://meme-suite.org/
3. Sequence logos: a new way to display consensus sequences. Nucleic Acids Res. 1990 Oct 25;18(20):6097-100.
4. https://prosite.expasy.org/sequence_logo.html
5. http://www.bioinformatics.org/sms2/iupac.html