前言
我还未想到这个专题叫什么......
暂定“XXX就那样”?
6.GTEx数据库是什么?
“人类GWAS-转录组-疾病表型补完计划”,噢不,基因型-组织表达计划(Genotype-Tissue Expression project),就是干了这个事。
是的,还真的已经做出来了!10年前的2010年起,GTEx研究联盟的研究收集并研究了来自449名生前健康的人类捐献者的7000多份尸检样本,涵盖44个组织(42种不同的组织类型),包括31个实体器官组织、10个脑分区、全血、两个来自捐献者血液和皮肤的细胞系,作者利用这些样本研究基因表达在不同组织和个体中有何差异。
是的!你没有看错,根据上一话第五点,为了实现这个目的,是需要同时进行了转录组测序和基因分型分析的,才能构建了这个组织特异性的基因表达和调控的数据库。
就是一个这样“泯灭人性”的项目,我说的不是伦理,是资金!即使是现在,一个WES测序都要2-3千人仔!这玩意不要说在5年前的2015,就算是现在,都不是一个随随便便的课题组的经费能够支持的!这是接受美国国家卫生研究院(NIH)资助的,是一个国家级的项目!目的就是要绘制出记录人DNA中影响基因表达的序列片段的详细图谱!
7.GTEx数据库中转录组测序和基因分型都用了什么仪器?
生信常用软件而已,没啥,可以直接跳过。但是知道这些,就就知道了有哪些“类似的”数据可以合并(拿来发文章啊,不要告诉我你看这个不是为了搞科研,发文章,迎娶白富美,走上人生巅峰!~)。
7.1 对于RNA seq
通过illumina Truseq试剂盒构建polyA+文库,采用Hiseq 2000/2500进行测序,对于下机数据,采用STAR进行比对,参照选择的是gencode V19版本的gtf文件,进行了以下3个level的定量
7.1.1 gene-level, 采用RNAseQC软件,对基因的raw count和TPM两种方式进行定量
7.1.2 exon-level, 对exon的raw count进行定量
7.1.3 transcript-level,采用RSEM进行转录本水平的定量
测序平台:Expression Data
- Illumina TrueSeq RNA sequencing
- Affymetrix Human Gene 1.1 ST Expression Array (V3; 837 samples)
7.2 基因分型 genotype
通过WGS对样本进行分型, 采用的是GATK germline variants calling的流程,步骤如下
bwa-mem alignment;picard markduplicate;BQSR;indel realign;haplotypeCaller
测序平台: Genotype Data
- Whole genome sequencing (HiSeq X; first batch on HiSeq 2000)
- Whole exome sequencing (Agilent or ICE target capture, HiSeq 2000)
- Illumina OMNI 5M Array or 2.5M SNP Array
- Illumina Human Exome SNP Array
7.3. eQTL
通过FastQTL软件进行cis-eQTL分析,将基因型和基因表达量进行关联。
8.cis-eQTL分析?什么是cis?能吃的吗?
我们首先需要搞清楚,什么是cis(adj. 同侧的,顺式的)?
看到这里,我们知道了染色体上一些能特定调控mRNA和蛋白质表达水平的区域(一堆SNPs),其mRNA/蛋白质的表达水平量与数量性状成比例关系。
为什么gene表达水平(转录组水平上的),与DNA水平上的snp有关呢?
因为:gene表达水平,与启动子有关。启动子增强,gene 表达水平升高。如果snp位于启动子区域,那么这个snp可能会影响收该启动子调控的gene的表达水平(eQTL关系)。
而这种eQTL关系可分为顺式作用eQTL和反式作用eQTL。
简单来说,就是你(数量性状)要向喜欢的人(基因)表达,要不就是直接和那个人表白(顺式作用,cis),要不就是和其他人搞暧昧,搞到喜欢的人吃醋,向你表白(反式作用,trans),如下:
顺式作用eQTL:
就是某个基因的eQTL定位到该基因所在的基因组区域,表明可能是该基因本身的差别引起的mRNA水平变化;
反式作用eQTL:
是指某个基因的eQTL定位到其他基因组区域,表明其他基因的差别控制该基因mRNA水平的差异。
然后,eQTL分析都分析些啥?
我们首先复习一下:
“与单个基因mRNA表达量相关的DNA突变,就被称为eQTL”。
什么是相关(显示两个随机变量之间线性关系的强度和方向)?如何定义相关?
当然方法很多,相关性分析,线性回归分析,非线形回归分析等。
他们选择了“线性回归” ,如下:
以全部DNA变异位点(已有:基因分型结果,SNP位点)为自变量(研究者主动操纵,而引起因变量发生变化的因素或条件,被看作是因变量的原因),轮流以每种mRNA表达量(已有:RNA seq结果)为因变量(结果,我们一开始就想知道如何影响基因表达这个结果啊),用大量的个体数据做样本进行线性回归,就可以得到每一个SNP位点和每一个mRNA表达量之间的关系。
多数情况下,我们关心的是“这一个SNP位点在这一个/附近mRNA表达量之间的关系”,所以做的是cis-eQTL分析。
最后,
GTEx项目中采用的是FastQTL软件用于cis-eQTL分析,至于具体原理可以参考在Bioinformatics杂志上发表的文章(https://academic.oup.com/bioinformatics/article/32/10/1479/1742545)。解析这高大上的玩意就完全影响了本文接地气的初衷了。
9.如何阅读eQTL分析?
eQTL的分析结果本质就是一些调控基因表达的SNP位点,箱体图或者小提琴图什么的只是经典的可视化方式而已。
按照SNP分型结果对样本进行分组,用箱体图或者小提琴图的方式展示不同组别中基因表达量的分布,直观的比较不同分组中表达量的差异。 如左图表示,有一堆人,分别有69个TT、134个TC和127个GG三个基因型。然后纵坐标是基因表达量(通常是经过各种共变量“调教”后的值),可见,TT中的一群这个基因(RGMB)在食管组织(自己选的组织)中表达“提高”。
10.使用GTEx的Gene eQTL Visualizer,来看看都有什么SNPs影响我们“亲爱的”目的基因的表达
首先打开 https://www.gtexportal.org/home/
界面如下:
换个喜欢的样子(气泡图):
按需要移动感兴趣的基因区间
这里的下方,可以看到连锁不平衡(Linkage disequilibrium,LD) 分析
连锁不平衡 (linkage disequilibrium)是指在某一群体中,不同座位上某两个基因同时遗传的频率明显高于预期的随机频率的现象。
简单地说,只要两个基因不是完全独立地遗传,就会表现出某种程度的连锁。这种情况就叫连锁不平衡。连锁不平衡可以是同一条染色体上的不同区域,也可以是不同染色体上的。
后记:
最后补充简书eQTL中的一个总结得很好的图:
好哒,eQTL就那样~
参考文献:
1.Brandt, Margot, and Tuuli Lappalainen. "SnapShot: discovering genetic regulatory variants by QTL analysis."Cell171, no. 4 (2017): 980-980.
2.简书://www.greatytc.com/p/2e1e9d3ccd63
3.https://www.cnblogs.com/leezx/p/10795353.html
6.https://www.cnblogs.com/zypiner/p/12499922.html
7.https://cloud.tencent.com/developer/article/1556265
8.eQTL Analysis例子:https://www.youtube.com/watch?v=J9Ezog3wEjE
9.GTEx Portal: Introduction to the Gene eQTL Visualizer, https://www.youtube.com/watch?v=O_IytGX9H9I
10.值得借鉴的eQTL可视化形式:https://cloud.tencent.com/developer/article/1554719