eQTL就那样~(2)

前言

我还未想到这个专题叫什么......

暂定“XXX就那样”?


6.GTEx数据库是什么?

首页:https://gtexportal.org/home/

     “人类GWAS-转录组-疾病表型补完计划”,噢不,基因型-组织表达计划(Genotype-Tissue Expression project),就是干了这个事。

       是的,还真的已经做出来了!10年前的2010年起,GTEx研究联盟的研究收集并研究了来自449名生前健康的人类捐献者的7000多份尸检样本,涵盖44个组织(42种不同的组织类型),包括31个实体器官组织、10个脑分区、全血、两个来自捐献者血液和皮肤的细胞系,作者利用这些样本研究基因表达在不同组织和个体中有何差异。

      是的!你没有看错,根据上一话第五点,为了实现这个目的,是需要同时进行了转录组测序和基因分型分析的,才能构建了这个组织特异性的基因表达和调控的数据库。

       就是一个这样“泯灭人性”的项目,我说的不是伦理,是资金!即使是现在,一个WES测序都要2-3千人仔!这玩意不要说在5年前的2015,就算是现在,都不是一个随随便便的课题组的经费能够支持的!这是接受美国国家卫生研究院(NIH)资助的,是一个国家级的项目!目的就是要绘制出记录人DNA中影响基因表达的序列片段的详细图谱!

7.GTEx数据库中转录组测序和基因分型都用了什么仪器?

生信常用软件而已,没啥,可以直接跳过。但是知道这些,就就知道了有哪些“类似的”数据可以合并(拿来发文章啊,不要告诉我你看这个不是为了搞科研,发文章,迎娶白富美,走上人生巅峰!~)。

7.1 对于RNA seq

通过illumina Truseq试剂盒构建polyA+文库,采用Hiseq 2000/2500进行测序,对于下机数据,采用STAR进行比对,参照选择的是gencode V19版本的gtf文件,进行了以下3个level的定量

7.1.1 gene-level, 采用RNAseQC软件,对基因的raw countTPM两种方式进行定量

7.1.2 exon-level, 对exon的raw count进行定量

7.1.3 transcript-level,采用RSEM进行转录本水平的定量

测序平台:Expression Data

- Illumina TrueSeq RNA sequencing

- Affymetrix Human Gene 1.1 ST Expression Array (V3; 837 samples) 

7.2 基因分型 genotype

通过WGS对样本进行分型, 采用的是GATK germline variants calling的流程,步骤如下

bwa-mem alignment;picard markduplicate;BQSR;indel realign;haplotypeCaller

测序平台: Genotype Data

- Whole genome sequencing (HiSeq X; first batch on HiSeq 2000)

- Whole exome sequencing (Agilent or ICE target capture, HiSeq 2000)

- Illumina OMNI 5M Array or 2.5M SNP Array

- Illumina Human Exome SNP Array

7.3. eQTL

通过FastQTL软件进行cis-eQTL分析,将基因型和基因表达量进行关联。

8.cis-eQTL分析?什么是cis?能吃的吗?

我们首先需要搞清楚,什么是cis(adj. 同侧的,顺式的)?

看到这里,我们知道了染色体上一些能特定调控mRNA和蛋白质表达水平的区域(一堆SNPs),其mRNA/蛋白质的表达水平量与数量性状成比例关系。

为什么gene表达水平(转录组水平上的),与DNA水平上的snp有关呢?

因为:gene表达水平,与启动子有关。启动子增强,gene 表达水平升高。如果snp位于启动子区域,那么这个snp可能会影响收该启动子调控的gene的表达水平(eQTL关系)。

而这种eQTL关系可分为顺式作用eQTL和反式作用eQTL。

简单来说,就是你(数量性状)要向喜欢的人(基因)表达,要不就是直接和那个人表白(顺式作用,cis),要不就是和其他人搞暧昧,搞到喜欢的人吃醋,向你表白(反式作用,trans),如下:

顺式作用eQTL:

就是某个基因的eQTL定位到该基因所在的基因组区域,表明可能是该基因本身的差别引起的mRNA水平变化;

反式作用eQTL:

是指某个基因的eQTL定位到其他基因组区域,表明其他基因的差别控制该基因mRNA水平的差异。

顺式作用eQTL和反式作用eQTL

然后,eQTL分析都分析些啥?

我们首先复习一下:

      “与单个基因mRNA表达量相关的DNA突变,就被称为eQTL”。

     什么是相关(显示两个随机变量之间线性关系的强度和方向)?如何定义相关?

     当然方法很多,相关性分析,线性回归分析,非线形回归分析等。

     他们选择了“线性回归” ,如下:

     以全部DNA变异位点(已有:基因分型结果,SNP位点)为自变量(研究者主动操纵,而引起因变量发生变化的因素或条件,被看作是因变量的原因),轮流以每种mRNA表达量(已有:RNA seq结果)为因变量(结果,我们一开始就想知道如何影响基因表达这个结果啊),用大量的个体数据做样本进行线性回归,就可以得到每一个SNP位点和每一个mRNA表达量之间的关系

    多数情况下,我们关心的是“这一个SNP位点在这一个/附近mRNA表达量之间的关系”,所以做的是cis-eQTL分析。

    最后,

    GTEx项目中采用的是FastQTL软件用于cis-eQTL分析,至于具体原理可以参考在Bioinformatics杂志上发表的文章(https://academic.oup.com/bioinformatics/article/32/10/1479/1742545)。解析这高大上的玩意就完全影响了本文接地气的初衷了。

9.如何阅读eQTL分析?

      eQTL的分析结果本质就是一些调控基因表达的SNP位点,箱体图或者小提琴图什么的只是经典的可视化方式而已。

箱体图或者小提琴图eQTL例子

   按照SNP分型结果对样本进行分组,用箱体图或者小提琴图的方式展示不同组别中基因表达量的分布,直观的比较不同分组中表达量的差异。 如左图表示,有一堆人,分别有69个TT、134个TC和127个GG三个基因型。然后纵坐标是基因表达量(通常是经过各种共变量“调教”后的值),可见,TT中的一群这个基因(RGMB)在食管组织(自己选的组织)中表达“提高”。

10.使用GTEx的Gene eQTL Visualizer,来看看都有什么SNPs影响我们“亲爱的”目的基因的表达

首先打开 https://www.gtexportal.org/home/

下拉到这里,点击Locus Browser进去
使用示例,随便打一个基因(你感兴趣的基因也行)

界面如下:

留意上面的几个按钮,从左至右:显示variant的名字、使用泡泡图显示、选择感兴趣的组织、中间的是放大或缩小基因位置,点击后最右边的基因window会随着改变。

换个喜欢的样子(气泡图):

纵坐标表示不同的组织,横坐标表示不同的位点。蓝色越深,代表effect size越负,越红则effect size越正。圆圈代表-log10(p-value),越大则P值越小,越有cis调控可能。

按需要移动感兴趣的基因区间

可以调用蓝色的框框,左右移动到感兴趣的地方

这里的下方,可以看到连锁不平衡(Linkage disequilibrium,LD) 分析

越黑,代表那个区域的几个SNPs有高的LD,意味着这些信号(SNP)可能不是相互独立的。
点击图中的红色/蓝色格子(或圆圈)就会显示某一个SNP在某一个组织中,不同的基因分型如何影响你自己输入的感兴趣基因的表达

    连锁不平衡 (linkage disequilibrium)是指在某一群体中,不同座位上某两个基因同时遗传的频率明显高于预期的随机频率的现象。 

    简单地说,只要两个基因不是完全独立地遗传,就会表现出某种程度的连锁。这种情况就叫连锁不平衡。连锁不平衡可以是同一条染色体上的不同区域也可以是不同染色体上的。

后记:

最后补充简书eQTL中的一个总结得很好的图:

可做的各种结合分析

好哒,eQTL就那样~

参考文献:

1.Brandt, Margot, and Tuuli Lappalainen. "SnapShot: discovering genetic regulatory variants by QTL analysis."Cell171, no. 4 (2017): 980-980.

2.简书://www.greatytc.com/p/2e1e9d3ccd63

3.https://www.cnblogs.com/leezx/p/10795353.html

4.GTEx:基因型和基因表达量关联数据库

5.GTEx数据库-TCGA数据挖掘的好帮手

6.https://www.cnblogs.com/zypiner/p/12499922.html

7.https://cloud.tencent.com/developer/article/1556265

8.eQTL Analysis例子:https://www.youtube.com/watch?v=J9Ezog3wEjE

9.GTEx Portal: Introduction to the Gene eQTL Visualizer, https://www.youtube.com/watch?v=O_IytGX9H9I

10.值得借鉴的eQTL可视化形式:https://cloud.tencent.com/developer/article/1554719

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,402评论 6 499
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,377评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,483评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,165评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,176评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,146评论 1 297
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,032评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,896评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,311评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,536评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,696评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,413评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,008评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,659评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,815评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,698评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,592评论 2 353