GWAS学习笔记

GWAS 应用

一篇很好的笔记,介绍了GWAS的应用

//www.greatytc.com/p/d5a86164e809

GWAS 的QC和原理

在做GWAS分析之前需要对SNP做质控,滤掉一些位点,e.g. MAF etc. 参考以下文章。

//www.greatytc.com/p/67e1878845e3

如何理解曼哈顿图和QQ图

//www.greatytc.com/p/fa261b6045c2

//www.greatytc.com/p/987859ae503c

Q-Q plot(QQ图)虽然所用的数据和上面曼哈顿图的一样,但是它要表达的信息比起曼哈顿图来要丰富得多,而且在这两个图中更加能够体现GWAS结果好坏的是QQ plot——它是GWAS研究中更加重要的质控图。

其实,一直以来QQ plot是统计学分析中的常用图,在1968年Wilk.M.B的这篇文章(doi:10.1093/biomet/55.1.1)就提出了如何绘制这样的图已经它的用途。QQ plot全称是quantile-quantile plot,也就是分位图,是一种通过比较两个概率分布的分位数从而实现对两个概率分布进行比较的概率图方法(在统计学上较常用)。之所以可以这样做的原因是,如果两个概率分布相同,那么它们的分位数也应该相同或者重叠在同一条直线上。

在GWAS分析中,当我们通过曼哈顿图看到某些SNP和表型性状(或者疾病)有着很强的相关信号(比如,p-value < 10-6甚至10-8)时,依然不能直接认为这些位点就与表型显著相关的。这是因为基因组上基因位点的突变通常有两个来源:

第一是自然选择(Selection),我这里所说的自然选择不仅指达尔文在《进化论》中所描述的物竞天择,还指所有对物种适应性有影响作用的“力量”,比如高辐射环境、疾病、病毒等,这也是我们在GWAS研究中真正关心的突变

第二是遗传漂变(genetics drift),它是一种比较随机的基因组突变而且数量也不少,虽然也是物种演化的一种重要力量,但是由于它的突变都比较随机,目前认为它与环境的变迁没有必然联系,但也会在某些时候,有些随机的突变带来了生存优势,便会在种群中显示出它的作用。但绝大多数情况下,对于已经在群体中稳定存在的性状而言,并不认为它们有明显的作用,所以GWAS研究是不关心这一类突变的,我们要把它们全部排除掉。如果你发现自己得到的结果全部是这样的变异的话,那么,应该重新考虑一下如何重新设计这个分析,包括是否应该增加样本量以及想办法排除技术错误以及干扰因素等方面,或者也可能它们之间就是没有关系。

强关联信号遗传漂变的存在,在GWAS上会给我们带来一个问题,那就是无法直观地把它们识别并排除出去(很多时候是很难直接在曼哈顿图上发现的),甚至你都判断不了自己的研究是否只是充满了这类无效信息。那么现在的问题就是,我们应该如何做才能够有效地判断出这个研究中所获得关联结果确实是与表型性状或者疾病相关的呢?

这就是我们要用上QQ-plot的地方了。在GWAS分析里面,QQ-plot的纵轴是SNP位点的p-value值(这是实际得到的结果,observed),与曼哈顿图一样也是表示为 -log10(p-value);横轴是则是均匀分布的概率值(这是Expecte的结果),同样也是换算为-log10。横轴的这个概率值是如何计算的呢?实际上,它就是均匀分布的分位数——至于为何要用均匀分布而不是其它的分布,我会在下一段文字中进行详述。分位数的个数与GWAS研究的SNP位点数是一一对应的。比如我们研究中使用了5百万个基因位点,那么分位数的个数也是5百万个,从1/5000000,2/5000000,3/5000000,...一直往下排直到5000000/5000000,当然都是转换为-log10,然后与GWAS p-value一起作图而成(如下图)。

得到QQ plot之后,如果通过它来协作判断我们的GWAS结果到底是好还是坏呢?

严格来讲,这里其实是不应该用好坏来形容的,应该用是否与表型性状相关来形容。

判断的秘密就在横轴为什么要用均匀分布而不是选择其它分布上。这是因为均匀分布恰好可以用来近似描述基因组上的随机漂变现象。如果表型性状并非真的受自然选择所左右,那么你应该会看到GWAS p-value的分布和均匀分布的结果将集中在一条直线上,如果不是那么就应该能够看到相互分离的情况,特别是p-value越低的时候分离程度就越高,QQ-plot会翘起来(这是因为GWAS的零假设就是与随机突变相比没有区别)。

而且,我们知道基因组上的随机漂变是一定存在的,所以一定会有位点与随机漂变相关,特别是是在p-value比较大的位点看起来就应该和随机漂变重叠,这就表现在QQ-plot的前半部分里。这位点的分布会和均匀分布重叠!而且,比较好的结果是,当p-value < 10^-3时,GWAS结果开始与均匀分布出现快速分离——也就是说,自然选择的力量明显地显示出来了,使得结果在群体中快速摆脱随机性,最后看到一个高高翘起的QQ-plot。这时基本就可以断定,我们所研究的表型和基因型之间是存在着显著相关的自然选择作用的

这也是我们在评估一个GWAS研究时最基本的一个判断。

著作权归作者所有:黄树嘉。商业转载请联系作者获得授权,非商业转载请注明出处。

GWAS 常用模型解析 GLM & MLM

//www.greatytc.com/p/fc43a7e39254

https://www.docin.com/p-1011155128.html

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 225,448评论 6 524
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 96,648评论 3 406
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 172,816评论 0 370
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 61,288评论 1 304
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 70,294评论 6 401
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 53,739评论 1 316
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 42,076评论 3 431
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 41,071评论 0 280
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 47,632评论 1 327
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 39,637评论 3 347
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 41,755评论 1 355
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 37,344评论 5 351
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 43,069评论 3 341
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 33,487评论 0 25
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 34,646评论 1 277
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 50,342评论 3 384
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 46,813评论 2 367

推荐阅读更多精彩内容