GWAS基本建模原理

混合线性模型

我们说的混合线性模型主要是由固定效应和随机效应所构成的,固定效应是我们主要研究的影响因素,而随机效应是潜在的,影响固定效应的因素。
对于混合线性模型来说,随机效应对固定效应的影响有两种:
一种是:
随机效应通过影响固定效应的截距,从而产生对固定效应的影响,我们把这个称为层次影响


其中 x 是固定效应;β0j表示截距,β1j表示斜率,γ00表示截距的平均值,Uoj表示随机效应的方差,那么不同的随机效应会对β0j产生不同的影响。
第二种是:

随机效应对回归系数产生影响,γ10为随机效应斜率的均值,U1j为随机效应的方差,那么不同的随机效应会对β1j产生不同的影响

第三种是:


加入随机效应项,αx为固定效应项,zβ为随机效应项,β为设计矩阵,z为随机效应的变量

GWAS原理

这里参考了某大佬写的,GWAS利用的原理既是混合线性模型,如果是加型效应:
我们先看下不考虑随机效应的:


对于等位基因来说,如果不考虑随机效应,那么我们可以看成是简单的一元回归问题。

对于等位基因来说,如果这个位点C为未发生变异的位点(T为变异位点),我们不妨设C=1,T=0。则CC=2,CT=1,TT=0(这一步的目的是将因子型变量转换成数值型 [连续型变量],方便建立线性模型)

至于想判断变异是否与表型值是正相关还是负相关,我们可以建立简单的线性模型来判断,以上面的例子为例



上图表示相比较于纯和未突变的位点(CC),该位点突变成 T 与表型成负相关(突变使表型值下降)


那么上图就构成了一元回归里面的数据点
我们的任务就是,找到合适的a,b使得:



最小,所以根据最小二乘法,对每一个回归系数求偏导,得到正规方程组,求解即可。

考虑随机效应,那么模型就变成了:



αx为固定效应项,zβ为随机效应项,β为设计矩阵,z为随机效应的变量
那么我们设计好矩阵,即哪一个表型受随机因素的影响:



那么我们设计好矩阵设计好各随机因素β的权重就可以利用最小二乘法求解了
比方说光照的权重c是3;温度的权重d为2;干旱的权重e为5;有(高)表示为1;无(低)表示为0,则:

根据最小二乘法对每一个回归系数求偏导,得到正规方程组,求解α,β系数矩阵即可

另一种建模方式

1.特征提取

根据《Population structure in genetic studies: Confounding factors and mixed models》提到的建模方式


建模的核心依然是混合线性模型,只不过它的特征提取采用的是变异的平均频率来表示

上图,pk表示种群里面某位点(snp)变异的频率,比方说现在有A,B,C,D,E五个品系,

其中对于SNP_1,A品系未发生突变,D品系发生一种碱基突变,C品系发生两种碱基突变,其他SNP类似
那么对于SNP_1来说,其变异频率pk为
3/5,其他SNP类似计算

如果SNP没发生突变,Xjk取下面的式子,对应strain A,B

如果SNP发生一种碱基的突变,Xjk取下面的式子,对应strain D,E

如果两个SNP发生两种碱基的突变,Xjk取下面的式子对应strain C

事实上这一步的主要目的还是把因子型变量转换为数值型变量,方便线性建模

2.建模原理

回顾下模型:



e为随机因素

比方说目前有一个高血压的SNP的数据:



每一条序列可以看作是一个品种(处理),每一个品种(序列,处理)对应着不同的血压值。

H0

H1

那么以SNP为决策变量,不同的血压值为响应变量建立线性模型,当模型回归系数不为0,那么说明该SNP位点与血压这个性状有关联

这里有两个基本假设:第一个假设是H0假设,该假设也被称为null hypothesis,它认为SNP和性状没有关联,也即是说,性状 y 等于总体平均与环境因素的加和。
第二个假设是H1假设,该假设认为SNP和性状存在关系,也就是说当存在某个SNP的时候,某个性状或某个疾病会倾向于发生在该个体身上,β是指该SNP对性状影响的大小,也就是说, β越大,该SNP对性状的影响越大
显然left SNP对性状的影响更明显

其中:
这里的 Xjk 为标准化的pk值方便建模 (图中仅显示了C和T位点)
模型中的 y 为性状值,本例中为血压值

3.非模型因素

为了让模型效果更好,作者引入了u,作为非模型因素


新模型:

这个u的特点是:Unmodeled factors可以通过两个strain的相同snp的个数来表征,我们可以建立一个矩阵,如Fig 13所示,矩阵中的元素代表两个strain相同snp的数目。根据这个矩阵可以得到unmodeled factor的大小,然后用一个随机变量u来代表unmodeled factors。u也被称为随机效应或variance

参考:
全基因组关联分析(GWAS)的计算原理

《Population structure in genetic studies: Confounding factors and mixed models》

David课件
https://genepi.qimr.edu.au/staff/davidD/Course/

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,718评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,683评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,207评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,755评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,862评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,050评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,136评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,882评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,330评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,651评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,789评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,477评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,135评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,864评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,099评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,598评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,697评论 2 351