前面已经简单介绍过GWAS的概念,GWAS分析中所用到的文件以及分析流程,我们在GWAS分析结果文件中经常会看到beta值和P值,他们分别代表什么意思?这两个值又有什么关系呢?
我们先来看一下EMMAX软件分析结果都有哪些内容。
其中,第一列代表SNP ID, 第二列代表beta, 第三列代表P-value。
beta和P-value在GWAS中到底代表什么意思,他们具体什么关系呢,是不是P-value越小,beta值越大呢。
beta: 等位基因1的效应大小估计,也称为等位基因的效应值。
P-value: 是目标SNP与表型是否显著关联。小的P-value被视为零假设(目标SNP与表型无关系)可能不成立,即备择假设成立,也就是目标SNP与表型有关系)的证据。
p-value具体计算过程较复杂,下一期再讲,这一期我们会先讲解一下beta值是如何计算出来的,这就引出了GWAS涉及的公式——最小二乘法。
我们举个例子来方便大家理解。
如图所示,假设有一个SNP位点,是SNP008: G > A
我们定义A为风险位点,以加性模型为例:一个G = 0, 一个T = 1,即GG = 0, AG = 1, AA = 2
根据上面公式(1):
SNP对应的x值分别为:2,2,1,2,1,0,0,2,2,0
表型对应的y值分别为:189,180,171,192,173,160,162,183,190,158
我们的任务就是找到合适的a和b,使得
(2a + b – 189)^2 + (2a + b – 180) ^2 + (1a + b – 171) ^2 + (2a + b – 192) ^2 + (1a + b – 173) ^2 + (0 + b – 160 ) ^2 + (2a + b – 183) ^2 + (2a + b – 183) ^2 + (2a + b – 190) ^2 + (0 + b – 158 ) ^2结果最小。
我们可以借助R计算一下:
拟合结果是,a最优值为13.47368,b最优值为159.6316 ,公式y= 13.47368 x + 159.6316
回归到全基因组关联分析中,这里a值即为beta值,是13.47368。
部分小伙伴认为效应值beta越大, P值一定就越小,其实这种理解是错误的,它们完全是两回事。
GWAS分析的大致思路可以简单归为以下几点:
Step1: 将对应的基因型转换为0,1,2的形式,这里将主效纯合基因编码为0,杂合基因型编码为1,次要纯合基因编码为2;
Step2: 将基因型输入向量x, 研究的表型输入向量y;
Step3: 对x和y做回归分析,y= ax + b, 其中a即为效应值,a是否显著即为P value
我们先利用R将上面身高例子利用最简单的线性模型进行关联分析一下。
#首先将基因型和身高分别输入x和y
x=c(2,2,1,2,1,0,0,2,2,0)
y=c(189,180,171,192,173,160,162,183,190,158)
height = lm(y ~ x)
summary(height)
我们发现该方法和前面我们求出来该位点效应值一样,都是13.474, 同时该位点与身高显著关联,P value = 1.02e-05。
接下来,我们看一个效应值(beta)较大,不显著(P value较大)的例子。
自己造数据。
#基因型0,1,2
x = rep(c(0,1,2),4)
x
#模拟的表型值
y = 13*x + rnorm(12)*20
y
# 作回归分析
sim = lm(y ~ x)
summary(sim)
我们可以看到效应值为7.865,P value为0.17,不显著。我们做散点图看一下出现效应值较大,不显著,在图形上具体怎么表现?
# 作散点图
data = data.frame(x,y)
data
ggplot(data,aes(x=x,y=y)) + geom_point() + stat_smooth(method='lm',formula = y~x,colour='red')
然后,我们再看一个效应值(beta)较小,极显著(P value较小)的例子。
自己造数据。
#基因型0,1,2
x = rep(c(0,1,2),4)
x
#模拟的表型值
y = 0.5*x + rnorm(12)*0.05
y
# 作回归分析
sim = lm(y ~ x)
summary(sim)
我们可以看到效应值为0.491590,P value为1.44e-12,极显著。我们做散点图看一下出现效应值较小,极显著,在图形上具体怎么表现?
# 作图
data = data.frame(x,y)
data
ggplot(data,aes(x=x,y=y)) + geom_point() + stat_smooth(method='lm',formula = y~x,colour='red')
我们可以简单理解一下,效应大不显著的位点是那些SNP对表型影响较大,但容易受外界环境影响,或者由于误差造成的个体之间表型较离散;效应小极显著的位点是那些SNP对表型影响较小,但是不易受外界环境影响,对表型影响较为稳定的位点。
总之,大家记住效应值beta和P值没有必然的联系,它们不是一回事即可。
往期回顾:
GWAS分析 (一)
//www.greatytc.com/p/67e1878845e3
GWAS分析-曼哈顿图 (二)
//www.greatytc.com/p/fa261b6045c2
GWAS分析-常用文件格式 (三)
//www.greatytc.com/p/ad47f575e83b
GWAS分析-R包GAPIT (四)
//www.greatytc.com/p/9944bcbfe3c7
GWAS分析-多个性状的manhattan组合图绘制(五)
//www.greatytc.com/p/b376a86cb7e3